My articles and publications --(full text, click here. You may be asked to sign up --it is free) --Mis publicaciones (texto completo: http://ipn.academia.edu/AdolfoGuzman Quizá le pida suscribirse --es gratis) Mi página Web -- (click here) -- My Web page (http://alum.mit.edu/www/aguzman). ALGUNOS VIDEOS SOBRE LO QUE HAGO. Conferencia 'Ciudad inteligente, con conectividad y tecnología' (oct. 2010), parte 1 (15min), parte 2 (8min), parte 3 (9min), parte 4 (2min). Entrevista por redCudiMéxico, 2012: aquí (11 min). Avances en Inteligencia Artificial, entrevista en la Univ. IBERO, Puebla, 2013. Pulse aquí (53min). Video in the series "Personalities in the history of ESIME" (for the 100 years anniversary of ESIME-IPN, in Spanish) about Adolfo Guzman": 2014, click here. (1h)
Entrevista "La visión de los egresados del IPN, a 80 años de la creación del IPN y 100 años de la creación de la ESIME, 2014: ver en youtube (1h). Seminario sobre "Big Data" (la Ciencia de Datos). 2014. Pulse aquí (56min). Seminar on "Big Data", in English, 2014. Click here (56min). Algunos trabajos sobre Minería de Datos y sus Aplicaciones (CIC-IPN, 2016): pulse aquí (5min). El auge y el ocaso de las máquinas de Lisp (Plática en la Reunión Anual 2016 de la Academia Mexicana de Computación): pulse aquí (56min). Entrevista sobre la funcionalidad y competitividad de Hotware 10: 2016, aquí (6 min). Adolfo Guzmán Arenas, Ingeniero Electrónico e investigador del Centro de Investigación en Computación del IPN, conversó sobre su trayectoria y la importancia de las ciencias aplicadas para el desarrollo del país. 2017, Canal 11, Noticias TV (30min). Cómo se construyó la primera computadora en el mundo de procesamiento paralelo con Lisp. Marzo 2018. https://www.youtube.com/watch?v=dzyZGDhxwrU (12 min). Charla "Historias de éxito en la computación mexicana", ciclo Códice IA. Entrevista a A. Guzmán, "Entre la vida y la academia": https://bit.ly/3sIOQBc (45 min). El CIC cumple 25 años. Pulse aquí (51min. Habla Adolfo: "Pasado y futuro del CIC": minutos 13.57 a 22.70 ).
Perfil en ResearchGate -- Adolfo Guzman-Arenas My URL in Google Scholar: http://scholar.google.com/citations?user=Nw5lSdEAAAAJ My ORCID number 0000-0002-8236-0469. Scopus Author ID 6602302516.

Follow me on Academia.edu

Uso de la gamificación como una nueva estrategia neurodidáctica

 Tres profesores del Instituto Politécnico Nacional implementamos un juego divertido, con el objeto de ver si la gamificación podría usarse como una estrategia neurodidáctica. Los resultados, aunque preliminares, confirman que sí. El artículo que detalla el juego, el software usado, y los resultados del estudio puede descargarse aquí

Uso de la gamificación como una estrategia neurodiáctica.

Adolfo Guzmán, Guillermo Domínguez, Jorge Viera.

RESUMEN. La UPIICSA en su interés de implementar nuevas estrategias neurodidácticas decidió impulsar este estudio. El estudio está enfocado a explorar la utilización de la gamificación como una estrategia neurodidáctica con estudiantes de las carreras de Ciencias e Ingeniería en Informática invitándolos a participar en un quiz sobre la historia de la computación. El objetivo del estudio era conocer la actitud y respuesta de los estudiantes ante este tipo de actividades y su efecto en el aprendizaje. Conocer mediante la aplicación de una encuesta al terminar el quiz, cómo se sintieron, si les gustó participar y lo más importante, si habían ampliado sus conocimientos sobre el tema y si de esta forma se les había facilitado el aprendizaje y les había parecido divertido. El tamaño de la muestra fue de 105, de los cuales 88 aceptaron el reto y 68 de ellos lograron completar el quiz con éxito. Se utilizó software libre para crear el quiz Qbitts, integrado por 25 preguntas seleccionadas aleatoriamente con cinco posibles respuestas de un banco de 150 reactivos, adaptado de una aplicación de CodingNepal. Los resultados obtenidos muestran que a los estudiantes participantes en el quiz les pareció una actividad interesante, divertida, que puso a prueba su memoria de corto y largo plazo y que motivó a 41 de ellos a tratar de alcanzar las 25 respuestas correctas, aunque el reto era llegar a 20. La mayoría de los participantes declaró que les permitió aumentar sus conocimientos sobre la historia de la computación de una manera lúdica.

Palabras clave: gamificación, neurodidáctica, neuroeducación, quiz.

 

Fortalece el IPN la enseñanza-aprendizaje con videojuegos

En la Gaceta  Politécnica No.170 (31 de enero de 2024) aparece una nota sobre este juego y su importancia (3 págs.), descárguela aquí

ChatGPT, el nuevo y asombroso chatbot de Inteligencia Artificial

 En este artículo de la revista CIENCIA, Adolfo describe las ventajas, desventajas y riesgos de ChatGPT, un chatbot con extenso conocimiento extraído de muchos artículos, de Wikipedia y de otras fuentes. El texto completo puede consultarse aquí. Una charla sobre este tema, en 2023, en la Academia de Ingeniería México, puede verse aquí (1h 51min).

RESUMEN. ChatGPT fue diseñado para producir lenguaje humano bastante natural; pregúntele lo que sea y recibirá una respuesta como si la hubiera escrito alguien más, algo parecido a tener una conversación. Esta novedosa herramienta de inteligencia artificial impresiona rápidamente, pero muchas personas han señalado que tiene algunas dificultades serias. En el artículo y en la charla explico su funcionamiento, peligros y usos.

Adolfo cumple 80 años

El CIC del IPN celebró el onomástico de Adolfo.

Profesores, estudiantes y empleados festejaron a Adolfo, en la sala del CIC que lleva su nombre.


 De izq. a der., doctores Humberto Sossa, Eusebio Ricardez, Adolfo Guzmán, e Hiram Calvo, director interino del CIC, quien dirige unas palabras a los asistentes.

 

 

 Adolfo parte el pastel, acompañado de Angélica Gutiérrez. 

 

 

En seguida, en el tercer piso, varios profesores brindaron con Adolfo por su onomástico (22 de julio), y con el Prof. Humberto Sossa Azuela (onomástico el 23 de julio).





De izq. a der., xx; Moisés Salinas; Marco Antonio Ramírez; Osvaldo Espinosa; Humberto Sossa; Adolfo; Ponciano Escamilla; xx; Germán Téllez, Alma Delia Cuevas, Ricardo Barrón. 24jul2023.


En la foto de abajo, atrás, de izq. a der., María Elena Andrade; xx; Ricardo Barrón, Humberto Sossa; Elsa Rubio; Víctor Ponce; Alma Delia Cuevas, Germán Téllez. En la fila de enmedio, Osvaldo Espinosa y Adolfo Guzmán. Sentados, Moisés Salinas, yy.

El 23 de julio fue el onomástico de Humberto Sossa, quien aparece apagando el pastel junto a Adolfo.




 

 

Detección de indicadores de salud mental en esquizofrenia por medio de sensado pasivo de datos en teléfonos celulares

 En el Centro de Investigación en Computación, Instituto Politécnico Nacional, el 25 de julio de 2023 se graduó el Ing. Brandon Alejandro Mosqueda González, como Maestro en Ciencias de la Computación. Defendió la tesis "Detección de indicadores de salud mental en esquizofrenia por medio de sensado pasivo de datos en teléfonos celulares". La tesis completa puede descargarse pulsando aquí.

Resumen. En el presente trabajo se estudia la detección de indicadores de salud mental en personas con esquizofrenia a partir de datos sensados pasivamente de teléfonos celulares con algoritmos de aprendizaje automático. Utilizando los datos generados en un estudio realizado en 2015 con personas que padecen esquizofrenia, se aborda el problema de la detección del bienestar mental con nuevas técnicas propias del área del aprendizaje automático, usando como referencia los resultados obtenidos por este primer estudio.
     El documento comienza con una introducción general sobre el sensado pasivo, la detección de indicadores de salud mental con técnicas computacionales y los objetivos. Posteriormente, en el capítulo 2, se discuten los trabajos previos en donde, de manera similar, se han aplicado algoritmos de aprendizaje automático para el modelo de diversos problemas mentales. Por otra parte, en el marco teórico (capítulo 3), se introducen los fundamentos teóricos de las tećnicas y algoritmos empleados para este trabajo. Se decidió incluir un capítulo completo para describir el conjunto de datos y todas las tareas de preprocesamiento y análisis que se llevaron a cabo por la gran importancia que tuvieron en los experimentos, este corresponde al capítulo 4. En el capítulo 5, la metodología, se presentan todos los experimentos realizados así como los resultados obtenidos, sin discutirlos a detalle por ser la parte central del capítulo 6, discusión de resultados. Finalmente, en el último capítulo, conclusiones y trabajo futuro, se destacan los resultados obtenidos y las consecuencias en investigaciones futuras sobre el estudio de la salud mental con aprendizaje automático.
     A pesar de que la detección de indicadores de salud mental se trata de un problema bastante complejo, uno de los principales aportes de esta investigación sugiere que el bienestar mental en personas con esquizofrenia puede ser modelado con una precisión aceptable con algunas pocas variables obtenidas a partir de los sensores de teléfonos celulares y con algoritmos de aprendizaje explicables de eficiente implementación.

 Abstract. The present work studies the detection of mental health indicators in people with schizophrenia from passively sensed data from cell phones with machine learning algorithms. Using data generated in a study conducted in 2015 with people suffering from schizophrenia, we address the problem of detecting mental well-being with new techniques from the area of machine learning, using the results obtained by this first study as a reference.
     The paper begins with a general introduction on passive sensing, the detection of mental health indicators with computational techniques and the objectives. Subsequently, in Chapter 2, previous works where, in a similar way, machine learning algorithms have been applied to model various mental problems are discussed. On the other hand, in the theoretical framework (Chapter 3), the theoretical foundations of the tećnics and algorithms employed for this work are introduced. It was decided to include a complete chapter to describe the data set and all the preprocessing and analysis tasks that were carried out because of the great importance they had in the experiments, this corresponds to chapter 4. In chapter 5, the methodology, all the experiments performed are presented as well as the results obtained, without discussing them in detail because it is the central part of chapter 6, discussion of results. Finally, the last chapter, conclusions and future work, highlights the results obtained and the implications for future research on the study of mental health with machine learning.
     Although the detection of mental health indicators is a rather complex problem, one of the main contributions of this research suggests that mental well-being in people with schizophrenia can be modeled with acceptable accuracy with a few variables obtained from cell phone sensors and with explanatory learning algorithms of efficient implementation.

Development of machine learning and deep learning algorithms to detect depression in students through digital phenotyping

 El 12 de julio de 2023, Abraham Larrazolo Barrera obtuvo su grado de Maestro en Ciencias, en la Maestría en Ciencias de la Computación del Centro de Investigación y Estudios Avanzados (CIC IPN). Su graduación ocurrió en la sala "Adolfo Guzmán Arenas" del CIC.

El texto completo de tesis puede consultarse aquí. His thesis, full text, can be found here. El resumen de su tesis es el siguiente.

Depression is a common illness throughout the world. Approximately 280 million people around the world have depression, according to the World Health Organization (2021). The increasing capacities and more sensors in personal devices such as the telephone, smart bracelets, and watches have generated significant interest in the area of health due to the information from the data these devices passively generate. Research using digital phenotyping to predict indicators of mental illness, such as depression and stress, has increased.


In the present work, the analysis and exploration of different machine learning and deep learning models used to predict the levels of depression of students from the data obtained through mobile devices are shown. We used linear models and artificial neural networks to predict the results; Depression levels were analyzed and compared based on the PHQ-9 exam. The PHQ-9 is a clinical exam used to detect depression and consists of 9 questions. The score has a range from 0 to 27. The characteristics we used for the models were obtained by preprocessing the data from the mobile sensors. The results obtained for the
linear regression models were 7.7 Root Mean Squared Error RMSE for the classic linear regressor  (Ordinary Least Square); the results of this model with Ridge regularization were 2.8 RMSE and with Lasso 2.8 RMSE. The best model was the Neural Network Architecture with 2.7 RMSE.

La depresión es una enfermedad frecuente en todo el mundo. Aproximadamente 280 millones de personas alrededor del mundo tienen depresión de acuerdo a la Organización Mundial de la Salud, World Health Organization (2021). Las crecientes capacidades y mayor número de sensores en los dispositivos personales como el teléfono, pulseras y relojes inteligentes,han generado gran interés en el área de la salud debido a la información de los datos que dichos dispositivos generan pasivamente. Investigaciones en las que se usa el fenotipado digital para predecir indicadores de enfermedades mentales como la depresión y el estrés han ido en aumento.

En el presente trabajo se muestra el análisis y la exploración de diferentes modelos de aprendizaje máquina y aprendizaje profundo usados para predecir los niveles de depresión de estudiantes a partir de los datos obtenidos mediante dispositivos móviles. Empleamos modelos lineales y redes neuronales artificiales para la predicción de los resultados; los niveles de depresión fueron analizados y comparados con base al examen PHQ-9. El PHQ-9 es examen clínico usado para la detección de la depresión, consta de 9 preguntas, el puntaje tiene un rango de 0 a 27. Las características que usamos para los modelos fueron obtenidas mediante un preprocesamiento de los datos de los sensores del teléfono móvil, etc. Los resultados obtenidos para los modelos de regresión lineal fueron de 7.7 Root Mean Squared Error RMSE para el clásico regresor lineal (Ordinary Least Square), los resultados de este modelo con regularización Ridge fue de 2.8 RMSE y con Lasso 2.8 RMSE. El mejor modelo fue la Arquitectura de red neuronal con 2.7 RMSE. 

De izquierda a derecha, Dr. Gilberto Martínez Luna; Abraham Larrazolo; Adolfo Guzmán Arenas.


Cumple 40 años el CIIDIR Oaxaca. Adolfo da una charla en la ceremonia

En 2023 cumple 40 años el Centro Interdisciplinario de Investigación para el Desarrollo Integral Regional, Unidad Oaxaca. El 30 de junio de ese año organizó en sus instalaciones una ceremonia. Adolfo Guzmán participó con la charla "La Ciencia de Datos utiliza y aprovecha la Inteligencia Artificial", que muestra algunos trabajos desarrollados en el Centro de Investigación en Computación, IPN.

El evento también se transmitió por youtube (https://www.youtube.com/watch?v=nvd4D37eN-c&t=1911s , dura 2h 18min. Inicio de la ceremonia, minuto 15. Presentación de Adolfo por el Ing. Rogelio Ruiz, minuto 32. La charla de Adolfo empieza en el minuto 44. concluye en 1h 34min. Termina con la inquietud ¿nos reemplazarán los robots? La respuesta comienza en 1h 35min, concluye en 1h 40min. Comienzan las preguntas en 1h 41min.). 

Al terminar su plática, Adolfo recibe un reconocimiento del Consejo Oaxaqueño de Ciencia, Tecnología e Innovación.
 

                                                                
El maestro decano del CIIDIR Oaxaca, Dr. José Rodolfo Martínez y Cárdenas, otorga el reconocimiento de ese Centro de Investigación al Dr. Guzmán.

Algunas personalidades que asistieron al evento. En la extrema derecha, el Ing. Rogelio Ríos Benítez. Junto a él, de barbas, el Ing. Ángel González Torres, del CIIDIR.

Comentario que apareció en las redes sociales.

Santa Cruz Xoxocotlán, Oaxaca. 30 de junio de 2023.

El CIIDIR Unidad Oaxaca en el marco de su 40 Aniversario, realizó un homenaje al oaxaqueño Dr. Adolfo Guzmán Arenas, Investigador del Centro de Investigación en Computación (CIC) del Instituto Politécnico Nacional, el cuál ha trascendido en sus investigaciones sobre la ciencia de datos.

Para tal evento, la comunidad politécnica y público en general se reunieron en el Aula Magna “Alonso Fernández” de este Centro de Investigación, donde el Dr. Salvador Isidro Belmonte Jiménez, director del CIIDIR y funcionarios le dieron la bienvenida.

Durante el programa, la Dra. Ana Lilia Coria Páez, Secretaria de Investigación y Posgrado del Instituto Politécnico Nacional, reconoce el trabajo académico aplicado en la investigación a lo largo de estos años. También, la Directora General del Consejo Oaxaqueño de Ciencia, Tecnología e Innovación del Estado de Oaxaca, Mtra. Xhunaxhi Fernanda Mau Gómez, hizo una distinción muy importante por el trabajo aplicado en la ciencia e investigación y cuyo trabajo ha fortalecido diversas instituciones en las que ha colaborado.

El Dr. Adolfo Guzmán Arenas ha desarrollado significativas investigaciones enfocadas a la Ciencia de Datos, la cual, analiza grandes conjuntos de datos para extraer conclusiones útiles. Hallar tendencias, desviaciones, anomalías, situaciones interesantes, comportamientos típicos, en un mar de datos. Y actualmente, sobre la Inteligencia Artificial que es una rama de la Computación que crea programas y mecanismos que muestran comportamientos considerados inteligentes.

En este sentido, ofreció la conferencia “La ciencia de datos utiliza y aprovecha la inteligencia artificial”, donde participó la comunidad politécnica, estudiantes de la Universidad Tecnológica de los Valles Centrales de Oaxaca UTVCO, TecNM Campus Istmo y demás instituciones conectadas virtualmente.

En un momento especial, se le hizo entrega de un reconocimiento por su trayectoria e importante trabajo en la ciencia e investigación, a cargo del Maestro Decano del CIIDIR Oaxaca Dr. José Rodolfo Martínez y Cárdenas, en representación del Dr. Belmonte Jiménez.

En una breve semblanza sobre su trascendencia académica se pueden enmarcar que terminó su Doctorado en Ciencias de la Computación en el Instituto Tecnológico de Massachusetts (MIT), en Cambridge, Massachusetts, EE.UU., recibió de la Academia Mexicana de Informática el Premio Nacional de Informática (1994), y de manos del presidente Ernesto Zedillo (1996) el Premio Nacional de Ciencias y Artes (1996) y la Presea “Lázaro Cárdenas” (1997).

Fue fundador del Centro de Investigación en Computación (CIC) del IPN en 1996 y lo dirigió hasta 2002, actualmente trabaja en el CIC sobre el uso de Inteligencia Artificial en el análisis de grandes cantidades de datos, representación del conocimiento y aplicaciones de sistemas de información.

La Comunidad Politécnica es orgullosa de contar con destacadas personalidades oaxaqueñas que han triunfado a lo largo de los años y han puesto en alto a Oaxaca y su gente.

Felicidades Dr. Adolfo Guzmán Arenas, oriundo de Asunción Ixtaltepec, Oaxaca, por su gran aportación al desarrollo y aplicación del conocimiento científico.

“La Técnica al Servicio de la Patria”

Al terminar el evento, el Ing. Rogelio Ríos nos ofreció una comida en El Tule, Oaxaca, Oax. A la izquierda, de adelante hacia atrás, Rodrigo, hijo de Elsa; Elsa Rubio; Alma Delia Cuevas; Yolanda Guzmán; Eurípides Román. A la derecha, Humberto Sossa; su esposa Rocío; Fernando Osorio; Adolfo Guzmán.

 

ChatGPT, el nuevo y asombroso chatbot de IA

ChatGPT es un nuevo y poderoso chatbot de inteligencia artificial (IA). Posee un modelo de lenguaje que fue diseñado para producir lenguaje humano bastante natural. Al igual que tener una conversación con alguien, usted puede hablar con ChatGPT, y recordará las cosas que ha dicho en el pasado y, al mismo tiempo, podrá corregirse cuando lo desafíen.

ChatGPT impresiona rápidamente, pero muchas personas han señalado que tiene algunas dificultades serias. Pregúntele lo que quiera y recibirá una respuesta que suena como si hubiera sido escrita por un humano, habiendo aprendido sus conocimientos y habilidades de escritura al ser entrenado en cantidades masivas de datos a través de internet. Pero lo que no sabe lo inventa. Revuelve verdades y falsedades. Y no se da cuenta cuándo está mintiendo. Abordaré también las ventajas y riesgos de su uso.

Una charla sobre ChatGPT, que dí el 9 de junio de 2023 puede verse aquí (1hora, preguntas otra hora). La di en "Los martes de la AI" de la Academia de Ingeniería de México.

Influencia de Harold V. McIntosh en el Instituto Politécnico Nacional

 Aquí comparto un breve artículo sobre Mc ("Mac"), como le decíamos cariñosamente quienes lo conocimos.

Harold V. McIntosh fue un profesor que desempeñó un papel fundamental en la construcción del sistema de enseñanza e investigación en computación del Instituto Politécnico Nacional.

El artículo continúa. El artículo completo puede descargarse aquí.

 

EL PRIMER PASO: EL CENAC.

 

En enero de 1962, tres notables politécnicos, Víctor Bravo Ahuja, Eugenio Méndez Docurro y Antonio Padilla Segura, acordaron formar una Comisión para formular el proyecto de un centro de cálculo.

La Comisión se integró con representantes de diferentes empresas e instituciones del país y comenzó a trabajar en febrero del mismo año, bajo la dirección del ingeniero
José Schimill Sida, consultor de la Compañía de Luz.

En  abril de 1963 el sueño se convirtió en una realidad al estar ya funcionando el
Centro Nacional de Cálculo con una infraestructura moderna como el hecho de contar entre sus aparatos una IBM-162 o la PACE-231-R, para que cualquier programa, problema o información que se encuentre publicado o procesado en estas máquinas, quede a disposición de los usuarios.

El relato, por Modesto Cárdenas García, continúa en Facebook, y puede consultarse aquíAgrega Modesto: Faltó decir que la joya de las computadoras del Cenac fue la IBM 709.

Dice A. Guzmán: Cuando la disfrutaba el Cenac, la IBM 709, un "mainframe", fue la máquina más grande de América Latina. En 1963 estaba yo en tercer año de la carrera de Ingeniero en Comunicaciones y Electrónica (ESIME-IPN), y entré a trabajar (medio tiempo) en el CeNac. Lo primero que me sucedió fue asistir a un curso de Fortran.

Pronto se uniría al Cenac el Prof. Harold V. McIntosh. Esta foto es de cerca de 1963. Mc me dirigió la tesis de licenciatura de ESIME y me enseñó Lisp, entre otras cosas. La fotografía aparece en el relato  ya citado de Modesto Cárdenas.

 


El Laboratorio de Ciencia de Datos del CIC presente en el Tecnológico de Chalco. Junio 6 de 2023

El Dr. Gilberto Martínez y Adolfo Guzmán, del Laboratorio de Ciencia de Datos y Tecnología de Software del CIC, fueron invitados por el L. I. Marino Zúñiga Domínguez, Jefe de la División de Ingeniería Informática del Instituto Tecnológico de Estudios Superiores de Chalco, a participar en el IX Encuentro de Ingeniería Informática e Inteligencia Artificial. Tuvo lugar en ese plantel educativo los días 5 y 6 de junio de 2023. Adolfo dio la charla "La Ciencia de Datos utiliza y aprovecha la Inteligencia Artificial". 

También hubo una exposición de productos de artesanos locales.

En la fila de atrás, aparecen Adolfo (de corbata) y Gilberto (chamarra negra). En la fila de adelante, el primero a la izquierda es un paisano oaxaqueño que vende libros. Él tenía vendía libros en el CIC durante los inicios de ese Centro. El Prof. Zúñiga aparece de corbata. La señora de blanco en la fila de adelante es una de los artesanos.


El grupo que creó la Inteligencia Artificial

 The Meeting of the Minds That Launched AI 

 There’s more to this group photo from a 1956 AI workshop than you’d think

La nota completa aparece en https://spectrum.ieee.org/dartmouth-ai-workshop

Feature Selection Ordered by Correlation - FSOC

 Often, objects in a large dataset have many features or attributes. Not all of them are  relevant or apport information about the object (for instance, to classify it into one of several known classes). Narrowing the set of relevant features is useful to "understand what is going on". Also, fewer attributes mean faster data processing.

Arturo Heredia, Adolfo Guzmán and Gilberto Martínez have published an article that provides a new technique to select relevant features (those comprising most of the information for correct classification of an object) in a dataset containg objects with many features:

Arturo Heredia Márquez, Adolfo Guzmán-Arenas, Gilberto Lorenzo Martínez Luna (2023). FSOC – Feature selection ordered by correlation. Computación y Sistemas Vol. 27 No. 1, 2023, 33-51. ISSN: 2007-9737. DOI: 13053/CyS-27-1-3982.

The article (full text) can be dowloaded from here. Its abstract follows. 

Abstract. Data sets have increased in volume and features, yielding longer times for classification and training. When an object has many features, it often occurs that not all of them are highly correlated with the target class, and that significant correlation may exist between certain pair of features. An adequate removal of “useless” features saves time and effort at data collection, and assures faster learning and classification times, with little or no reduction in classification accuracy.

This article presents a new filter type method, called FSOC (Feature Selection Ordered by Correlation), to select, with small computational cost, relevant features. FSOC achieves this reduction by selecting a subset of the original features. FSOC does not combine existing features to produce a new set of fewer features, since
the artificially created features mask the relevance of the original features in class assignment, making the new model difficult to interpret. 

To test FSOC, a statistical analysis was performed on a collection of 36 data sets from several repositories some with millions of objects. The classification percentages (efficiency) of FSOC were similar to other feature selection features.
Nevertheless, when obtaining the selected features, FSOC was up to 42 times faster than other algorithms such as Correlation Feature Selection (CFS), Fast Correlation-Based Filter (FCFB) and Efficient feature selection based on correlation measure (ECMBF).

Keywords. Feature selection, data mining, pre-processing, feature reduction, data analysis.