My articles and publications --(full text, click here. You may be asked to sign up --it is free) --Mis publicaciones (texto completo: http://ipn.academia.edu/AdolfoGuzman Quizá le pida suscribirse --es gratis) Mi página Web -- (click here) -- My Web page (http://alum.mit.edu/www/aguzman). ALGUNOS VIDEOS SOBRE LO QUE HAGO. Conferencia 'Ciudad inteligente, con conectividad y tecnología' (oct. 2010), parte 1 (15min), parte 2 (8min), parte 3 (9min), parte 4 (2min). Entrevista por redCudiMéxico, 2012: aquí (11 min). Avances en Inteligencia Artificial, entrevista en la Univ. IBERO, Puebla, 2013. Pulse aquí (53min). Video in the series "Personalities in the history of ESIME" (for the 100 years anniversary of ESIME-IPN, in Spanish) about Adolfo Guzman": 2014, click here. (1h)
Entrevista "La visión de los egresados del IPN, a 80 años de la creación del IPN y 100 años de la creación de la ESIME, 2014: ver en youtube (1h). Seminario sobre "Big Data" (la Ciencia de Datos). 2014. Pulse aquí (56min). Seminar on "Big Data", in English, 2014. Click here (56min). Algunos trabajos sobre Minería de Datos y sus Aplicaciones (CIC-IPN, 2016): pulse aquí (5min). El auge y el ocaso de las máquinas de Lisp (Plática en la Reunión Anual 2016 de la Academia Mexicana de Computación): pulse aquí (56min). Entrevista sobre la funcionalidad y competitividad de Hotware 10: 2016, aquí (6 min). Adolfo Guzmán Arenas, Ingeniero Electrónico e investigador del Centro de Investigación en Computación del IPN, conversó sobre su trayectoria y la importancia de las ciencias aplicadas para el desarrollo del país. 2017, Canal 11, Noticias TV (30min). Cómo se construyó la primera computadora en el mundo de procesamiento paralelo con Lisp. Marzo 2018. https://www.youtube.com/watch?v=dzyZGDhxwrU (12 min). Charla "Historias de éxito en la computación mexicana", ciclo Códice IA. Entrevista a A. Guzmán, "Entre la vida y la academia": https://bit.ly/3sIOQBc (45 min). El CIC cumple 25 años. Pulse aquí (51min. Habla Adolfo: "Pasado y futuro del CIC": minutos 13.57 a 22.70 ).
Perfil en ResearchGate -- Adolfo Guzman-Arenas My URL in Google Scholar: http://scholar.google.com/citations?user=Nw5lSdEAAAAJ My ORCID number 0000-0002-8236-0469. Scopus Author ID 6602302516.

Follow me on Academia.edu

Torturando los datos hasta que confiesen

 En esta charla del Fondo de Cultura Económica, Adolfo explica en términos sencillos cómo trabaja la Minería de Datos y la Ciencia de Datos, y expone varias aplicaciones y ejemplos de su uso y utilidad. Pulse aquí para verla (1h 12min).

El título de esta charla lo copié del Dr. Luis Carlos Molina Félix, colega y amigo que también trabaja con la Ciencia de Datos.


Análisis y clasificación de la publicación científica del CIC

 En esta tesis, Oscar Alberto Rocha Arcos analiza y clasifica 690 de las cerca de 900 tesis que ha producido el CIC, a través de sus egresados, en sus 26 años de existencia. La tesis completa puede consultarse aquí.

RESUMEN

Actualmente se generan elevados volúmenes de información derivados de la actividad científica. Aunado a esto, la evolución del conocimiento científico en todas sus áreas de investigación y específicamente en las áreas de la computación y afines, está en constante transformación. Partiendo de esto, se tiene la necesidad de analizar y esquematizar esta información generadas, para obtener conclusiones sobre su avance, evolución y generación.

El presente documento realiza un análisis y evalación, de las temáticas dominantes en las publicaciones del CIC-IPN que se han desarrollado hasta el 2020. Las 690 tesis feron obtenidas de los repositorios digitales del IPN. Para la evaluación del sistema, 100 tesis se clasificaron de manera manual previamente con base a la ontología multijerárquica que sugiere ACM (Association for Computing Machinery, por sus siglas en inglés) para el campo de la computación, sirviendo como Golden Standard. La clasificación de la tesis es utilizando el sistema desarrollado CLASSONTO, que permite clasificar basándose en un árbol de conocimiento. El sistema ocupa una votación y propagación del voto, para la identificación de temáticas, además de un procesamiento de textos. El árbol de conocimiento en el que se basa es enriquecido, por lo que lo convierte en un sistema de mejora continua.

Los resultados obtenidos muestran las clasificaciones de cada tesis, permitiendo inferir qué temas trata cada una. De igual manera se hace un análisis y evaluación de los resultados con respecto al tiempo, visualizando el desarrollo de temáticas a través del tiempo.

Esta investigación es de particular interés, pues servirá como una referencia para evaluar la producción científica del CIC, fomentando su estudio y catalogación.

Palabras clave: clasificación jerárquica, ontologías, modelado de temas.

Clasificación ACM: 8.5.5.8 Clustering and classification; 11.3.1 Natural Language Processing; 12.8.2 Publishing; 11.4.1.2.4 Topic modeling; 8.5.1.6 Ontologies.

Aplicación de la minería de datos para buscar los atributos que inciden en el nivel glicémico de pacientes con Diabetes Mellitus tipo 2

 En esta tesis, Alejandro Gutiérrez descubre en qué pacientes operan mejor tres nuevas drogas para tratamiento de diabetes. Tesis completa: pulse aquí.

 Introducción: La Diabetes Mellitus tipo 2 (DM2) es una enfermedad crónica que en los últimos años se ha incrementado en forma importante a nivel mundial, y específicamente en México ha habido un incremento en la obesidad, y consecuentemente de la DM2 y sus complicaciones. Para identificar si los pacientes con DM2 tienen un adecuado control glucémico se requiere la determinación de hemoglobina glicada (Hb𝐴𝐴1𝑐𝑐) cada 3 meses. Para evitar las complicaciones se requiere de un control glucémico adecuado, esto a través de cambio en el estilo de vida y tratamiento farmacológico. En los últimos 10 años se han agregado tratamientos farmacológicos de nueva generación. Una de las áreas de las Ciencias de la Computación (CS) es la Minería de Datos (DM), la cual se apoya del Aprendizaje de Máquina (ML). Los algoritmos de clasificación de ML pueden ser útiles para identificar a sujetos con DM2 con adecuado e inadecuado control glucémico a través de la Hb𝐴𝐴1𝑐𝑐, y para identificar factores relacionados a un adecuado control glucémico en sujetos que ya cuentan con el diagnóstico de DM2.


Objetivos: Utilizando técnicas de minería de datos y clasificación, identificar a los pacientes con DM2 que tengan alta probabilidad de descontrol glucémico a través de glucosa, perfil de lípidos y variables clínicas, considerando el porcentaje de Hb𝐴𝐴1𝑐𝑐 como el valor de referencia. Comparar la efectividad de 3 tipos de tratamientos farmacológicos para mejorar el control glucémico a tres meses de seguimiento en pacientes con DM2.

 Resultados: En el modelo transversal el enfoque OCAT obtuvo mayor número de reglas con soporte mayor al 5% y alta precisión (mayor al 94%) para identificar a los sujetos con descontrol glucémico (con hasta 12 cláusulas en la regla); de estas reglas, dos se confirmaron como útiles a través de un modelo de regresión logística identificando un OR (Odds Ratio o razón de momios) de hasta 2.9 con significancia estadística. Dichas reglas son: 1.- Aquellos pacientes que sí usan insulina 2.- Mujeres con peso<=118.5kg, triglicéridos<=432mg/dl y Creatinina sérica<=0.97mg/dl. La clasificación por árboles sólo obtuvo una regla con soporte mayor al 5%, la cual tuvo una precisión de 98% y OR superior a 244 con significancia estadística: Un paciente con descontrol glucémico es aquel con edad<=70, sin uso de Gliflozina ni iDPP-4. En el modelo longitudinal para identificar si los diferentes tratamientos impactaban sobre la modificación del control glucémico, se observó a través de las máquinas de soporte vectorial que los sujetos que recibían gliflozina o iDPP-4 tuvieron un mayor control glucémico en comparación al grupo que sólo tuvo tratamientos tradicionales. Sin embargo, no se logró identificar diferencias significativas entre los pacientes que recibieron gliflozina e iDPP-4, a pesar de utilizar diferentes criterios de desenlaces entre los sujetos. A través de emparejamiento por puntaje de propensión, se identificó que la Gliflozina es 288% más efectiva que el iDPP-4.

Conclusiones: Con la base de datos que se obtuvo, se identificaron propuestas de reglas para identificar la presencia de descontrol glucémico a través de variables habituales (perfil de lípidos y datos generales) de los pacientes con DM2 siendo factores de riesgo: 1) La no administración de medicamentos de nueva generación para pacientes hasta los 70 años. 2) El uso de insulina. 3) Tener sexo femenino, peso hasta 118kg, triglicéridos no demasiado altos y Creatinina sérica normal. Se identificó que los tratamientos de nueva generación para el manejo de la DM2 lograron mejorar el control glucémico en los pacientes con DM2 a 6 meses de seguimiento, siendo la Gliflozina más efectiva que el iDPP-4.

Palabras clave: Diabetes Mellitus tipo 2, control glucémico, clasificación, máquina de soporte vectorial, árbol de decisión, análisis de componentes principales, enfoque OCAT, emparejamiento por puntaje de propensión.

Adolfo is Fellow of the Asia-Pacific Artificial Intellgence Association

 Starting on July 16, 2022, the Asia-Pacific Artificial Intelligence Association (AAAI) has a new Fellow Member: Adolfo Guzmán Arenas.

The Asia-Pacific Artificial Intelligence Association (AAIA) was incorporated in Hong Kong in 2021. The Asia-Pacific Artificial Intelligence Association (AAIA) is an academic, non-profit and non-governmental organization voluntarily formed 767 academicians worldwide. More info: https://www.aaia-ai.org/


 

Minería de datos para la detección de anomalías en apoyos gubernamentales

 Desarrollada en el Laboratorio de Ciencia de Datos y Tecnología de Software del CIC, esta tesis la presenta el Ing. Arturo Morales Barrios para obtener el grado de Maestro en Ciencias en Ingeniería de Cómputo, en noviembre de 2021. Para descargar la tesis completa, pulse aquí.

Resumen


El incremento general de la disponibilidad de datos electrónicos ha permitido el uso de herramientas de aprendizaje automático y minería de datos para mejoras en diversas áreas de la sociedad moderna. Entre éstas, se encuentra la de la creación de políticas públicas, en particular, las de aquellas relacionadas con la evaluación y análisis de programas de apoyo social. El uso de métodos computacionales de análisis de datos ha permitido avances en aspectos como la identificación de la población objetivo, estimación del impacto y predicción de la reacción provocada por programas gubernamentales de desarrollo. Siguiendo esta línea de investigación, en este trabajo se buscó hacer uso de herramientas de aprendizaje de máquina para la identificación y estudio de casos de personas que recibieron apoyos gubernamentales de nivel federal durante 2018 en México a pesar de no ser parte de la población objetivo de los respectivos programas.


Los casos previamente descritos fueron denominados como anomalías. Para su identificación, se emplearon consultas sobre la base de datos ENIGH 2018 (INEGI) combinada con la base de datos de la Medición de Pobreza Multidimensional en México (CONEVAL). Posteriormente, la información no empleada en las consultas fue utilizada en algoritmos de clasificación para identificar las variables relevantes en la separación de casos anómalos y no anómalos. En dicho proceso se aplicaron los modelos de Lasso y Regresón Logística Penalizada, dos métodos que ofrecían una alta interpretabilidad además de poder manejar la alta dimensionalidad de la base de datos y la correlación que existía entre sus variables. El presente estudio permitió ver las diferencias de desempeño entre estos dos modelos, los cuales han sido empleados con fines similares en la literatura de la minería de datos. Sin embargo, a pesar de esto, esta oportunidad de comparación entre los dos algoritmos no fue encontrada en ningún trabajo previo.


Nuestros resultados muestran que la existencia de estos casos anómalos no es uniforme a lo largo del país, y que ésta tiene una potencial explicación distinta para cada programa social estudiado. En el caso del programa 65 y Más, las anomalías se concentraron en el norte del país y en un sector no caracterizado por ser vulnerable. En el caso del programa PROSPERA, los casos anómalos se encontraron mayormente en personas sin padecimientos por ingresos o carencias sociales, y tuvieron mayor frecuencia en comunidades rurales del centro y norte de México. Para el caso del programa Tarjeta Sin Hambre, muchas de estas anomalías se encuentran en la parte centro-norte del país, y se enfocan principalmente en personas que, a pesar de no ser parte de la población objetivo del programa, se encuentran en estado de pobreza. Para el programa PROCAMPO, se estudiaron anomalías aproximadas que sugieren la existencia de beneficiarios que no explotan sus predios de la manera estipulada por el programa, principalmente en la zona norte del país. Por último, los resultados de los programas Empleo Temporal y Becas Escolares ofrecen una cota inferior del número total de anomalías pertenecientes a dichos programas, los cuales no pudieron ser encontrados debido a las limitaciones de la información disponible.


Se pretende que los resultados del presente trabajo puedan informar a las instituciones competentes sobre la existencia de estas anomalías en cuanto a su cantidad, distribución y naturaleza. A su vez, se espera que esto ayude en los procesos de evaluación, ejecución y mejora de los programas de apoyo
social a nivel nacional.