My articles and publications --(full text, click here. You may be asked to sign up --it is free) --Mis publicaciones (texto completo: http://ipn.academia.edu/AdolfoGuzman Quizá le pida suscribirse --es gratis) Mi página Web -- (click here) -- My Web page (http://alum.mit.edu/www/aguzman). ALGUNOS VIDEOS SOBRE LO QUE HAGO. Conferencia 'Ciudad inteligente, con conectividad y tecnología' (oct. 2010), parte 1 (15min), parte 2 (8min), parte 3 (9min), parte 4 (2min). Entrevista por redCudiMéxico, 2012: aquí (11 min). Avances en Inteligencia Artificial, entrevista en la Univ. IBERO, Puebla, 2013. Pulse aquí (53min). Video in the series "Personalities in the history of ESIME" (for the 100 years anniversary of ESIME-IPN, in Spanish) about Adolfo Guzman": 2014, click here. (1h)
Entrevista "La visión de los egresados del IPN, a 80 años de la creación del IPN y 100 años de la creación de la ESIME, 2014: ver en youtube (1h). Seminario sobre "Big Data" (la Ciencia de Datos). 2014. Pulse aquí (56min). Seminar on "Big Data", in English, 2014. Click here (56min). Algunos trabajos sobre Minería de Datos y sus Aplicaciones (CIC-IPN, 2016): pulse aquí (5min). El auge y el ocaso de las máquinas de Lisp (Plática en la Reunión Anual 2016 de la Academia Mexicana de Computación): pulse aquí (56min). Entrevista sobre la funcionalidad y competitividad de Hotware 10: 2016, aquí (6 min). Adolfo Guzmán Arenas, Ingeniero Electrónico e investigador del Centro de Investigación en Computación del IPN, conversó sobre su trayectoria y la importancia de las ciencias aplicadas para el desarrollo del país. 2017, Canal 11, Noticias TV (30min). Cómo se construyó la primera computadora en el mundo de procesamiento paralelo con Lisp. Marzo 2018. https://www.youtube.com/watch?v=dzyZGDhxwrU (12 min). Charla "Historias de éxito en la computación mexicana", ciclo Códice IA. Entrevista a A. Guzmán, "Entre la vida y la academia": https://bit.ly/3sIOQBc (45 min). El CIC cumple 25 años. Pulse aquí (51min. Habla Adolfo: "Pasado y futuro del CIC": minutos 13.57 a 22.70 ).
Perfil en ResearchGate -- Adolfo Guzman-Arenas My URL in Google Scholar: http://scholar.google.com/citations?user=Nw5lSdEAAAAJ My ORCID number 0000-0002-8236-0469. Scopus Author ID 6602302516.

Follow me on Academia.edu

Torturando los datos hasta que confiesen

 En esta charla del Fondo de Cultura Económica, Adolfo explica en términos sencillos cómo trabaja la Minería de Datos y la Ciencia de Datos, y expone varias aplicaciones y ejemplos de su uso y utilidad. Pulse aquí para verla (1h 12min).

El título de esta charla lo copié del Dr. Luis Carlos Molina Félix, colega y amigo que también trabaja con la Ciencia de Datos.


Análisis y clasificación de la publicación científica del CIC

 En esta tesis, Oscar Alberto Rocha Arcos analiza y clasifica 690 de las cerca de 900 tesis que ha producido el CIC, a través de sus egresados, en sus 26 años de existencia. La tesis completa puede consultarse aquí.

RESUMEN

Actualmente se generan elevados volúmenes de información derivados de la actividad científica. Aunado a esto, la evolución del conocimiento científico en todas sus áreas de investigación y específicamente en las áreas de la computación y afines, está en constante transformación. Partiendo de esto, se tiene la necesidad de analizar y esquematizar esta información generadas, para obtener conclusiones sobre su avance, evolución y generación.

El presente documento realiza un análisis y evalación, de las temáticas dominantes en las publicaciones del CIC-IPN que se han desarrollado hasta el 2020. Las 690 tesis feron obtenidas de los repositorios digitales del IPN. Para la evaluación del sistema, 100 tesis se clasificaron de manera manual previamente con base a la ontología multijerárquica que sugiere ACM (Association for Computing Machinery, por sus siglas en inglés) para el campo de la computación, sirviendo como Golden Standard. La clasificación de la tesis es utilizando el sistema desarrollado CLASSONTO, que permite clasificar basándose en un árbol de conocimiento. El sistema ocupa una votación y propagación del voto, para la identificación de temáticas, además de un procesamiento de textos. El árbol de conocimiento en el que se basa es enriquecido, por lo que lo convierte en un sistema de mejora continua.

Los resultados obtenidos muestran las clasificaciones de cada tesis, permitiendo inferir qué temas trata cada una. De igual manera se hace un análisis y evaluación de los resultados con respecto al tiempo, visualizando el desarrollo de temáticas a través del tiempo.

Esta investigación es de particular interés, pues servirá como una referencia para evaluar la producción científica del CIC, fomentando su estudio y catalogación.

Palabras clave: clasificación jerárquica, ontologías, modelado de temas.

Clasificación ACM: 8.5.5.8 Clustering and classification; 11.3.1 Natural Language Processing; 12.8.2 Publishing; 11.4.1.2.4 Topic modeling; 8.5.1.6 Ontologies.

Aplicación de la minería de datos para buscar los atributos que inciden en el nivel glicémico de pacientes con Diabetes Mellitus tipo 2

 En esta tesis, Alejandro Gutiérrez descubre en qué pacientes operan mejor tres nuevas drogas para tratamiento de diabetes. Tesis completa: pulse aquí.

 Introducción: La Diabetes Mellitus tipo 2 (DM2) es una enfermedad crónica que en los últimos años se ha incrementado en forma importante a nivel mundial, y específicamente en México ha habido un incremento en la obesidad, y consecuentemente de la DM2 y sus complicaciones. Para identificar si los pacientes con DM2 tienen un adecuado control glucémico se requiere la determinación de hemoglobina glicada (Hb𝐴𝐴1𝑐𝑐) cada 3 meses. Para evitar las complicaciones se requiere de un control glucémico adecuado, esto a través de cambio en el estilo de vida y tratamiento farmacológico. En los últimos 10 años se han agregado tratamientos farmacológicos de nueva generación. Una de las áreas de las Ciencias de la Computación (CS) es la Minería de Datos (DM), la cual se apoya del Aprendizaje de Máquina (ML). Los algoritmos de clasificación de ML pueden ser útiles para identificar a sujetos con DM2 con adecuado e inadecuado control glucémico a través de la Hb𝐴𝐴1𝑐𝑐, y para identificar factores relacionados a un adecuado control glucémico en sujetos que ya cuentan con el diagnóstico de DM2.


Objetivos: Utilizando técnicas de minería de datos y clasificación, identificar a los pacientes con DM2 que tengan alta probabilidad de descontrol glucémico a través de glucosa, perfil de lípidos y variables clínicas, considerando el porcentaje de Hb𝐴𝐴1𝑐𝑐 como el valor de referencia. Comparar la efectividad de 3 tipos de tratamientos farmacológicos para mejorar el control glucémico a tres meses de seguimiento en pacientes con DM2.

 Resultados: En el modelo transversal el enfoque OCAT obtuvo mayor número de reglas con soporte mayor al 5% y alta precisión (mayor al 94%) para identificar a los sujetos con descontrol glucémico (con hasta 12 cláusulas en la regla); de estas reglas, dos se confirmaron como útiles a través de un modelo de regresión logística identificando un OR (Odds Ratio o razón de momios) de hasta 2.9 con significancia estadística. Dichas reglas son: 1.- Aquellos pacientes que sí usan insulina 2.- Mujeres con peso<=118.5kg, triglicéridos<=432mg/dl y Creatinina sérica<=0.97mg/dl. La clasificación por árboles sólo obtuvo una regla con soporte mayor al 5%, la cual tuvo una precisión de 98% y OR superior a 244 con significancia estadística: Un paciente con descontrol glucémico es aquel con edad<=70, sin uso de Gliflozina ni iDPP-4. En el modelo longitudinal para identificar si los diferentes tratamientos impactaban sobre la modificación del control glucémico, se observó a través de las máquinas de soporte vectorial que los sujetos que recibían gliflozina o iDPP-4 tuvieron un mayor control glucémico en comparación al grupo que sólo tuvo tratamientos tradicionales. Sin embargo, no se logró identificar diferencias significativas entre los pacientes que recibieron gliflozina e iDPP-4, a pesar de utilizar diferentes criterios de desenlaces entre los sujetos. A través de emparejamiento por puntaje de propensión, se identificó que la Gliflozina es 288% más efectiva que el iDPP-4.

Conclusiones: Con la base de datos que se obtuvo, se identificaron propuestas de reglas para identificar la presencia de descontrol glucémico a través de variables habituales (perfil de lípidos y datos generales) de los pacientes con DM2 siendo factores de riesgo: 1) La no administración de medicamentos de nueva generación para pacientes hasta los 70 años. 2) El uso de insulina. 3) Tener sexo femenino, peso hasta 118kg, triglicéridos no demasiado altos y Creatinina sérica normal. Se identificó que los tratamientos de nueva generación para el manejo de la DM2 lograron mejorar el control glucémico en los pacientes con DM2 a 6 meses de seguimiento, siendo la Gliflozina más efectiva que el iDPP-4.

Palabras clave: Diabetes Mellitus tipo 2, control glucémico, clasificación, máquina de soporte vectorial, árbol de decisión, análisis de componentes principales, enfoque OCAT, emparejamiento por puntaje de propensión.