Minería de datos para la detección de anomalías en apoyos gubernamentales

My articles and publications --(full text, click here. You may be asked to sign up --it is free) --Mis publicaciones (texto completo: http://ipn.academia.edu/AdolfoGuzman Quizá le pida suscribirse --es gratis) Mi página Web -- (click here) -- My Web page (http://alum.mit.edu/www/aguzman). ALGUNOS VIDEOS SOBRE LO QUE HAGO. Conferencia 'Ciudad inteligente, con conectividad y tecnología' (oct. 2010), parte 1 (15min), parte 2 (8min), parte 3 (9min), parte 4 (2min). Entrevista por redCudiMéxico, 2012: aquí (11 min). Avances en Inteligencia Artificial, entrevista en la Univ. IBERO, Puebla, 2013. Pulse aquí (53min). Video in the series "Personalities in the history of ESIME" (for the 100 years anniversary of ESIME-IPN, in Spanish) about Adolfo Guzman": 2014, click here. (1h)

Entrevista "La visión de los egresados del IPN, a 80 años de la creación del IPN y 100 años de la creación de la ESIME, 2014: ver en youtube (1h). Seminario sobre "Big Data" (la Ciencia de Datos). 2014. Pulse aquí (56min). Seminar on "Big Data", in English, 2014. Click here (56min). Algunos trabajos sobre Minería de Datos y sus Aplicaciones (CIC-IPN, 2016): pulse aquí (5min). El auge y el ocaso de las máquinas de Lisp (Plática en la Reunión Anual 2016 de la Academia Mexicana de Computación): pulse aquí (56min). Entrevista sobre la funcionalidad y competitividad de Hotware 10: 2016, aquí (6 min). Adolfo Guzmán Arenas, Ingeniero Electrónico e investigador del Centro de Investigación en Computación del IPN, conversó sobre su trayectoria y la importancia de las ciencias aplicadas para el desarrollo del país. 2017, Canal 11, Noticias TV (30min). Cómo se construyó la primera computadora en el mundo de procesamiento paralelo con Lisp. Marzo 2018. https://www.youtube.com/watch?v=dzyZGDhxwrU (12 min). Charla "Historias de éxito en la computación mexicana", ciclo Códice IA. Entrevista a A. Guzmán, "Entre la vida y la academia": https://bit.ly/3sIOQBc (45 min). El CIC cumple 25 años. Pulse aquí (51min. Habla Adolfo: "Pasado y futuro del CIC": minutos 13.57 a 22.70 ).

Perfil en ResearchGate --

My URL in Google Scholar: http://scholar.google.com/citations?user=Nw5lSdEAAAAJ My ORCID number 0000-0002-8236-0469. Scopus Author ID 6602302516.

Follow me on Academia.edu

Minería de datos para la detección de anomalías en apoyos gubernamentales

Desarrollada en el Laboratorio de Ciencia de Datos y Tecnología de Software del CIC, esta tesis la presenta el Ing. Arturo Morales Barrios para obtener el grado de Maestro en Ciencias en Ingeniería de Cómputo, en noviembre de 2021. Para descargar la tesis completa, pulse aquí.

Resumen

El incremento general de la disponibilidad de datos electrónicos ha permitido el uso de herramientas de aprendizaje automático y minería de datos para mejoras en diversas áreas de la sociedad moderna. Entre éstas, se encuentra la de la creación de políticas públicas, en particular, las de aquellas relacionadas con la evaluación y análisis de programas de apoyo social. El uso de métodos computacionales de análisis de datos ha permitido avances en aspectos como la identificación de la población objetivo, estimación del impacto y predicción de la reacción provocada por programas gubernamentales de desarrollo. Siguiendo esta línea de investigación, en este trabajo se buscó hacer uso de herramientas de aprendizaje de máquina para la identificación y estudio de casos de personas que recibieron apoyos gubernamentales de nivel federal durante 2018 en México a pesar de no ser parte de la población objetivo de los respectivos programas.

Los casos previamente descritos fueron denominados como anomalías. Para su identificación, se emplearon consultas sobre la base de datos ENIGH 2018 (INEGI) combinada con la base de datos de la Medición de Pobreza Multidimensional en México (CONEVAL). Posteriormente, la información no empleada en las consultas fue utilizada en algoritmos de clasificación para identificar las variables relevantes en la separación de casos anómalos y no anómalos. En dicho proceso se aplicaron los modelos de Lasso y Regresón Logística Penalizada, dos métodos que ofrecían una alta interpretabilidad además de poder manejar la alta dimensionalidad de la base de datos y la correlación que existía entre sus variables. El presente estudio permitió ver las diferencias de desempeño entre estos dos modelos, los cuales han sido empleados con fines similares en la literatura de la minería de datos. Sin embargo, a pesar de esto, esta oportunidad de comparación entre los dos algoritmos no fue encontrada en ningún trabajo previo.

Nuestros resultados muestran que la existencia de estos casos anómalos no es uniforme a lo largo del país, y que ésta tiene una potencial explicación distinta para cada programa social estudiado. En el caso del programa 65 y Más, las anomalías se concentraron en el norte del país y en un sector no caracterizado por ser vulnerable. En el caso del programa PROSPERA, los casos anómalos se encontraron mayormente en personas sin padecimientos por ingresos o carencias sociales, y tuvieron mayor frecuencia en comunidades rurales del centro y norte de México. Para el caso del programa Tarjeta Sin Hambre, muchas de estas anomalías se encuentran en la parte centro-norte del país, y se enfocan principalmente en personas que, a pesar de no ser parte de la población objetivo del programa, se encuentran en estado de pobreza. Para el programa PROCAMPO, se estudiaron anomalías aproximadas que sugieren la existencia de beneficiarios que no explotan sus predios de la manera estipulada por el programa, principalmente en la zona norte del país. Por último, los resultados de los programas Empleo Temporal y Becas Escolares ofrecen una cota inferior del número total de anomalías pertenecientes a dichos programas, los cuales no pudieron ser encontrados debido a las limitaciones de la información disponible.

Se pretende que los resultados del presente trabajo puedan informar a las instituciones competentes sobre la existencia de estas anomalías en cuanto a su cantidad, distribución y naturaleza. A su vez, se espera que esto ayude en los procesos de evaluación, ejecución y mejora de los programas de apoyo
social a nivel nacional.

No hay comentarios:

Publicar un comentario

Suscribirse a: Enviar comentarios (Atom)

Cumple 30 años la Sección (ahora Departamento) de Computación del CINVESTAV-IPN

La Sección de Computación del CINVESTAV IPN fue fundada por Adolfo en 1986. 30 años después, en 2006, se transforma en el Departamento de Computación del CINVESTAV IPN. Para conmemorar ese evento, vino en 2006 el Prof. John Hopcroft. De izquierda a derecha, Adolfo Guzmán, Juan Carlos Chimal, John Hopcroft, Germán Téllez. El Prof. Hopcroft es un distinguido teórico de la computación, de la Universidad de Cornell. Nos habló de las matemáticas del futuro de la computación, que cada vez analiza más datos, redes grandes con pocos lados, y vectores ralos en espacios de muchas dimensiones.

En los portales de Oaxaca de Juárez. Semana Nacional de Ciencia y Tecnología. Oct. 2013

Llegué temprano a dar una plática, invitado por el Consejo Oaxaqueño de Ciencia y Tecnología. Fuimos el Ing. Alberto Sánchez (Director del COCYT) y yo a desayunar a los portales frente al Palacio de Gobierno, en la capital, Oaxaca de Juárez. Aquí, Adolfo toma una taza de chocolate, junto con pan de yema. Luego vendría un tasajo (carne de res asada a las brasas) con entomatadas. Alberto cosecha chiles habaneros, uno de ellos se aprecia en la parte inferior de la fotografía. Ideal para el tasajo. 22 de octubre de 2013.