Desarrollada en el Laboratorio de Ciencia de Datos y Tecnología de Software del CIC, esta tesis la presenta el Ing. Arturo Morales Barrios para obtener el grado de Maestro en Ciencias en Ingeniería de Cómputo, en noviembre de 2021. Para descargar la tesis completa, pulse aquí.
Resumen
El incremento general de la disponibilidad de datos electrónicos ha permitido el uso de herramientas de aprendizaje automático y minería de datos para mejoras en diversas áreas de la sociedad moderna. Entre éstas, se encuentra la de la creación de políticas públicas, en particular, las de aquellas relacionadas con la evaluación y análisis de programas de apoyo social. El uso de métodos computacionales de análisis de datos ha permitido avances en aspectos como la identificación de la población objetivo, estimación del impacto y predicción de la reacción provocada por programas gubernamentales de desarrollo. Siguiendo esta línea de investigación, en este trabajo se buscó hacer uso de herramientas de aprendizaje de máquina para la identificación y estudio de casos de personas que recibieron apoyos gubernamentales de nivel federal durante 2018 en México a pesar de no ser parte de la población objetivo de los respectivos programas.
Los casos previamente descritos fueron denominados como anomalías. Para su identificación, se emplearon consultas sobre la base de datos ENIGH 2018 (INEGI) combinada con la base de datos de la Medición de Pobreza Multidimensional en México (CONEVAL). Posteriormente, la información no empleada en las consultas fue utilizada en algoritmos de clasificación para identificar las variables relevantes en la separación de casos anómalos y no anómalos. En dicho proceso se aplicaron los modelos de Lasso y Regresón Logística Penalizada, dos métodos que ofrecían una alta interpretabilidad además de poder manejar la alta dimensionalidad de la base de datos y la correlación que existía entre sus variables. El presente estudio permitió ver las diferencias de desempeño entre estos dos modelos, los cuales han sido empleados con fines similares en la literatura de la minería de datos. Sin embargo, a pesar de esto, esta oportunidad de comparación entre los dos algoritmos no fue encontrada en ningún trabajo previo.
Nuestros resultados muestran que la existencia de estos casos anómalos no es uniforme a lo largo del país, y que ésta tiene una potencial explicación distinta para cada programa social estudiado. En el caso del programa 65 y Más, las anomalías se concentraron en el norte del país y en un sector no caracterizado por ser vulnerable. En el caso del programa PROSPERA, los casos anómalos se encontraron mayormente en personas sin padecimientos por ingresos o carencias sociales, y tuvieron mayor frecuencia en comunidades rurales del centro y norte de México. Para el caso del programa Tarjeta Sin Hambre, muchas de estas anomalías se encuentran en la parte centro-norte del país, y se enfocan principalmente en personas que, a pesar de no ser parte de la población objetivo del programa, se encuentran en estado de pobreza. Para el programa PROCAMPO, se estudiaron anomalías aproximadas que sugieren la existencia de beneficiarios que no explotan sus predios de la manera estipulada por el programa, principalmente en la zona norte del país. Por último, los resultados de los programas Empleo Temporal y Becas Escolares ofrecen una cota inferior del número total de anomalías pertenecientes a dichos programas, los cuales no pudieron ser encontrados debido a las limitaciones de la información disponible.
Se pretende que los resultados del presente trabajo puedan informar a las instituciones competentes sobre la existencia de estas anomalías en cuanto a su cantidad, distribución y naturaleza. A su vez, se espera que esto ayude en los procesos de evaluación, ejecución y mejora de los programas de apoyo
social a nivel nacional.
No hay comentarios:
Publicar un comentario