Computer Science - from Adolfo Guzmán --Trabajos en Computación: noviembre 2014

My articles and publications --(full text, click here. You may be asked to sign up --it is free) --Mis publicaciones (texto completo: http://ipn.academia.edu/AdolfoGuzman Quizá le pida suscribirse --es gratis) Mi página Web -- (click here) -- My Web page (http://alum.mit.edu/www/aguzman). ALGUNOS VIDEOS SOBRE LO QUE HAGO. Conferencia 'Ciudad inteligente, con conectividad y tecnología' (oct. 2010), parte 1 (15min), parte 2 (8min), parte 3 (9min), parte 4 (2min). Entrevista por redCudiMéxico, 2012: aquí (11 min). Avances en Inteligencia Artificial, entrevista en la Univ. IBERO, Puebla, 2013. Pulse aquí (53min). Video in the series "Personalities in the history of ESIME" (for the 100 years anniversary of ESIME-IPN, in Spanish) about Adolfo Guzman": 2014, click here. (1h)

Entrevista "La visión de los egresados del IPN, a 80 años de la creación del IPN y 100 años de la creación de la ESIME, 2014: ver en youtube (1h). Seminario sobre "Big Data" (la Ciencia de Datos). 2014. Pulse aquí (56min). Seminar on "Big Data", in English, 2014. Click here (56min). Algunos trabajos sobre Minería de Datos y sus Aplicaciones (CIC-IPN, 2016): pulse aquí (5min). El auge y el ocaso de las máquinas de Lisp (Plática en la Reunión Anual 2016 de la Academia Mexicana de Computación): pulse aquí (56min). Entrevista sobre la funcionalidad y competitividad de Hotware 10: 2016, aquí (6 min). Adolfo Guzmán Arenas, Ingeniero Electrónico e investigador del Centro de Investigación en Computación del IPN, conversó sobre su trayectoria y la importancia de las ciencias aplicadas para el desarrollo del país. 2017, Canal 11, Noticias TV (30min). Cómo se construyó la primera computadora en el mundo de procesamiento paralelo con Lisp. Marzo 2018. https://www.youtube.com/watch?v=dzyZGDhxwrU (12 min). Charla "Historias de éxito en la computación mexicana", ciclo Códice IA. Entrevista a A. Guzmán, "Entre la vida y la academia": https://bit.ly/3sIOQBc (45 min). El CIC cumple 25 años. Pulse aquí (51min. Habla Adolfo: "Pasado y futuro del CIC": minutos 13.57 a 22.70 ).

Perfil en ResearchGate --

My URL in Google Scholar: http://scholar.google.com/citations?user=Nw5lSdEAAAAJ My ORCID number 0000-0002-8236-0469. Scopus Author ID 6602302516.

Follow me on Academia.edu

Visualización de respuestas a preguntas de negocios de periodos variables en tiempo y de temporadas sobre objetos de interés

Eric Ortega Villanueva enfocó su tesis de Maestría en el Centro de Investigación en Computación del IPN a la visualización de información acerca de las trayectorias académicas de los estudiantes de educación básica en la República Mexicana. Este trabajo fue dirigido por los Dres. Gilberto Martínez Luna y Jesús Olivares Ceja.

Resumen
     Actualmente los problemas de analizar grandes volúmenes de datos se presentan de manera cotidiana, ya que la disponibilidad de terabytes en medios de almacenamiento junto con sistemas de software y comunicaciones permiten recolectar de manera continua grandes volúmenes de datos. Entre muchas fuentes de estos volúmenes, son las actividades de sistemas sociales con un gran número de participantes, administrados por software que registra y monitorea tales actividades, un ejemplo de estos son los estudios del rendimiento escolar.
     En México una actividad de este tipo son los estudios de educación básica (preescolar, primaria y secundaria), que en promedio, cada año registran a más de 30 millones de estudiantes, estos estudios se hacen de manera continua, en los doce años que dura la educación básica, registrando la inscripción y terminación de cada persona; así que por cada estudiante se almacenan al menos 24 registros, en caso de terminar con éxito su ciclo escolar.

     La mayoría de los estudiantes que terminan con la educación básica son casos de éxito, pero, aun así algunos no la terminan o se retrasan, lo cual, repercute en la economía del país (por la inversión que representan en materiales, dinero, administración y recursos asignados). Por lo anterior, es importante realizar un análisis de estos últimos, para lo cual, primero se debe hallar una manera de modelar las trayectorias de estudio para así describir y posteriormente identificar mediante la clasificación de casos las trayectorias académicas y así ayudar a localizar las causas de las anomalías de no terminar la educación básica.
     En este trabajo con una muestra de información proporcionada por el Instituto Nacional para la Evaluación de la Educación (INEE) que abarca casi 5 años
continuos de México, que equivale a más de 200 millones de registros, se realiza la modelación de lo que son las trayectorias académicas de los estudiantes de educación básica, para lo cual se definen procesos que extraen los datos necesarios para identificar las trayectorias que el modelo distingue. Se define una estructura en la que se almacenan datos y posteriormente se realiza una descripción de los mismos. Se determina la frecuencia de cada trayectoria y las dimensiones que permiten ubicarlo en un cuboide. Los datos organizados mediante una lattice permiten contestar preguntas de negocio cuya respuesta se visualiza usando la forma más apropiada para el tipo de información. La estructura de lattice también permite responder a consultas en diferentes niveles de abstracción o de jerarquía.
     Esta estructura de almacenamiento también tiene la característica de facilitar el análisis de la movilidad de los estudiantes, dado que se cree que sea una causa de las trayectorias de interés que no tienen éxito al retrasar su terminación o detenerla. La estructura permite almacenar bajo una etiquetación de los cambios en escuelas, en tipos de escuelas, municipios, estados, turnos, entre otros datos que permiten revisar su impacto en los diferentes tipos de trayectorias, que se espera sea más apreciado cuando se realiza la visualización de estas trayectorias.
     La estructura de almacenamiento permite responder a consultas en diferentes niveles de abstracción o jerarquías, para lo cual se auxilia de una estructura de lattice que permite moverse a través de las jerarquías de abstracción y mostrar agregados en diferentes niveles.

Se gradua como Maestro en Ciencias Erick Ortega Villanueva jul2014. De izq. a der., M. en C. Sandra Orantes, Dr. Gilberto Martínez (Director de tesis), M. en C. Ortega (el sustentante), Dr. Adolfo Guzmán.

Generación dinámica de vistas de datos en sistemas de integración de información para fuentes de datos independientes

Un sistema de integración de información crea la ilusión de que se tiene una base de datos unificada o única (que se integra a partir de varias bases de datos independientes), a la cual se le puede formular una consulta. Para responder a esta consulta, debe reformularse: dividirse en consultas parciales que deben ser ejecutadas en las bases (reales) independientes. En su tesis de Maestría en el Centro de Investigación en Computación del Instituto Politécnico Nacional, Álvaro Salazar Urbina, dirigido por el M. en C. Alejandro Botello, da tres algoritmos para la reformulación de la consulta global. Pulse aquí para obtener la tesis (texto completo) de Álvaro.

Abstract. This work focuses on the integration of information systems, specifically in the reformulation of a query. The reformulation of the query is a very important phase of the integration of information systems due to the fact that general queries by a user to a global interface, must be executed in different local schemas.
This thesis provides three algorithms for query formulation under the Local As View approach.
Click here to obtain Alvaro's thesis.

Aplicación de técnicas de optimización para la generación de planes de ejecución de consultas hacia bases de datos remotas

¿Cómo se generan los planes de ejecución de consultas hacia bases de datos remotas, donde la consulta es única y el plan la descompone en preguntas parciales hacia las bases de datos relevantes (el software debe escoger primero cuáles bases serán las relevantes, las usadas)? ¿En qué orden deben ejecutarse estas consultas parciales, o pueden ser simultáneas? En su tesis de maestría en el CIC-IPN, dirigido por el M. en C. Alejandro Botello, Rodolfo Navarro Zayas aborda y resuelve este problema. Pulse aquí para obtener la tesis de Rodolfo (texto completo).

Resumen.
Un sistema mediador es aquel que permite llevar a cabo la integración de datos que residen en fuentes de información generalmente heterogéneas – que no son del mismo sistema y/o modelo de datos - y remotas, y para ello utiliza una representación unificada de los datos (denominada esquema mediado). Este esquema es utilizado por el usuario para formular consultas particulares al sistema mediador, sin que el usuario conozca la ubicación física de los datos, ni los esquemas de las fuentes en las que estos se encuentran alojados. Estos aspectos deben ser resueltos por el sistema mediador al tiempo de ejecutar la consulta.
En este trabajo se presenta una propuesta de solución para la generación de planes de ejecución de consultas hacia bases de datos remotas, que podrá ser incorporada por el módulo optimizador de un sistema mediador, y en donde el enfoque propuesto inicia recibiendo la consulta del usuario (que inicialmente se encuentra en términos del esquema mediado) y procede a: a) hacer la selección de fuentes relevantes (aquellas que cooperan con respuestas trascendentes), b) la descomposición de la consulta en expresiones que están en términos de los esquemas locales (denominadas consultas objetivo), así como, c) generar la definición del orden de las operaciones de reunión, buscando que este orden proporcione agilidad al procesamiento de la consulta en la integración.
Para determinar el orden de ejecución, se aplican algunas fórmulas de optimización para estimar el número de registros resultantes de las reuniones implicadas en la consulta, tomando en cuenta los valores de selectividad (número de tuplas que cumplen un predicado sobre el total de tuplas), la cardinalidad (los valores que aparecen en un atributo) y los tamaños de las tablas (número total de tuplas) involucradas; posteriormente se utilizan estos datos en un algoritmo Greedy cuya función de progreso consiste en dar una mayor prioridad a la ejecución temprana de las operaciones que generan una cantidad menor de tuplas, con el fin de evitar o postergar tanto como sea posible las operaciones que generan más tuplas y por consiguiente reducir el tiempo de respuesta del sistema para resolver la consulta del usuario.

Abstract.
A mediator system performs the integration of data which is located in remote sources, these sources usually are heterogeneous (it means that sources do not belong to the same system or that the sources use different data models to store the information). In order to handle these differences the mediator uses a unified data representation (called mediated schema), this representation is used by the user to express their queries to the system, therefore the user does not need to know the location of the data or the schemas of the sources where the data is stored, These aspects are handled by the mediator system at query execution time.
In this text is presented an approach to generate optimal query execution plans through the access to remote databases, this approach must be able to be incorporated in a query optimizer module of a mediator system. This module receives the user query (which initially is expressed in terms of the mediated schema) and then: a) perform the selection of the relevant sources (those which provide meaningful results), b) do the query decomposition of expressions in terms of local schemas (called target queries) and c) determine the execution order of joins operations, aiming to provide agility to query execution process.
To determine the execution order, some optimization formulas are performed for estimating the number of records resulting from the join operations involved in the query, considering the selectivity values (number of tuples that satisfy a condition) cardinality (the values that appear in an attribute) and the sizes of the tables (total number of tuples) involved; then these data is used for a Greedy algorithm whose progress evaluation function gives greater priority to the early execution of operations that generate fewer tuples, in order to avoid or delay as much as possible the operations that generate more tuples and thus reduce the response time of the system to resolve the user query.
Click here to obtain Rodolfo's thesis.

Efficiently Finding the Optimum Number of Clusters in a Dataset with a New Hybrid Cellular Evolutionary Algorithm

In his Ph. D. thesis, Javier Arellano develops four new ways to find better clusters in a data set. A summary of these methods is given in a Computación y Sistemas paper. Click here to obtain it in full.
     Abstract. A challenge in hybrid evolutionary algorithms is to employ efficient strategies to cover all the search space, applying local search only in actually promising search areas; on the other hand, clustering algorithms, a fundamental base for data mining procedures and learning techniques, suffer
from the lack of efficient methods for determining the optimal number of clusters to be found in an arbitrary dataset. Some existing methods use evolutionary algorithms with cluster validation index as the objective function. In this article, a new cellular evolutionary algorithm based on a hybrid model of global and local heuristic search is proposed for the same task, and extensive experimentation is done with different datasets and indexes.

Efficiently Finding the Optimum Number of Clusters in a Dataset with a New Hybrid Cellular Evolutionary Algorithm. Javier Arellano-Verdejo, Adolfo Guzmán-Arenas, Salvador Godoy-Calderon, and Ricardo Barrón Fernández. Computación y Sistemas, Vol. 18, No. 2, 2014, pp. 317-327

Búsqueda eficiente del óptimo número de grupos en un conjunto de datos con un nuevo algoritmo evolutivo celular híbrido.

En su tesis doctoral, Javier Arellano muestra varios métodos nuevos para encontrar mejores cúmulos o agrupamientos de un conjunto de datos. Usa algoritmos evolutivos para este fin. Un artículo que los resume aparece en Computación y Sistemas. Pulse aquí para obtener el artículo completo.

     Resumen. Un reto actual en el área de algoritmos evolutivos híbridos es el empleo eficiente de estrategias para cubrir la totalidad del espacio de búsqueda usando búsqueda local sólo en las regiones prometedoras. Por otra parte, los algoritmos de agrupamiento, fundamentales para procesos de minería de datos y técnicas de aprendizaje, carecen de métodos eficientes para determinar el número óptimo de grupos a formar a partir de un conjunto de datos. Algunos de los métodos
existentes hacen uso de algunos algoritmos evolutivos, así como una función para validación de agrupamientos como su función objetivo. En este artículo se propone un nuevo algoritmo
evolutivo celular, para abordar dicha tarea. El algoritmo propuesto está basado en un modelo híbrido de búsqueda, tanto global como local, y tras presentarlo se prueba con una extensa experimentación sobre diferentes conjuntos de datos y diferentes funciones objetivo.

Palabras clave. Agrupamiento, algoritmo genético celular, microalgoritmos evolutvos, optimización por cúmulo de partículas, número óptimo de clases.

Vela de San Jerónimo Doctor en el Casino Militar, Chapultepec, México DF. 3 de octubre de 2014

San Jerónimo es el santo patrón de Ciudad Ixtepec, Oax. Cada año se celebra su fiesta, en un baile istmeño llamado "vela", donde las mujeres lucen sus hermosos trajes. Cambian los mayordomos, y la reina saliente pasa su trono a la reina entrante. Los istmeños que estamos lejos de nuestro terruño, también celebramos en su día. En esta ocasión, la vela "San Jerónimo Doctor" ocurrió en el Casino Militar de la cd. de México.

La calenda, con antorchas, es un recorrido festivo nocturno

Desfile de tehuanas, al principio del festejo

Desfila el estandarte de San Jerónimo, santo patrón de Cd. Ixtepec, Oax.

Cambio de mayordomos. Habla la reina saliente

Adolfo con la reina entrante, S. M. Ma. del Carmen Muñoz Martínez

Adolfo, Adolfito. 3 de octubre de 2014

Se generaliza el baile. En esta pieza de música solo bailan mujeres

Despedida de Sergei Levachkine

Miembro del Laboratorio de Bases de Datos y Tecnología de Software, el Dr. Sergei Levachkine se retira del CIC (Centro de Investigación en Computación) del IPN, después de una estancia fructífera de 15 años. Nos reunimos el viernes 3 de octubre de 2014 para despedirnos de él, y le deseamos una feliz y próspera carrera profesional y científica, en sus nuevos rumbos.

De izq. a der., Jesús Figueroa, Adolfo Guzmán, Sergei Levachkine, Gilberto Gutiérrez, Juan Carlos Chimal, Germán Téllez, Ricardo Barrón. 3 de octubre de 2014.

After a fruitful stay at the Laboratorio de Bases de Datos y Tecnología de Software (Data Base and Software Technology Laboratory) of Politécnico, Dr. Sergei Levachkine departs from CIC (Centro de Investigación en Computación). During his 15 years as a full Professor, he erected the Geoprocessing Laboratory to international heights, directed numerous M. Sc. and Ph. D. thesis, edited several volumes of Springer's Lecture Notes, created the Confusion Theory and, with Adriana Jiménez (his Ph. D. student, see below in this blog) created the Theory of Inconsistency. Good luck, good fortune and good health, were our common wishes for him.

Cumple 30 años la Sección (ahora Departamento) de Computación del CINVESTAV-IPN

La Sección de Computación del CINVESTAV IPN fue fundada por Adolfo en 1986. 30 años después, en 2006, se transforma en el Departamento de Computación del CINVESTAV IPN. Para conmemorar ese evento, vino en 2006 el Prof. John Hopcroft. De izquierda a derecha, Adolfo Guzmán, Juan Carlos Chimal, John Hopcroft, Germán Téllez. El Prof. Hopcroft es un distinguido teórico de la computación, de la Universidad de Cornell. Nos habló de las matemáticas del futuro de la computación, que cada vez analiza más datos, redes grandes con pocos lados, y vectores ralos en espacios de muchas dimensiones.

En los portales de Oaxaca de Juárez. Semana Nacional de Ciencia y Tecnología. Oct. 2013

Llegué temprano a dar una plática, invitado por el Consejo Oaxaqueño de Ciencia y Tecnología. Fuimos el Ing. Alberto Sánchez (Director del COCYT) y yo a desayunar a los portales frente al Palacio de Gobierno, en la capital, Oaxaca de Juárez. Aquí, Adolfo toma una taza de chocolate, junto con pan de yema. Luego vendría un tasajo (carne de res asada a las brasas) con entomatadas. Alberto cosecha chiles habaneros, uno de ellos se aprecia en la parte inferior de la fotografía. Ideal para el tasajo. 22 de octubre de 2013.

Comida en Coyoacan, 1996. Festejan entrega del Premio Nacional de Ciencia

En qué trabajo recientemente --Recent work areas

===> Minería de datos. La búsqueda de situaciones interesantes, desviaciones, tendencias y anomalías en un mar de datos.
===> Text analysis, semantics, text to concepts, text to ontologies. La semántica de los documentos. Análisis de textos. Su transformación a ontologías.
===> How to measure the inconsistency of a set of qualitative assertions. How to compute its "centroid" or most likely value. Centroid and inconsistency of a set (a bag) of objects that have non-numeric properties. Hallar el centro de gravedad, centroide (valor más probable) de un conjunto de afirmaciones qualitativas; de un conjunto de objetos.
===> Reconocimiento de patrones. Las formas, estructuras, configuraciones y alineaciones u "objetos anómalos o interesantes" que aparecen en grupos de datos, en imágenes, en series de tiempo, en videos obtenidos por las cámaras que se encuentran en la vía pública o en el STC (Metro), en mensajes en redes sociales, en comportamiento de grupos de personas, por ejemplo para abordar el transporte público, etc.