Sistema de análisis visual para la exploración de grandes corpus periodísticos utilizando modelación de tópicos y entidades nombradas

My articles and publications --(full text, click here. You may be asked to sign up --it is free) --Mis publicaciones (texto completo: http://ipn.academia.edu/AdolfoGuzman Quizá le pida suscribirse --es gratis) Mi página Web -- (click here) -- My Web page (http://alum.mit.edu/www/aguzman). ALGUNOS VIDEOS SOBRE LO QUE HAGO. Conferencia 'Ciudad inteligente, con conectividad y tecnología' (oct. 2010), parte 1 (15min), parte 2 (8min), parte 3 (9min), parte 4 (2min). Entrevista por redCudiMéxico, 2012: aquí (11 min). Avances en Inteligencia Artificial, entrevista en la Univ. IBERO, Puebla, 2013. Pulse aquí (53min). Video in the series "Personalities in the history of ESIME" (for the 100 years anniversary of ESIME-IPN, in Spanish) about Adolfo Guzman": 2014, click here. (1h)

Entrevista "La visión de los egresados del IPN, a 80 años de la creación del IPN y 100 años de la creación de la ESIME, 2014: ver en youtube (1h). Seminario sobre "Big Data" (la Ciencia de Datos). 2014. Pulse aquí (56min). Seminar on "Big Data", in English, 2014. Click here (56min). Algunos trabajos sobre Minería de Datos y sus Aplicaciones (CIC-IPN, 2016): pulse aquí (5min). El auge y el ocaso de las máquinas de Lisp (Plática en la Reunión Anual 2016 de la Academia Mexicana de Computación): pulse aquí (56min). Entrevista sobre la funcionalidad y competitividad de Hotware 10: 2016, aquí (6 min). Adolfo Guzmán Arenas, Ingeniero Electrónico e investigador del Centro de Investigación en Computación del IPN, conversó sobre su trayectoria y la importancia de las ciencias aplicadas para el desarrollo del país. 2017, Canal 11, Noticias TV (30min). Cómo se construyó la primera computadora en el mundo de procesamiento paralelo con Lisp. Marzo 2018. https://www.youtube.com/watch?v=dzyZGDhxwrU (12 min). Charla "Historias de éxito en la computación mexicana", ciclo Códice IA. Entrevista a A. Guzmán, "Entre la vida y la academia": https://bit.ly/3sIOQBc (45 min). El CIC cumple 25 años. Pulse aquí (51min. Habla Adolfo: "Pasado y futuro del CIC": minutos 13.57 a 22.70 ).

Perfil en ResearchGate --

My URL in Google Scholar: http://scholar.google.com/citations?user=Nw5lSdEAAAAJ My ORCID number 0000-0002-8236-0469. Scopus Author ID 6602302516.

Follow me on Academia.edu

Sistema de análisis visual para la exploración de grandes corpus periodísticos utilizando modelación de tópicos y entidades nombradas

Tesis de Maestría de Pedro Ricardo Ortega Castellanos, Centro de Investigación en Computación, Instituto Politécnico Nacional. To read his thesis, click here.

Resumen. El sistema Noti-Explorer es una herramienta para la exploración y análisis visual de noticias publicadas diariamente en diversos periódicos. El sistema implementa diversas técnicas de minería de datos que ayudan a entender una gran cantidad de noticias que han sido recolectadas, preprocesadas y almacenadas desde septiembre del 2016 a la fecha. La interfaz de usuario provee las opciones para reducir el tamaño del corpus que se desea analizar; permite ingresar palabras de interés, fechas de inicio y fi n, y elegir una sección periodística tales como: Política, Salud, Ciencia y Tecnología, Deportes, Nacional, Estados, Internacional, Sociedad, Opinión, Seguridad, entre otros. Sugerimos un sistema de análisis visual que combina visualizaciones interactivas en una aplicación web, la implementación métodos de aprendizaje no supervisado y el reconocimiento de entidades.

     Cabe mencionar que actualmente existen algunas aplicaciones web que integran diferentes periódicos digitales, tal como Google Noticias que te recomienda en base a una consulta y muestra una lista de posibles noticias relacionadas, NewsStand que despliega las noticias en un mapa geográ co y Analytix que mapea la cantidad de menciones extraídas de la API ya sea de Facebook o Twitter. Noti-Explorer utiliza técnicas de Procesamiento de Lenguaje Natural (NLP), procesos de Extracción, Transformación y Carga de datos (ETL), Reconocimiento de Entidades Nombradas (NER), un modelo probabilístico de aprendizaje no supervisado Latent Dirichlet Allocation (LDA) y diferentes técnicas de visualización sobre una interfaz web tales como: Tree Maps para interactuar con los grupos generados, las nubes de palabras para observar las palabras con mayor frecuencia, gráfi cas de líneas para ver la cantidad de publicaciones por día, el título y la imagen ubicadas de forma geográfi ca.

     En el presente sistema se basa en la idea que la modelación de tópicos probabilísticos ayuda a la sumarización, organización y exploración de grandes colecciones de documentos. Las diferentes técnicas de visualización que combinan formas, colores, figuras, imágenes, mapas y texto, aumentan la percepción visual y capacidad cognitiva de las personas que interactúan con la herramienta; el hacer uso de la exploración de noticias por medio de entidades nombradas también llega a ser de gran ayuda al momento de buscar las noticias que suelen ser más interesantes para un analista en particular.

     Con el uso de una herramienta de análisis visual se espera que las personas encargadas de leer una gran cantidad de textos periodísticos reduzcan el tiempo que emplean al visitar cada periódico digital por separado, disminuyan la carga de trabajo al momento de seleccionar las noticias que les interesa analizar y aumenten la capacidad cognitiva al buscar nuevo conocimiento.

     El prototipo está en fase de prueba, extrae de 32 periódicos digitales de México un promedio de 1800 noticias diariamente y actualmente se tienen más de 400 mil noticias que puede presentar posibles situaciones de interés al usuario que interactúa con él. La primera versión del sistema se puede visitar en la dirección http://148.204.66.228:8000/Noti-Explorer.

Pedro Ortega (al centro) defendió exitosamente su tesis de maestría en el Centro de Investigación en Computación, Instituto Politécnico Nacional. Aquí aparece con su jurado.

No hay comentarios:

Publicar un comentario

Suscribirse a: Enviar comentarios (Atom)

Cumple 30 años la Sección (ahora Departamento) de Computación del CINVESTAV-IPN

La Sección de Computación del CINVESTAV IPN fue fundada por Adolfo en 1986. 30 años después, en 2006, se transforma en el Departamento de Computación del CINVESTAV IPN. Para conmemorar ese evento, vino en 2006 el Prof. John Hopcroft. De izquierda a derecha, Adolfo Guzmán, Juan Carlos Chimal, John Hopcroft, Germán Téllez. El Prof. Hopcroft es un distinguido teórico de la computación, de la Universidad de Cornell. Nos habló de las matemáticas del futuro de la computación, que cada vez analiza más datos, redes grandes con pocos lados, y vectores ralos en espacios de muchas dimensiones.

En los portales de Oaxaca de Juárez. Semana Nacional de Ciencia y Tecnología. Oct. 2013

Llegué temprano a dar una plática, invitado por el Consejo Oaxaqueño de Ciencia y Tecnología. Fuimos el Ing. Alberto Sánchez (Director del COCYT) y yo a desayunar a los portales frente al Palacio de Gobierno, en la capital, Oaxaca de Juárez. Aquí, Adolfo toma una taza de chocolate, junto con pan de yema. Luego vendría un tasajo (carne de res asada a las brasas) con entomatadas. Alberto cosecha chiles habaneros, uno de ellos se aprecia en la parte inferior de la fotografía. Ideal para el tasajo. 22 de octubre de 2013.