Resumen. El sistema Noti-Explorer es una herramienta para la exploración y análisis visual de noticias publicadas diariamente en diversos periódicos. El sistema implementa diversas técnicas de minería de datos que ayudan a entender una gran cantidad de noticias que han sido recolectadas, preprocesadas y almacenadas desde septiembre del 2016 a la fecha. La interfaz de usuario provee las opciones para reducir el tamaño del corpus que se desea analizar; permite ingresar palabras de interés, fechas de inicio y fi n, y elegir una sección periodística tales como: Política, Salud, Ciencia y Tecnología, Deportes, Nacional, Estados, Internacional, Sociedad, Opinión, Seguridad, entre otros. Sugerimos un sistema de análisis visual que combina visualizaciones interactivas en una aplicación web, la implementación métodos de aprendizaje no supervisado y el reconocimiento de entidades.
Cabe mencionar que actualmente existen algunas aplicaciones web que integran diferentes periódicos digitales, tal como Google Noticias que te recomienda en base a una consulta y muestra una lista de posibles noticias relacionadas, NewsStand que despliega las noticias en un mapa geográ co y Analytix que mapea la cantidad de menciones extraídas de la API ya sea de Facebook o Twitter. Noti-Explorer utiliza técnicas de Procesamiento de Lenguaje Natural (NLP), procesos de Extracción, Transformación y Carga de datos (ETL), Reconocimiento de Entidades Nombradas (NER), un modelo probabilístico de aprendizaje no supervisado Latent Dirichlet Allocation (LDA) y diferentes técnicas de visualización sobre una interfaz web tales como: Tree Maps para interactuar con los grupos generados, las nubes de palabras para observar las palabras con mayor frecuencia, gráfi cas de líneas para ver la cantidad de publicaciones por día, el título y la imagen ubicadas de forma geográfi ca.
En el presente sistema se basa en la idea que la modelación de tópicos probabilísticos ayuda a la sumarización, organización y exploración de grandes colecciones de documentos. Las diferentes técnicas de visualización que combinan formas, colores, figuras, imágenes, mapas y texto, aumentan la percepción visual y capacidad cognitiva de las personas que interactúan con la herramienta; el hacer uso de la exploración de noticias por medio de entidades nombradas también llega a ser de gran ayuda al momento de buscar las noticias que suelen ser más interesantes para un analista en particular.
Con el uso de una herramienta de análisis visual se espera que las personas encargadas de leer una gran cantidad de textos periodísticos reduzcan el tiempo que emplean al visitar cada periódico digital por separado, disminuyan la carga de trabajo al momento de seleccionar las noticias que les interesa analizar y aumenten la capacidad cognitiva al buscar nuevo conocimiento.
El prototipo está en fase de prueba, extrae de 32 periódicos digitales de México un promedio de 1800 noticias diariamente y actualmente se tienen más de 400 mil noticias que puede presentar posibles situaciones de interés al usuario que interactúa con él. La primera versión del sistema se puede visitar en la dirección http://148.204.66.228:8000/Noti-Explorer.
Pedro Ortega (al centro) defendió exitosamente su tesis de maestría en el Centro de Investigación en Computación, Instituto Politécnico Nacional. Aquí aparece con su jurado. |
No hay comentarios:
Publicar un comentario