My articles and publications --(full text, click here. You may be asked to sign up --it is free) --Mis publicaciones (texto completo: http://ipn.academia.edu/AdolfoGuzman Quizá le pida suscribirse --es gratis) Mi página Web -- (click here) -- My Web page (http://alum.mit.edu/www/aguzman). ALGUNOS VIDEOS SOBRE LO QUE HAGO. Conferencia 'Ciudad inteligente, con conectividad y tecnología' (oct. 2010), parte 1 (15min), parte 2 (8min), parte 3 (9min), parte 4 (2min). Entrevista por redCudiMéxico, 2012: aquí (11 min). Avances en Inteligencia Artificial, entrevista en la Univ. IBERO, Puebla, 2013. Pulse aquí (53min). Video in the series "Personalities in the history of ESIME" (for the 100 years anniversary of ESIME-IPN, in Spanish) about Adolfo Guzman": 2014, click here. (1h)
Entrevista "La visión de los egresados del IPN, a 80 años de la creación del IPN y 100 años de la creación de la ESIME, 2014: ver en youtube (1h). Seminario sobre "Big Data" (la Ciencia de Datos). 2014. Pulse aquí (56min). Seminar on "Big Data", in English, 2014. Click here (56min). Algunos trabajos sobre Minería de Datos y sus Aplicaciones (CIC-IPN, 2016): pulse aquí (5min). El auge y el ocaso de las máquinas de Lisp (Plática en la Reunión Anual 2016 de la Academia Mexicana de Computación): pulse aquí (56min). Entrevista sobre la funcionalidad y competitividad de Hotware 10: 2016, aquí (6 min). Adolfo Guzmán Arenas, Ingeniero Electrónico e investigador del Centro de Investigación en Computación del IPN, conversó sobre su trayectoria y la importancia de las ciencias aplicadas para el desarrollo del país. 2017, Canal 11, Noticias TV (30min). Cómo se construyó la primera computadora en el mundo de procesamiento paralelo con Lisp. Marzo 2018. https://www.youtube.com/watch?v=dzyZGDhxwrU (12 min). Charla "Historias de éxito en la computación mexicana", ciclo Códice IA. Entrevista a A. Guzmán, "Entre la vida y la academia": https://bit.ly/3sIOQBc (45 min). El CIC cumple 25 años. Pulse aquí (51min. Habla Adolfo: "Pasado y futuro del CIC": minutos 13.57 a 22.70 ).
Perfil en ResearchGate -- Adolfo Guzman-Arenas My URL in Google Scholar: http://scholar.google.com/citations?user=Nw5lSdEAAAAJ My ORCID number 0000-0002-8236-0469. Scopus Author ID 6602302516.

Follow me on Academia.edu

Sistema de visualización de la información de tópicos más importantes generados en medios sociales

En esta tesis de maestría en el CIC (2015), Mauricio Iván Guerrero Hernández analiza las noticias que aparecen en secciones de periódicos.  Mauricio Guerrero analyzes news in Spanish newspapers, in order to detect the most important topics in them.

Resumen (parcial).

     En este trabajo se da una propuesta de solución de detectar los tópicos más importantes e informar de su permanencia en el tiempo, para lo cual se utiliza una versión ya implementada del algoritmo no supervisado llamado Latent Dirichlet Allocation (LDA), que con modificaciones permite identificar un número determinado de tópicos a partir de un rango de días o un período de tiempo en una colección de publicaciones preparadas con el Procesamiento de Lenguaje Natural.

      Las colecciones de publicaciones se obtienen de suscripciones RSS de secciones de periódicos, así como de tweets que son publicados por periodistas destacados por su índice de seguidores o número de publicaciones, información que es almacenada en bases de datos, pero antes es tratada con procesos del área de Minería de Datos (extracción, transformación y carga).

     En el trabajo se define el concepto de tópico más importante,  basado en el mayor número de apariciones de un tópico en diferentes noticias de la colección. También se da una definición de similitud entre tópicos de diferentes períodos que ayuda a revisar su aparición de un tópico a lo largo de varios períodos de tiempo. Definiciones útiles para identificar y dar a conocer los tópicos a los usuarios que acceden a estos medios y dar un seguimiento de ellos, si son de su interés.

     También se construye un prototipo de software que utiliza las anteriores definiciones.

Abstract (part).
     In this paper it is given a proposal for a solution to detect the most important topics and report on their permanence in time, using an already deployed version of the model called Latent Dirichlet Allocation (LDA), which allows the identification of topics from a range of days and a period of time in a collection of publications in Spanish. 
     The publications are obtained from RSS subscriptions sections of newspapers, as well as tweets are published by journalists highlighted by its index of followers or number of publications, information that is stored in databases, but before it is treated with data  mining processes (extraction, transformation and loading). 
     The most important topic concept is defined, based on the highest number of occurrences of a news topic in different collection. It also uses a definition of similarity between different periods.

      A software prototype has been built, that uses the above definitions.

No hay comentarios: