Resumen (parcial).
En este trabajo se
da una propuesta de solución de detectar los tópicos más importantes e informar
de su permanencia en el tiempo, para lo cual se utiliza una versión ya
implementada del algoritmo no supervisado llamado Latent Dirichlet Allocation
(LDA), que con modificaciones permite identificar un número determinado de
tópicos a partir de un rango de días o un período de tiempo en una colección de
publicaciones preparadas con el Procesamiento de Lenguaje Natural.
Las colecciones
de publicaciones se obtienen de suscripciones RSS de secciones de periódicos,
así como de tweets que son publicados por periodistas destacados por su índice
de seguidores o número de publicaciones, información que es almacenada en bases
de datos, pero antes es tratada con procesos del área de Minería de Datos (extracción,
transformación y carga).
En el trabajo se
define el concepto de tópico más importante,
basado en el mayor número de apariciones de un tópico en diferentes
noticias de la colección. También se da una definición de similitud entre
tópicos de diferentes períodos que ayuda a revisar su aparición de un tópico a
lo largo de varios períodos de tiempo. Definiciones útiles para identificar y
dar a conocer los tópicos a los usuarios que acceden a estos medios y dar un
seguimiento de ellos, si son de su interés.
También se construye un prototipo de software
que utiliza las anteriores definiciones.
Abstract (part).
In this paper it is given a proposal for a solution to detect the most important topics and report on their permanence in time, using an
already deployed version of the model
called Latent Dirichlet Allocation
(LDA), which allows the identification of topics from
a range of days and a period
of time in a collection of publications in Spanish.
The publications are obtained from RSS subscriptions sections of newspapers, as well as tweets are published by journalists highlighted by its index of followers or number of publications, information that is stored in databases, but before it is treated with data mining processes (extraction, transformation and loading).
The most important topic concept is defined, based on the highest number of occurrences of a news topic in different collection. It also uses a definition of similarity between different periods.
The publications are obtained from RSS subscriptions sections of newspapers, as well as tweets are published by journalists highlighted by its index of followers or number of publications, information that is stored in databases, but before it is treated with data mining processes (extraction, transformation and loading).
The most important topic concept is defined, based on the highest number of occurrences of a news topic in different collection. It also uses a definition of similarity between different periods.
A software prototype has been built, that uses the above definitions.
No hay comentarios:
Publicar un comentario