Clustering of Spanish documents according to their semantic similarity, as given by WordNet. Modelo de detección de cúmulos naturales basado en una taxonomía semántica

My articles and publications --(full text, click here. You may be asked to sign up --it is free) --Mis publicaciones (texto completo: http://ipn.academia.edu/AdolfoGuzman Quizá le pida suscribirse --es gratis) Mi página Web -- (click here) -- My Web page (http://alum.mit.edu/www/aguzman). ALGUNOS VIDEOS SOBRE LO QUE HAGO. Conferencia 'Ciudad inteligente, con conectividad y tecnología' (oct. 2010), parte 1 (15min), parte 2 (8min), parte 3 (9min), parte 4 (2min). Entrevista por redCudiMéxico, 2012: aquí (11 min). Avances en Inteligencia Artificial, entrevista en la Univ. IBERO, Puebla, 2013. Pulse aquí (53min). Video in the series "Personalities in the history of ESIME" (for the 100 years anniversary of ESIME-IPN, in Spanish) about Adolfo Guzman": 2014, click here. (1h)

Entrevista "La visión de los egresados del IPN, a 80 años de la creación del IPN y 100 años de la creación de la ESIME, 2014: ver en youtube (1h). Seminario sobre "Big Data" (la Ciencia de Datos). 2014. Pulse aquí (56min). Seminar on "Big Data", in English, 2014. Click here (56min). Algunos trabajos sobre Minería de Datos y sus Aplicaciones (CIC-IPN, 2016): pulse aquí (5min). El auge y el ocaso de las máquinas de Lisp (Plática en la Reunión Anual 2016 de la Academia Mexicana de Computación): pulse aquí (56min). Entrevista sobre la funcionalidad y competitividad de Hotware 10: 2016, aquí (6 min). Adolfo Guzmán Arenas, Ingeniero Electrónico e investigador del Centro de Investigación en Computación del IPN, conversó sobre su trayectoria y la importancia de las ciencias aplicadas para el desarrollo del país. 2017, Canal 11, Noticias TV (30min). Cómo se construyó la primera computadora en el mundo de procesamiento paralelo con Lisp. Marzo 2018. https://www.youtube.com/watch?v=dzyZGDhxwrU (12 min). Charla "Historias de éxito en la computación mexicana", ciclo Códice IA. Entrevista a A. Guzmán, "Entre la vida y la academia": https://bit.ly/3sIOQBc (45 min). El CIC cumple 25 años. Pulse aquí (51min. Habla Adolfo: "Pasado y futuro del CIC": minutos 13.57 a 22.70 ).

Perfil en ResearchGate --

My URL in Google Scholar: http://scholar.google.com/citations?user=Nw5lSdEAAAAJ My ORCID number 0000-0002-8236-0469. Scopus Author ID 6602302516.

Follow me on Academia.edu

Clustering of Spanish documents according to their semantic similarity, as given by WordNet. Modelo de detección de cúmulos naturales basado en una taxonomía semántica

En su tesis de Maestría en Ciencias de la Computación (CIC-IPN, junio de 2016), Víctor Uriel Zaragoza Luna explica cómo agrupar un conjunto de documentos en español (noticias de la prensa nacional) en varios grupos, según los temas que los documentos abordan. Usó WordNet para hallar el parecido semántico entre dos noticias. Para leer su tesis completa, pulse aquí.

Abstract

This work presents DENAC, a model and its software that discovers the natural number of clusters “as a human being would do,” using the semantic relations in an unsupervised classification. DENAC makes LDA (Latent Dirichlet Allocation, an unsupervised classifier, behave like a supervised classifier, because DENAC classifies and gives labels to a set of documents in a certain number of groups that agree very well with the classification that a common person would give.

The documents (unstructured information) are gathered from online web sites (Mexican digital press); the news are treated using natural language processing to make consistent the use of the clustering algorithm that employs WordNet to measure word similarity; the linguistic treatment consist of removing stop-words; lemmatizing and synonyms.

The main topics in the documents are found using LDA, it finds a few words that represent or describe each cluster.

The software computes the distances between words in the same cluster or group (intra-distances) and distances between clusters (inter-distances) to find their compactness and how far they are from each other. To calculate the distances, the WordNet taxonomy is used. It describes the semantic relations of words. The similarity function used on the taxonomy is Path-Similarity. Additionally, every cluster is labeled with a few words, using again semantic relations. The groups are presented in a visualization showing the results:labels, clusters, amount of documents assigned to every cluster, and the words that are common to two clusters. To read his thesis (in Spanish), click here.

No hay comentarios:

Publicar un comentario

Suscribirse a: Enviar comentarios (Atom)

Cumple 30 años la Sección (ahora Departamento) de Computación del CINVESTAV-IPN

La Sección de Computación del CINVESTAV IPN fue fundada por Adolfo en 1986. 30 años después, en 2006, se transforma en el Departamento de Computación del CINVESTAV IPN. Para conmemorar ese evento, vino en 2006 el Prof. John Hopcroft. De izquierda a derecha, Adolfo Guzmán, Juan Carlos Chimal, John Hopcroft, Germán Téllez. El Prof. Hopcroft es un distinguido teórico de la computación, de la Universidad de Cornell. Nos habló de las matemáticas del futuro de la computación, que cada vez analiza más datos, redes grandes con pocos lados, y vectores ralos en espacios de muchas dimensiones.

En los portales de Oaxaca de Juárez. Semana Nacional de Ciencia y Tecnología. Oct. 2013

Llegué temprano a dar una plática, invitado por el Consejo Oaxaqueño de Ciencia y Tecnología. Fuimos el Ing. Alberto Sánchez (Director del COCYT) y yo a desayunar a los portales frente al Palacio de Gobierno, en la capital, Oaxaca de Juárez. Aquí, Adolfo toma una taza de chocolate, junto con pan de yema. Luego vendría un tasajo (carne de res asada a las brasas) con entomatadas. Alberto cosecha chiles habaneros, uno de ellos se aprecia en la parte inferior de la fotografía. Ideal para el tasajo. 22 de octubre de 2013.