In his M. Sc. thesis, Rodolfo Vilchis shows how to display a 3D plot (a scatter plot) of a dataset where each item contains values for several numeric and symbolic attributes (dimensions), in order to render an easily understandable display. His full thesis (In Spanish) is here. En su tesis de maestría, Rodolfo Vilchis Mompala nos muestra cómo desplegar un conjunto de datos, donde cada miembro representa un objeto que tiene muchos atributos o propiedades. Los datos tienen muchas dimensiones. Este despliegue se hace con tres ejes cartesianos; también se usa color y forma. Su tesis completa (en español) está aquí.
La visualización de la información es una técnica muy usada para analizar las relaciones entre las variables de un conjunto de datos. éstas pueden ser tanto numéricas como simbólicas y al generar una visualización la mayoría de las veces se muestran tres variables, y seis como máximo, usando color, forma y tama˜no. Después de todo, el ojo humano puede percibir con claridad datos en papel o en pantalla con dos dimensiones (ejes), máximo tres. Sin embargo, en conjuntos multivariados es común tener más de cinco dimensiones, por lo cual al visualizarlos, el usuario no detecta cómo varían las variables a través de los datos, ni las relaciones entre estas. Para resolver este problema, se suelen usar varias gráficas y tablas. Esto da una visión fragmentada de cuáles objetos tienen qué valores en cuáles atributos. El propósito de este trabajo es transmitir la mayor cantidad de información posible presente en un conjunto de datos de tal forma que sea fácilmente comprensible por el ser humano, es decir, agilizar la detección de las relaciones entre las variables numéricas y simbólicas. El trabajo presenta un nuevo método para mostrar en una sola gráfica tantas variables como sea posible, de modo que el usuario tiene una visión más integral de los datos. El sistema desarrollado, automáticamente escoge el mayor número posible de variables a mostrar (dado unos parámetros) y las agrupa para que la comprensión se efectúe sobre un mayor número de variables. Para ello, se hace uso de la regresión lineal, utilizando dos métodos, los mínimos cuadrados y Multivariate Adaptive Regression Splines (MARS). La idea es encontrar comportamientos monótonos (crecientes y decrecientes) entre las variables, para poder graficarlas en un mismo eje cartesiano, cada variable con una escala diferente. Si hay variables constantes o casi constantes (varían muy poco) estas se muestran en la visualización con una etiqueta. Aquellas variables que no poseen un comportamiento monótono con otras se tratan de ajustar mediante un particionado (reduciendo la precisión) sobre alguno de los ejes cartesianos.
Para las variables simbólicas, se busca una partición de dos o tres conjuntos de tal forma que encajen (se particionen) sobre algún eje, lo que permitirá graficarlas. Si existen variables simbólicas sobrantes, es decir, no se ajustaron mediante un particionado, se seleccionan dos de ellas y se muestran mediante el color y forma, siempre y cuando cumplan con algunas restricciones.
Con las técnicas empleadas, un conjunto de 3194 registros con 52 variables fue posible mostrarlo con nueve de sus 52 variables, otro conjunto de 4898 registros y 12 atributos se mostró con ocho de sus 12 atributos y otros conjuntos han mostrado buena visualización. En general, ambos métodos dan buenos resultados, bajo ciertas condiciones es mejor usar mínimos cuadrados y en otras MARS. Para las variables simbólicas en algunos casos se logró encontrar una partición dando buenos resultados en la visualización.
Palabras clave: Visualización de la información; mínimos cuadrados; minería de datos; Multivariate Adaptive Regression Splines.
Clasificación ACM: H. Information Systems / H.5 Information Interfaces and Presentation / H.5.2 User Interfaces.
Information visualization is a very useful technique to analyze the relationship between the variables of a data set. Each object in the data set can have numeric and symbolic attributes. When a multivariate data set is visualised only three attributes (variables) or at most six attributes are displayed using colors, shapes and sizes. This is because the human eye can only perceive with ease limited 2D or 3D data in paper or on screen. Nevertheless, for multivariate objects, it is common to have more than five variables and the significance or the relationships among the variables are lost in translation when observed separately.
The purpose of this work is to identify and present what is considered less complex relationships between some of the variables in a data set in such manner that it is easily understood by the user, and to facilitate the detection of the relationship among numeric and symbolic (qualitative) variables. This work presents a new method to display, in a single graph, as many variables as possible so that the user has a more holistic view of the data. The system developed automatically chooses the maximum number of variables to show (given some parameters) and groups the variables that behave similarly. For this, it uses linear regression, following two methods, the least squares (LS) and Multivariate Adaptive Regression Splines (MARS). The basic principle is to find monotonic behaviors (increasing and decreasing) among the variables to graph them on the same Cartesian axis, each variable with a different scale. Variables that are constant or almost constant are shown in the visualization with a label. Variables that do not have a monotonic behavior with others will be adjusted by partitioning (reducing accuracy) to any of the Cartesian axes (if possible).
Symbolic variables are searched to find an order of values which would be generated by a numeric variable that would result in a partition of the symbolic variable values on the numeric variable in order to graph it. Symbolic variables that have not an order with any numeric variable are displayed using colors and shapes, provided they comply with certain restrictions.
Tests were performed on ten data sets, one with synthetic data and the rest with real data. For a set of 3194 records (objects) with 52 variables, it was possible to display nine of its 52 variables in a single graph. For another data set of 150 objects and five attributes, it was possible to display all five attributes in a single graph. Other data sets have shown good visualization. In general, both methods give good results, under certain conditions is better to use least squares and other MARS. For symbolic variables it was possible in some cases to find a partition giving good results in the visualization.
Keywords: Information visualization; least squares; data mining; Multivariate Adaptive Regression Splines.
ACM Classification: H. Information Systems / H.5 Information Interfaces and Presentation / H.5.2 User Interfaces.
Professional activities of Adolfo Guzmán Arenas, publications & reports, as well as some students' work. Ontologies, knowledge understanding. Trabajos técnicos míos y de estudiantes. Aplicaciones, cómputo distribuido. Inteligencia Artificial, Ontologías.
Páginas
My articles and publications --(full text, click here. You may be asked to sign up --it is free) --Mis publicaciones (texto completo: http://ipn.academia.edu/AdolfoGuzman Quizá le pida suscribirse --es gratis) Mi página Web -- (click here) -- My Web page (http://alum.mit.edu/www/aguzman). ALGUNOS VIDEOS SOBRE LO QUE HAGO. Conferencia 'Ciudad inteligente, con conectividad y tecnología' (oct. 2010), parte 1 (15min), parte 2 (8min), parte 3 (9min), parte 4 (2min). Entrevista por redCudiMéxico, 2012: aquí (11 min). Avances en Inteligencia Artificial, entrevista en la Univ. IBERO, Puebla, 2013. Pulse aquí (53min). Video in the series "Personalities in the history of ESIME" (for the 100 years anniversary of ESIME-IPN, in Spanish) about Adolfo Guzman": 2014, click here. (1h)
Follow me on Academia.edu
Entrevista "La visión de los egresados del IPN, a 80 años de la creación del IPN y 100 años de la creación de la ESIME, 2014: ver en youtube (1h). Seminario sobre "Big Data" (la Ciencia de Datos). 2014. Pulse aquí (56min). Seminar on "Big Data", in English, 2014. Click here (56min). Algunos trabajos sobre Minería de Datos y sus Aplicaciones (CIC-IPN, 2016): pulse aquí (5min). El auge y el ocaso de las máquinas de Lisp (Plática en la Reunión Anual 2016 de la Academia Mexicana de Computación): pulse aquí (56min). Entrevista sobre la funcionalidad y competitividad de Hotware 10: 2016, aquí (6 min). Adolfo Guzmán Arenas, Ingeniero Electrónico e investigador del Centro de Investigación en Computación del IPN, conversó sobre su trayectoria y la importancia de las ciencias aplicadas para el desarrollo del país. 2017, Canal 11, Noticias TV (30min). Cómo se construyó la primera computadora en el mundo de procesamiento paralelo con Lisp. Marzo 2018. https://www.youtube.com/watch?v=dzyZGDhxwrU (12 min). Charla "Historias de éxito en la computación mexicana", ciclo Códice IA. Entrevista a A. Guzmán, "Entre la vida y la academia": https://bit.ly/3sIOQBc (45 min). El CIC cumple 25 años. Pulse aquí (51min. Habla Adolfo: "Pasado y futuro del CIC": minutos 13.57 a 22.70 ).
Perfil en ResearchGate -- My URL in Google Scholar: http://scholar.google.com/citations?user=Nw5lSdEAAAAJ My ORCID number 0000-0002-8236-0469. Scopus Author ID 6602302516.Follow me on Academia.edu
Suscribirse a:
Enviar comentarios (Atom)
No hay comentarios:
Publicar un comentario