Arturo Heredia presented his thesis "Visualization techniques to associate study conditions with results in the EXCALE test for Mathematics", and obtained his M. Sc. degree at CIC-IPN. His thesis may be dowloaded from here.
RESUMEN. En la actualidad los fenómenos de
interés a analizar generan continuamente grandes volúmenes de datos. Por lo
general, también contienen un alto número de variables o dimensiones, por lo
cual su análisis se vuelve un problema complejo, debido al incremento en las
combinaciones entre las dimensiones a relacionar con las variables de interés,
y a la complejidad de la fase de preparación para las técnicas que se desean
utilizar en su análisis.
Para analizar los datos con las
características anteriores, se usa primordialmente la Minería de Datos y la
Visualización. Un caso con un alto número de dimensiones es el Examen de
Calidad y Logro Educativo (EXCALE) en 3° de Secundaria en Matemáticas que realizaba
el Instituto Nacional para la Evaluación de la Educación (INEE). Lo acompaña un
cuestionario de contexto que mide las condiciones de los estudiantes en tres entornos:
Entorno Personal; Entorno Familiar; Entorno Escolar. En algunos casos son más
de 100 variables entre evaluación y contexto.
Para reducir la complejidad en el
análisis de las dimensiones, se valoraron y utilizaron algoritmos para reducir
su número. Finalmente, se usó un método que permite hallar los atributos
relevantes de un conjunto de datos, aquellos correlacionados con la variable de
interés (desempeño académico en Matemáticas). En la reducción de dimensiones,
se cuida la pérdida de información usando la Minería de Datos, como si se
tratara de un problema de clasificación a través del algoritmo C4.5 y Naive
Bayes por cada evaluación.
Debido a que las dimensiones que se
miden, no siempre se repiten en la evaluación de un año con la evaluación de
otro año, no se puede tratar como un problema de clasificación o predicción
directamente. Con las técnicas de
visualización se busca facilitar la comprensión entre las dimensiones relevantes
en los diferentes años de aplicación.
Se observaron patrones y tendencias en
variables de interés como la modalidad, sus aspiraciones académicas e historial
académico (Promedio General, Promedio anterior en Matemáticas), la atención y
frecuencia con la que los estudiantes entienden al profesor y que encuentran
correlación con el desempeño académico de los estudiantes. Con la reducción de
dimensiones se logró aumentar las clasificaciones correctas de los algoritmos
utilizados, se disminuyeron los tiempos de generación de los modelos de
clasificación y del tamaño del árbol, así como del espacio de análisis.
Por último, se desarrolló el sistema
informático ANCONE que utiliza diversas técnicas de visualización como
visualización espacial a través de mapas geográficos, diagrama Sankey y
gráficas de dispersión de puntos para auxiliar al analista en la búsqueda de
información interesante.
Arturo Heredia (quinto de izq. a der.) con su jurado de Maestría, después de haber defendido exitosamente su tesis. 3/VII/2017. |
ABSTRACT. Currently, a phenomena of interest wich we wish to analyze, continually generates large volumes of
data. In general, the data often contain a high number of variables or dimensions,
so their analysis becomes a complex problem. This is due to the increase in the
combinations between the dimensions to be related to the variables of interest,
and to the complexity of the preparation phase for the techniques that you want
to use in your analysis.
In
order to analyze the data with the previous characteristics, Data Mining and
Visualization is used primarily. A case with a high number of dimensions is the
Quality Exam and Educational Achievement (EXCALE) in 3rd grade in Mathematics
carried out by the National Institute for the Evaluation of Education (INEE).
It is accompanied by a context questionnaire that measures the conditions of students
in three environments: Personal Environment; Familiar surroundings; School
environment. In some cases, there are more than 100 variables between
evaluation and context.
To
reduce the complexity in the analysis of the dimensions, were evaluated and
used algorithms to reduce their number. Finally, a method was used to find the
relevant attributes of a set of data, those correlated with the variable of
interest (academic performance in Mathematics). In the reduction of dimensions,
data loss is taken care of using Data Mining, as if it were a classification
problem through algorithm C4.5 and Naive Bayes for each evaluation.
Because
measured dimensions are not always repeated in the one-year assessment with the
assessment of another year, it cannot be treated as a classification or
prediction problem directly. With visualization techniques, the aim is to
facilitate understanding between the relevant dimensions in the different years
of application.
Patterns
and trends were observed in variables of interest such as modality, academic
aspirations and academic background (General Average, previous average in
Mathematics), the attention and frequency with which students understand the
teacher and that correlate with the academic performance of the students. With
the reduction of dimensions, it was possible to increase the correct
classifications of the algorithms used, the generation times of the
classification models and the size of the tree as well as the analysis space
were reduced. This allowed having a visualization to show the results.
Finally,
the ANCONE computer system was developed using various visualization techniques
such as spatial visualization through geographic maps, Sankey diagram and
scatter plots to assist the analyst in the search for interesting information.
No hay comentarios:
Publicar un comentario