My articles and publications --(full text, click here. You may be asked to sign up --it is free) --Mis publicaciones (texto completo: http://ipn.academia.edu/AdolfoGuzman Quizá le pida suscribirse --es gratis) Mi página Web -- (click here) -- My Web page (http://alum.mit.edu/www/aguzman). ALGUNOS VIDEOS SOBRE LO QUE HAGO. Conferencia 'Ciudad inteligente, con conectividad y tecnología' (oct. 2010), parte 1 (15min), parte 2 (8min), parte 3 (9min), parte 4 (2min). Entrevista por redCudiMéxico, 2012: aquí (11 min). Avances en Inteligencia Artificial, entrevista en la Univ. IBERO, Puebla, 2013. Pulse aquí (53min). Video in the series "Personalities in the history of ESIME" (for the 100 years anniversary of ESIME-IPN, in Spanish) about Adolfo Guzman": 2014, click here. (1h)
Entrevista "La visión de los egresados del IPN, a 80 años de la creación del IPN y 100 años de la creación de la ESIME, 2014: ver en youtube (1h). Seminario sobre "Big Data" (la Ciencia de Datos). 2014. Pulse aquí (56min). Seminar on "Big Data", in English, 2014. Click here (56min). Algunos trabajos sobre Minería de Datos y sus Aplicaciones (CIC-IPN, 2016): pulse aquí (5min). El auge y el ocaso de las máquinas de Lisp (Plática en la Reunión Anual 2016 de la Academia Mexicana de Computación): pulse aquí (56min). Entrevista sobre la funcionalidad y competitividad de Hotware 10: 2016, aquí (6 min). Adolfo Guzmán Arenas, Ingeniero Electrónico e investigador del Centro de Investigación en Computación del IPN, conversó sobre su trayectoria y la importancia de las ciencias aplicadas para el desarrollo del país. 2017, Canal 11, Noticias TV (30min). Cómo se construyó la primera computadora en el mundo de procesamiento paralelo con Lisp. Marzo 2018. https://www.youtube.com/watch?v=dzyZGDhxwrU (12 min). Charla "Historias de éxito en la computación mexicana", ciclo Códice IA. Entrevista a A. Guzmán, "Entre la vida y la academia": https://bit.ly/3sIOQBc (45 min). El CIC cumple 25 años. Pulse aquí (51min. Habla Adolfo: "Pasado y futuro del CIC": minutos 13.57 a 22.70 ).
Perfil en ResearchGate -- Adolfo Guzman-Arenas My URL in Google Scholar: http://scholar.google.com/citations?user=Nw5lSdEAAAAJ My ORCID number 0000-0002-8236-0469. Scopus Author ID 6602302516.

Follow me on Academia.edu

Sistema de análisis temático del conocimiento científico

En su tesis de maestría, Eduardo Godínez Fernández nos muestra el software que él diseñó para analizar la producción científica (documentos) de un área de la ciencia. In his M.Sc. thesis, Eduardo Godínez shows the software designed by him to analyze the scientific production (papers) of a given area of science.

RESUMEN. En este trabajo de tesis se presenta una herramienta de software que permite identificar tendencias, que describen la evolución en una disciplina del conocimiento científico cuyos recursos de información se encuentran ya clasificados. La herramienta busca apoyar a la minería de datos como parte del proceso de descubrimiento de conocimiento y la identificación se apoya en el análisis de la producción de los recursos de información de ciencia y tecnología, y su visualización en gráficas con respecto al tiempo.

Para ilustrar el uso de la herramienta se emplean los artículos de divulgación de dos revistas electrónicas de Computación de la librería digital del ACM (Association for Computing Machinery), que están ya clasificados con la temática multinivel "The 1998 ACM Computing Classification System" que describe esta disciplina. Las tendencias en las categorías o temas de la disciplina se identifican mediqante la formulación de preguntas dirigidas conocidas como modelos y dependiendo del modelo utilizado, los resultados son represntados en gráficas que muestran las tendencias o en gráficas, que se pueden considerar como mapas de conocimiento que satisfacen el criterio del modelo. La unidad de análisis del conocimiento son los temas o categorías en los primeros tres niveles que se encuentran dentro del sistema de clasificación de ACM.

Las gráficas pueden ayudar a mostrar la contribución en la producción de los temas o categorías de la disciplina en un lapso de tiempo, mostrando comparativos en la producción de sus descriptores afines. También permite identificar en los temas si su "popularidad" va en aumento o en caso contrario de otras que ya no son de interés o están abandonadas en su estudio o investigación y por cuánto tiempo.

La contribución de este trabajo es el software que permite visualizar gráficas para identificar tendencias en una categoría de una disciplina científica y que se puede extender a cualquier otra que esté debidamente clasificada y con el tratamiento adecuado para registrar en la base de datos de este software. Otra contribución es que el diseño de la base de datos está acorde a como la trabaja la web de la ciencia y algunas herramientas que se dedican a aplicar la Bibliometría y Cienciometría entre otras ciencias afines.


Palabras Clave. The 1998 ACM Computing Classification System: H.2 Administración de bases de datos; H.2.8 Minería de datos; Tendencias en la evolución del conocimiento científico; herramienta de software.

Mapeando palabras a conceptos: desambiguación

This is the thesis of Fabiola Colorado, click here. This work presents a new non supervised computational approach to process ambiguous words in Spanish papers and select the appropriate word sense based on the context; this process is also known as Disambiguation or Word Sense Disambiguation. This model is based on the Lesk´s Algorithm with significantly modifications that enhance its performance. In this work, we do not need a previous markup of the text to analyze, this model detects automatically the ambiguous words within the text and defines its correct sense. The results obtained from this work are evaluated with the highest international criteria with successfully success.
Ésta es la tesis de Fabiola Colorado. Pulsar aquí. En este trabajo se presenta un nuevo modelo computacional para la desambiguación de palabras de textos en español. Dicho modelo se basa en la técnica del “Algoritmo de Lesk Simplificado” con extensiones y modificaciones sustanciales. A diferencia de otros modelos de desambiguación, no se realiza un etiquetado previo del texto, ni se dan las palabras ambiguas a buscar, es decir es un modelo no supervisado. Los resultados obtenidos muestran el potencial del modelo comparado con los mejores criterios internacionales.

Where to find recent technical papers --dónde hallar artículos técnicos recientes, y temas de tesis para computación

Recent technical reports, publications, theses, can be found, full text, as follows:
Informes técnicos recientes, publicaciones, tesis, transparencias, se localizan a texto completo:
* Here, organized by topics. * In my web page, alum.mit.edu/www/aguzman  * In academia.edu; once there, search for "Adolfo Guzman Arenas". You may be asked to suscribe (it is free!).
  • Información general, mi currículo: click here. General information, my vitae. Some thesis I have directed: click here.
  • Projects in Computer Science and possible thesis topics. Proyectos y temas de tesis en Computación. Lista general: aquí. Otra lista más reciente: aquí.   Algunos temas de tesis con la red de cámaras. Pulse aquí. Algunas tesis que he dirigido (hasta 2015): aquí.
  • Instruction to students writing thesis for A Guzman: Guía para escoger tema de tesis y director de tesis: aquí.
  • Text analysis, disambiguation: click here. CLASITEX, análisis de documentos, desambiguación. Hallando los temas de los que habla un documento.
  • Computando con palabras: click here. Computing with words, solving arithmetic problems posed in qualitative terms. Cálculos y operaciones pero no con números.
  • BiblioDigital, una biblioteca digital distribuida: click here. BiblioDigital (C), a distributed digital library. Full text search; collections; crawlers; using stemmers.
  • Inconsistency, how to measure it; consensus or centroid of a set of qualitative assertions: Click here. Qué tan inconsistente es un conjunto de afirmaciones sobre valores simbólicos o cualitativos; cómo medir la inconsistencia. Consenso, centroide, valor más plausible. Promediando peras y manzanas.
  • Problem 7 of inconsistency. Click here. El problema 7 de la teoría de la inconsistencia: descomponer una secuencia de valores cualitativos (afirmaciones) en varias subsecuencias, cada una descrita por una máquina de estados finitos seleccionada de un conjunto dado de ellas.
  • Confusion, similarity among qualitative values: click here. More here. Confusión en jerarquías, cercanía de valores simbólicos. Si digo que Frankfurt es la capital de Alemania, ¿qué tan equivocado estoy?
  • Data mining, data bases, information systems: click here. Also here. Bases de datos, minería de datos, sistemas de información. El fino arte de hallar situaciones interesantes, desviaciones, tendencias, anomalías, en un mar de datos.
  • Data bases for Antropology. click here. Bases de datos antropológicas
  • Curso de minería de datos. Click here. Data mining course. Técnicas para hallar datos que ocurren juntos frecuentemente (por ejemplo, cuando compro manzanas compro azúcar). Analizando una gran cantidad de datos. Escogiendo los ejes del cubo de datos.
  • Ontology fusion, knowledge representation, text to concept: click here. Also here. Also here. Ontologías; su fusión; análisis semántico. Convirtiendo textos a redes semánticas (ontologías) para entender lo que dice el documento --extracción del conocimiento en él.
  • Fusión de bases de datos heterogéneas. Contestando preguntas complejas mediante el acceso concurrente a bases de datos heterogéneas. Click here. Also here. Fusion of heterogeneous data bases.
  • Software design: click here. Diseño de software. Su construcción.
  • Virtual Learning. EVA. Click here. Also here. Also here. Educación virtual, enseñanza por Internet, el Proyecto EVA. Courseware hecho en el CIC-IPN.
  • Symbolic languages: In English, click here. En español, pulse aquí. Article in Comm. of ACM: click here. Lenguajes de manipulación simbólica. CONVERT, SSDL. Lenguajes de programación que manipulan símbolos en vez de valores numéricos.
  • Scene Analysis: click here. Análisis de escenas, visión por computadora (Aquí está mi tesis de doctorado)
  • Shape description; shape comparison; shape numbers: click here. Descripción, comparaciones, análisis de formas 2D y 3D. Transformamos una forma o silueta en un número, y luego al comparar estos números hallamos qué tan similares son las formas que ellos representan.
  • Parallel hardware design, multiprocessors: click here. Also here. Also here. Diseño de hardware paralelo, multiprocesadores. Acceso simultáneo a varios bancos de memorias.
  • Pattern recognition: click here. Also here. Reconocimiento de patrones, análisis de escenas, reconocimiento de formas.
  • Remote sensing: click here. Percepción remota, análisis de imágenes tomadas desde satélite.
  • Recognition and awards: click here. Reconocimientos, distinciones, premios.
  • Editorial work, Area editor of what Journals or publications: click here. Editor de área de publicaciones técnicas
  • Reflexiones sobre Computación. Divulgación, artículos ligeros. Están aquí. Reflections on Computer Science. Dissemination, light articles.
  • La computación, ¿Ciencia o Ingeniería? Click here. Computer Science: is it Science or Engineering?
  • Construyendo el mundo digital. Cómo será el mundo en un futuro cercano. Cómo se construirá. Click here. Building the digital world. How will it be? Privacy, taxes, money, transportation, law... in the digital world of the future.
  • Evaluating Computer Science. Click here. Evaluando la Computación. Cómo se ha medido y cómo debe medirse el trabajo en Computación.

Obtaining the consensus and inconsistency among a set of assertions on a qualitative attribute

186. Adolfo Guzman-Arenas, Adriana Jimenez, Obtaining the consensus and inconsistency among a set of assertions on a qualitative attribute. (Technical paper) Click here.
It is well understood how to compute the average or centroid of a set of numeric values, as well as their variance. In this way we handle inconsistent measurements of the same property. We wish to solve the analogous problem on qualitative data: How to compute the “average” or consensus of a set of affirmations on a non-numeric fact, as reported for instance by different Web sites? What is the most likely truth among a set of inconsistent assertions about the same attribute?
Given a set (a bag, in fact) of statements about a qualitative feature, this paper provides a method, based in the theory of confusion, to assess the most plausible value or “consensus” value. It is the most likely value to be true, given the information available. We also compute the inconsistency of the bag, which measures how far apart the testimonies in the bag are. All observers are equally credible, so differences arise from perception errors, due to the limited accuracy of the individual findings (the limited information extracted by the examination method from the observed reality).
Our approach differs from classical logic, which considers a set of assertions to be either consistent (True, or 1) or inconsistent (False, or 0), and it does not use Fuzzy Logic.

En qué trabajo recientemente --Recent work areas

  • How to measure the inconsistency of a set of qualitative assertions. How to compute its "centroid" or most likely value. Centroid and inconsistency of a set (a bag) of objects that have non-numeric properties. Click here. Hallar el centro de gravedad, centroide (valor más probable) de un conjunto de afirmaciones qualitativas; de un conjunto de objetos. Hallar la inconsistencia o grado de disparidad de las afirmaciones del conjunto.
  • Confusión entre valores cualitativos. Parecido, similitud entre constantes simbólicas (como "perro" y "gato"). Click here. The confusion between two symbolic (non numeric) values, measured in a hierarchy (a kind of tree).
  • Ontology representation, ontology fusion. Creation of an ontology with the combined knowledge of two previous ontologies. With this, a computer can amass knowledge coming (through ontologies) from documents. Click here. Cómo representar el conocimiento mediante ontologías. Fusión o unión de ontologías. (De esta forma, una computadora puede amasar conocimiento, si une o fusiona conocimiento extraído de varios textos --y convertidos a ontologías).
  • Text analysis, semantics, text to concepts, text to ontologies. Click here. La semántica de los documentos. Análisis de textos. Su transformación a ontologías.

Un modelo de interacción entre agentes con propósito, ontologías mixtas y eventos inesperados

Ésta es la tesis de doctordo de Jesús Olivares Ceja. Click here. This is the Ph. D. thesis of Jesus Olivares.
RESUMEN. En este trabajo se definen, desarrollan y prueban: un Modelo de Interacción entre Agentes (MIA), un lenguaje para definir agentes con propósitos (nombrado LIA, Lenguaje de Interacción entre Agentes) y un sistema de ejecución de los agentes definidos mediante MIA-LIA (nombrado SEA, Sistema de Ejecución de Agentes).
En el modelo propuesto en esta tesis, un agente tiene recursos, características y propósitos. Las interacciones describen escenarios y contienen un conjunto de papeles donde cada uno especifica el comportamiento que tendrá aquel agente que lo tome. Los recursos y características se modelan mediante variables internas (del agente), globales (del ambiente), regionales (recursos compartidos entre agentes). Un propósito es algo que el agente trata de alcanzar, como obtener un recurso (por ejemplo: unAuto) o adquirir una característica (por ejemplo: saberNadar), se representa como un predicado de primer orden (con valor falso o verdadero) y contiene un atributo donde se marca cuando se ha alcanzado. Varios agentes comparten una ontología donde se especifican los conceptos y palabras utilizados en la comunicación entre agentes, cuando dos agentes utilizan ontologías diferentes se recurre a un modulo Comparador de Ontologías Mixtas (COM) para encontrar la equivalencia de conceptos mediante las palabras que intercambian. Cada agente contiene una lista de los papeles que utiliza cuando se presentan eventos inesperados llamados papeles de emergencia.
Con el lenguaje LIA se propone un léxico y una sintaxis para describir los elementos de MIA. En cada papel se utilizan instrucciones para manejo de variables, comunicación de mensajes, manejo del flujo de control y alcance de propósitos.
El compilador de LIA traduce un ambiente con agentes e interacciones a una forma ejecutable usando SEA. Al ejecutarse un ambiente para cada agente se activa el módulo de planeación para determinar el plan que ha de seguir para alcanzar sus propósitos. El plan está conformado por un conjunto de papeles, cada vez que se ejecute un papel del plan se deben cubrir sus requisitos por el agente, si varios papeles se deben ejecutar en paralelo, se deben cubrir sus requisitos simultáneamente y verificarse su compatibilidad (en esta tesis se hace mediante una Tabla de compatibilidad). Cada papel en ejecución es una hebra, por lo tanto los agentes son multihebra.
Los agentes que se encuentran en ejecución en el sistema SEA, están sujetos a la ocurrencia de un número (quizá infinito) de eventos inesperados que afectan sus recursos o sus características y por lo tanto su comportamiento y su plan.
El modelo, el lenguaje, el comparador de ontologías, los eventos inesperados y el sistema de ejecución de agentes se prueban en este trabajo con ejemplos de situaciones de comercio electrónico.


-->An Interaction Model among Purposeful Agents, Mixed Ontologies and Unexpected Events. This is the Ph. D. Thesis of Jesus Olivars. For the full document, Click here. ABSTRACT.
-->
In this work we define, develop and test: an Interaction among Agents Model («Modelo de Interacción entre Agentes», MIA), a language to define purposeful agents (called LIA, «Lenguaje de Interacción entre Agentes») and an execution environment for agents specified using MIA-LIA (called SEA, «Sistema de Ejecución de Agentes»).
In the proposed model in this thesis, an Agent owes resources, characteristics and purposes. The interactions describe scenarios and possesses a set of roles, each role specify the behavior that the agents that takes it will acquire. The resources and characteristics are modeled using internal variables (for the agents), global variables (for the environment) and regional ones (for shared resources among agents). A purpose is something that the Agent attempts to reach, for example, get a resource (aCar) or acquire a characteristic (i.e. knowSwiming), it is represented as a first order predicate (with true or false value) and it have an attribute where we mark when it is reached. Several agents share an ontology where their concepts and words used in the communication among them is specified, when two agents use different ontologies it is needed to use the module Mixed Ontologies Comparator («Comparador de Ontologías Mixtas», COM) to find the equivalence among concepts via the exchanged words. Each Agent have a role list that can be used when unexpected events arise, these are called emergency roles.
LIA language proposes lexical units and a grammar to describe the element of MIA. Within each role we found instructions to variable manipulation, message exchange, flow control and purpose reaching.
We use the LIA compiler to translate the user-defined environments composed with agents and interactions to executable code used in SEA. For each Agent in SEA is activated the planning module to select the plan the Agent should follow in order to reach their purposes. The plan is formed with a set of roles. Each time a role is started their requisites ought to be covered first. If several roles must be executed in parallel, the requisites of them have to be covered simultaneously and their compatibility has to be checked (in this thesis that is done using a Compatibility Table thread; therefore the agents are multithreads.
The agents in execution in SEA are subject to (possible infinite number of) unexpected events that arise in the environment and its resources or characteristics may be affected (i.e. unable to swim in the future), and therefore the planned behavior will change.
The model, language, ontology matcher, unexpected events and execution system are tested using Electronic Commerce situations.


Arañas distribuidas --Asignación Efectiva de Trabajo Evitando Duplicidad de Espacio y Tiempo

Ésta es la tesis de maestría de Luis Antonio Olguín Aguilar. El documento comleto se encuentra aquí.
RESUMEN. La computación desde sus inicios, como en la actualidad, es utilizada como una herramienta que le ayuda al hombre a resolver problemas de su vida diaria. Tanto la computación clásica como la computación cuántica, bajo distintos paradigmas, están orientados a resolver problemas que a una o varias personas le tomaría mucho tiempo resolver. Uno de los problemas a los que se enfrenta el hombre en la realización de sus actividades está en que una, dos o más personas pueden llegar a realizar la misma actividad y por ende generar los mismos resultados. Esto se conoce como duplicidad de trabajo. La duplicidad de trabajo no sólo es costosa por el hecho de hacer la misma tarea múltiples veces sin la necesidad de requerirlo, sino que también desde el punto de vista de un mundo capitalista puede llegar a costar mucho dinero: pagar sueldos a personas que realicen la misma actividad, gastos de mantenimiento, gastos de operación, entre otros, dependiendo de la actividad que se realice.
Con la llegada de la Web se abrió una etapa en la que la información se puso disponible para cualquier persona que desee conectarse a la Internet. Con el paso del tiempo esta información ha ido creciendo y se hizo necesario crear programas que examinaran constantemente la información que los usuarios ponían disponible día a día. Estos programas son conocidos como “Web crawlers” o “arañas”. Un Web crawler es un programa que inspecciona de manera metódica y automatizada las páginas de la Internet. Para un Web crawler es sumamente importante no duplicar trabajo, pues una dirección URL duplicada puede originarle perder varias horas o incluso días de trabajo ya que otra de sus tareas es extraer direcciones URL incluidas dentro de ella y procesarlas de igual manera.
El presente trabajo muestra el análisis, diseño, implementación, pruebas y resultados de una aplicación que resuelve el problema de duplicidad de trabajo evitando la duplicidad en espacio de almacenamiento, así como de tiempo de procesamiento en la extracción de documentos de la Internet permitiendo que por cada página Web se asocie a ella 4 de los principales temas de los que trata el documento. De manera particular el trabajo que cada araña hace, sin duplicación, es el siguiente: “buscar en cada página indicada por una lista de URLs, documentos que contengan suficiente texto, e indizar tanto la página como el documento (si existe). Si en cierta página hay apuntadores, éstos señalan nuevas páginas, las que a su vez reciben el mismo tratamiento, hasta un cierto nivel de profundidad, 4 en nuestro caso. Repetir este procedimiento periódicamente, variando dinámicamente el período de visita, según la actividad que muestre la página. Evitar volver a indizar un documento que no ha cambiado.”
En el capítulo 1 se presenta una introducción a nuestro tema de tesis. Se incluye el planteamiento del problema que vamos a resolver, mostramos los objetivos planteados tanto de manera general como de manera particular. Mostramos una breve justificación respecto a construir un sistema que resuelve el problema planteado y finalmente mostramos los alcances y límites que pretendemos lograr. En el capítulo 2 mostramos lo que es un Web Crawler, conocemos el estado del arte y finalmente mostramos las características generales que tiene. En el capítulo 3 describimos lo que es un sistema distribuido. Presentamos sus ventajas y desventajas. También explicamos la arquitectura RMI (Remote Method Invocation, Invocación de Métodos Remotos) de Java que es utilizada para implementar sistemas distribuidos. Se muestran las capas con que cuenta esta arquitectura, las clases que deben ser implementadas y algunos ejemplos que son de utilidad para su entendimiento. En el capítulo 4 se describe el problema planteado, mostramos la arquitectura propuesta que lo resuelve, así como un ejemplo práctico del funcionamiento que debe implementarse.
En el capítulo 5 se muestra el diseño de la aplicación. En él se describen los distintos procesos involucrados en la realización de las tareas tanto del servidor como de la araña. El capítulo 6 muestra la implementación de la aplicación. Esta implementación muestra el esquema de comunicación del servidor y de la araña. Finalmente, se explica la manera en que obtenemos los temas que trata cada documento mediante Clasitex. El capítulo 7 muestra la fase de pruebas. En este capítulo se muestran varias pruebas realizadas a la aplicación así como sus resultados. El capítulo 8 es dedicado a presentar las conclusiones a las que llegamos después de haber obtenido los resultados, producto de las pruebas realizadas en el capítulo 7.
ABSTRACT. (The full document is here) The computation since the begining to today is used as a tool that helps people to resolve a lot of problems of their daily life. Classic computing as well as Quantum computing, under differt paradigms, are oriented to solve problems that for a single person could take a lof of years to answer. One of the main problems that people has to deal is about to do the same work many times at different times for more than one person. This is known as duplicity.
The duplicity of the work costs a lot of money in a capitalistic world, for example paying a salary to people who has to do the work, maintain costs, operation costs and many others.
When the World Wide Web (www) came to our lifes it opened a new style of life because the information was online just with a simple click. Since 80’s to our days this information has grown exponentially and it had new necesities like to organize those millions of Web Pages. That was the main reason to build Web Crawlers or Spiders. A Web Crawler is a program which explores the Web Pages on the Internet. One of the main characteristics of a Web Crawler is not to duplicate the work because when it crawls the Web, with a simple URL, a Web Crawler could spend a lot of hours and maybe days doing its work.
This thesis shows the analysis, design, implementation, tests and results of an application which solve the problem of the duplicity of work avoiding the duplicity of the space used to save the Web Pages and the time crawling the Internet making possible to associate to every Web Page four of the main topics of that document The work of a spider is the next: “looking for documents with enough text, in every Web page that contains the list of URLs, to index that page and the document. When the page has links to anothers pages these new ones receive the same tratement with a level of deep 4. This procedure must be repited everyday, changing the time of visit depending the time of change of that Web page. It`s very important not to process tha same document twice or more”.
Chapter 1 shows an introduction to the thesis. It includes the problem to resolve, the objetives and the main reasons to build this system and finally the limits and goals to reach. Chapter 2 shows what a web crawler is and its main characteristics. Chapter 3 shows what a distributed crawler is. We explain the RMI architecture, that allows to build a Distributed System and finally shows an example of it. Chapter 4 shows the problem to solve and the way to solution it. Chapter 5 shows the design of the application. Chapter 6 shows the implementation of the application. It shows the architecture of the Server, the clients and their comunication. It shows the way to obtain the main topics of a document through Clasitex.Chapter 7 shows several tests of the system and their results. Chapter 8 shows conclusions.

Requisitos que deben cubrir las tesis dirigidas por A. Guzmán

Las tesis que yo dirijo deben llenar los siguientes requisitos:

1. (Para tesis sobre Computación) Abajo del Resumen, en esa misma hoja, poner de tres a seis palabras clave, de las cuales dos o tres deben ser tomadas de la Clasificación del ACM (abajo), cítelas así:
Palabras clave: I.2 Inteligencia Artificial; I.2.4 Formalismos y métodos para representar el conocimiento; Calculando con palabras; Solución de problemas aritméticos
Primero van los descriptores del ACM, con su clave al principio: H.2 Database management. Luego van las palabras clave que el tesista inventa y que no están en la clasificación del ACM. El descriptor que va primero es el descriptor primario: es el tema principal de su tesis.
Bajo "Resumen" poner descriptores en español, bajo "Abstract" poner descriptores en inglés.
2. Las referencias deben ir en un formato estándar. Use el Chicago Style Manual (abajo).
3. (Requisito del CIC) Debe entregar una copia de su tesis en archivo digital (CD, por ejemplo) a la biblioteca del CIC, conteniendo su tesis completa en formato de documento (Word, PDF...). Opcional: ponga en el CD los programas que usted usó, fuentes y ejecutables, ejemplos, instructivo de cómo cargar su programa y cómo usarlo.

====ACM computer classification system=======
A. La más reciente es la de 1988, pero está actualizada al día (cada año se actualiza): http://www.acm.org/about/class/ Pulse aquí
B. Una versión más antigua pero traducida al español está aquí (URL: http://www.divshare.com/download/7752920-cbe). Trae descriptores en inglés y español, pero use (A) para las claves correctas de los decriptores. O ignórela y traduzca del inglés al español usted mismo.

=====Chicago Style manual============
chicago Manual of style http://www.libs.uga.edu/ref/chicago.html Pulse aquí.
Chicago manual of style on line http://www.chicagomanualofstyle.org/tools_citationguide.html Pulse aquí

Computing with words -Computando con palabras

Este trabajo es la tesis de maestría de Patricia Bautista en el Centro de Investigación en Computación del IPN. Resuelve problemas aritméticos expresados en lenguaje natural (español). Para ver el documento completo (en español) pulsa aquí.
This is the M. Sc. thesis of Patricia Bautista at the Centro de Investigación en Computación, Instituto Politécnico Nacional. It solves arithmetic problems posed in natural language. The full document (in Spanish) can be seen here.

ABSTRACT: Computing with words (CW) is an auxiliary methodology for the natural language processing. It uses vague quantities, expressed through words, to solve arithmetical operations. The results of such operations are notions or approximations; though, this methodology enables result generation in situations where precise results are not possible at all. Some examples of vaguely expressed quantities (in Spanish) are: “Hace mucho frío”, “Roberto tiene algunos libros” and “México tiene mucho petróleo”.
Computing with words is based on fuzzy logic. It was introduced by Lotfi Asker Zadeh in 1965. As part of the Computing with words’ methodology, words that represent quantities are used. These are identified and related to fuzzy sets. Under the context of Computing with words, these sets are known as linguistic variables.
Natural language is the computer science’s area in charge of studying human language. It studies the processing of words, phrases and other language figures. From this processing it is meant to obtain a meaningful representation for its use in computer programs.
The main contribution of the present work is the creation of a new methodology for Computing with words and the designe of the software that uses this methodology. It has as its goal to make calculations with phrases in Spanish (following some restrictions). The core part of the software is a parser. It uses a lemmatizer as a helper for the lexical analysis. The syntactic analysis is done through some proposed rules. The parser allows detection of operations among the text. These are calculated through tables based on a set of linguistic variables. This set is defined through a statistical analysis.
Some potential applications of the proposed software are: clinical diagnosis problems, educative programs, control systems and, in general, decision making problems. Such software is particularly useful in situations where no precise data exists or a flexible user input is desired.
KEYWORDS: I. Computing Methodologies, I.2 Artificial Intelligence, I.2.7 Natural Language Processing, Language parsing and understanding, Solving arithmetical operations using words: Computing with Words.
RESUMEN: La Computación con palabras o Computing with words (CW) es una metodología auxiliar al procesamiento del lenguaje natural. Ésta utiliza cantidades expresadas vagamente, por medio de palabras, para realizar operaciones aritméticas. El resultado de estas operaciones son nociones o aproximaciones; sin embargo, esta metodología permite obtener resultados en algunas situaciones donde los cálculos precisos son imposibles. Ejemplos de cuantificaciones vagas (o difusas) son las siguientes frases: “Hace mucho frio”, “Roberto tiene algunos libros” y “México tiene mucho petróleo”.
La Computación con palabras se basa en la lógica difusa. Ésta fue introducida por Lotfi Asker Zadeh en 1965. Como parte de la metodología de Computación con palabras se identifican palabras que representan cantidades y se les relaciona con conjuntos difusos. Bajo el contexto de Computación con palabras a estos conjuntos se les conoce como variables lingüísticas.
Lenguaje natural es el área de las ciencias de la computación que se encarga del estudio del lenguaje humano. Esta área se encarga del procesamiento de palabras, frases y otras figuras del lenguaje. De este procesamiento se pretende obtener alguna representación significativa para su uso en programas de cómputo.
La aportación principal del presente trabajo es la creación de una nueva metodología para la computación con palabras; así como el diseño de un software basado en dicha metodología. Éste tiene como finalidad realizar cálculos con oraciones escritas español (siguiendo algunas restricciones). La parte nuclear del software es un parser. Éste utiliza un lematizador como apoyo para el análisis léxico del texto. El análisis sintáctico se realiza por medio de una serie de reglas propuestas. El parser permite detectar operaciones dentro del texto. Éstas son calculadas por medio de tablas basadas en un conjunto de variables lingüísticas. Este conjunto se determina estadísticamente.
Algunas potenciales aplicaciones del software propuesto son: problemas de diagnostico clínico, programas educativos, sistemas de control y, en general, problemas de toma de decisión. El software resulta potencialmente útil en situaciones en las que no existen datos precisos disponibles o se desea ser flexible ante la entrada de datos del usuario.
PALABRAS CLAVE: I. Metodologías de cómputo, I.2 Inteligencia artificial, I.2.7 Procesamiento de lenguaje natural, Análisis y compresión del lenguaje, Resolviendo problemas aritméticos usando palabras: Computing with Words

El balneario de Temixco es todo un éxito



Estuvimos en el balneario de la ex-hacienda de Temixco, Mor., el 6 de abril del 2009.
Primero, llegamos el día anterior. Al día siguiente, compramos pases anuales para cada miembro de la familia. Se los recomiendo.

Les muestro unas palmeras que me parecieron muy interesantes. Claro que yo también salí en la foto.

Develan placa en la casa donde nació A Guzmán


 En Ixtaltepec, Oax., fue develada (2004) una placa donde nació Adolfo Guzmán. Aquí aparecen él y su mamá Piedad A. de Guzmán (qepd) durante la ceremonia.
La casa está situada en la calle principal de Ixtaltepec,  Oax.

El Portal del Conocimiento -- Interacción entre Agentes

El trabajo de Interacción entre Agentes está basada en el material del proyecto de investigación dirigido y desarrollado por el Dr. Adolfo Guzmán Arenas y sus colaboradores Dr. Jesús Manuel Olivares Ceja y M. en C. María del Carmen Dominguez Ayala en el Centro de Investigación en Computación del Instituto Politécnico Nacional
El proceso de globalización está propiciando la interacción entre personas y equipos informáticos en diferentes puntos del planeta, esto ha motivado a varios grupos de investigación al estudio y modelación de sistemas usando el paradigma de la interacción y de agentes.
En el Centro de Investigación en Computación iniciamos el estudio de las interacciones entre personas y computadoras considerando a cada uno como una entidad. Estas entidades las modelamos como agentes, para describir a los agentes y su comportamiento desarrollamos un lenguaje y su interprete. (Acceso al portal completo: pulse aquí).

El Centro de Investigación en Computación (CIC), líder en América Latina

Entrevista de periodistasenlinea.org al Dr. Hugo Coyote Estrada

El Centro de Investigación en Computación (CIC) es un organismo de excelencia en ciencias de la computación e ingeniería de cómputo del Instituto Politécnico Nacional (IPN) líder en el país y con sólo dos o tres centros comparables en América Latina, cuya misión es realizar investigación científica de vanguardia orientada a la enseñanza en el posgrado, a la investigación aplicada y transferencia de tecnología. Según explicó el doctor Hugo César Coyote Estrada, director del CIC, este centro cuenta con dos premios nacionales de ciencias, ...  La página del CIC está aquí.

Entre el equipo de asesores del CIC se encuentra el doctor Adolfo Guzmán Arenas, investigador nivel III del Sistema Nacional de Investigadores (SNI) fundador del centro, dotado de un talento especial para identificar y desarrollar nichos en las ciencias de la computación y con una gran visión de las aplicaciones de la informática, quien ha trabajado áreas vitales en la inteligencia artificial, la minería de datos, pionero en el reconocimiento de imágenes, creador de arquitecturas paralelas jerárquicas reconfigurables, etcétera. (... más)

La Biblioteca Virtual del Centro Cultural del México Contemporáneo

La Biblioteca Virtual del Centro Cultural del México Contemporáneo es un repositorio de ligas a objetos digitales como artículos, videos, imágenes, páginas web, audios, que están disponibles al público en la Internet.

El software fue inicialmente planteado por el CCMC como un trabajo conjunto entre el Dr. Adolfo Guzmán Arenas (con su software de arañas buscadoras) y la Universidad de Colima (con la Biblioteca Virtual Latinoamericana y Caribeña El Dorado-UNESCO), sin embargo durante el proceso surgieron incompatibilidades técnicas cuya solución habría resultado denmasiado costosa por lo que el CCMC decidió que los contenidos serían responsabilidad de la Universidad de Colima y el software del Dr. Guzmán y la Lic. Jessica Estrada, que es la persona encargada de la informática en el CCMC. (Más información aquí)


Monte Parnaso. Blog sobre lengua y literatura en español a cargo de Víctor Hugo Vorrath Rodríguez

Con más de 5 mil objetos digitalizados y links de las más importantes bibliotecas del mundo, hoy se abreal público la Biblioteca Virtual del Centro Cultural del México Contemporáneo (CCMC), que se puede consultar en la dirección electrónica www.ccmc.org.mx.

El portal digital pretende contribuir a la promoción del arte y el conocimiento, para ello guarda artículos científicos, obras en formato sonoro, libros especializados de diversos campos, monografías, tesis y entrevistas. También pondrá a disposición de los usuarios libros, artículos, facsimilares, tesis, estudios críticos, ediciones multimedia, entre otros (Información completa aquí).

En el Instituto de Ciencia y Tecnología del D.F.

Adolfo Guzmán Arenas es miembro del Consejo Consultivo el ICyT del Distrito Federal. (Pulse aquí para ver el acta de la primera sesión ordinaria de 2008).

Colaborando en proyectos de investigación europeos

Cómo colaborar con éxito en proyectos transcontinentales. Transparencias de una charla en el proyecto WINDS-LatinoAmérica - Europa. Texto completo aquí.

Entrega Congreso reconocimiento al científico Adolfo Guzmán Arenas

La 60 Legislatura entregó un reconocimiento al científico e investigador, doctor Adolfo Guzmán Arenas, por su trayectoria en la academia y aportación científica en el ramo de la computación, siendo el primer oaxaqueño al que el Congreso del Estado reconoce por este tipo de contribución no sólo a nivel local sino nacional e incluso internacional. (...más)

Según CIUDADANÍA EXPRESS:
Reconocen al científico oaxaqueño Adolfo Guzmán Arenas.

Al recibir tal distinción de manos del líder del Congreso, diputado Herminio Cuevas Chávez, el investigador expresó que es muy satisfactorio que su propio estado, la tierra donde nació, valore su esfuerzo, pues sabe mejor que cualquier otro premio en el extranjero. (...más)
SALINA CRUZ EN LÍNEA OPINA:

Doble reconocimiento a científico oaxaqueño

La computación es una ciencia nueva pero muy útil, asegura el investigador

El también doctor nació en esa comunidad del Istmo de Tehuantepec, estudió parte de la primaria, la secundaria y un año de preparatoria en Salina Cruz, para después viajar a la capital del país donde se inscribió en la vocacional, siendo este sitio donde recordaba que en Salina Cruz había muchos ingenieros químicos que trabajaban en Petróleos Mexicanos a quienes veía como gente útil y profesionistas responsables. (... más)

EL CENTRO DE EDUCACIÓN CONTINUA DEL IPN UNIDAD OAXACA

El Centro de Educación Continua del IPN Unidad Oaxaca, representado por su Director el M. en C. Raúl Erasmo Sánchez R., estuvo presente en la Conferencia Magistral “La Computación en los Procesos Electorales” impartida por el Ing. Adolfo Guzmán Arenas y coordinada por la Asociación de Egresados Politécnicos en Oaxaca. (... más)

El Consejo Consultivo de Ciencias de la Presidencia de la República

¿Por qué y para qué?
Año con año el gobierno de la República distingue a investigadores con el Premio Nacional de Ciencias y Artes en áreas como la historia, las ciencias sociales, la filosofía, las ciencias físico-matemáticas, las ciencias naturales, la tecnología y el diseño.
Desde 1989, los profesionales que han recibido esos premios se reunieron para formar una nueva institución: el Consejo Consultivo de Ciencias de la Presidencia de la República (CCC). Con ello, se constituyó un grupo de expertos de alto nivel (en la actualidad cuenta con 97 miembros) que ofrecen gratuitamente asesoría y apoyo técnico en materia de ciencia y tecnología al Ejecutivo Federal y a otras instituciones que lo soliciten.
La motivación principal de los miembros del CCC es colaborar para que el conocimiento sea la base del desarrollo socioeconómico y se contribuya así al bienestar de la población mexicana. Entrar a la página del CCC: aquí.
Adolfo Guzmán pertenece desde 1997 al Consejo Consultivo de Ciencias de la Presidencia de la Republica. Semblanza de A Guzmán en el CCC: aquí.

Revista Digital Universitaria --semblanza de A Guzmán

El Dr. Adolfo Guzmán Arenas, ex-Director del Centro de Investigación en Computación del Instituto Politécnico Nacional, dice que cuando descubre algo se convierte en un investigador, porque él mismo así se ha desarrollado, no porque haya estudiado, pues no hay una carrera que gradúe investigadores. En 1994 recibió el Premio Nacional de Informática y en 1996, el Premio Nacional de Ciencias y Artes de Tecnología. Fue director del Centro Científico de IBM para América Latina.... (Para leer más, pulse aquí).

On Geometry-Based Statistical Channel Models for MIMO Wireless Communications

On Geometry-Based Statistical Channel Models for MIMO Wireless Communications. Ph. D. thesis, Marvin René Arias Oliva. Centro de Investigación en Computación, Instituto Politécnico Nacional, Mexico City. Nov. 2008 The thesis is here. Ésta es la tesis de doctorado de Marvin Arias (en inglés).
Abstract: The use of wideband Multiple Input Multiple Output (MIMO) communication systems is currently subject to considerable interest. One reason for this is the latest development of 3rd Generation mobile communication systems and beyond, such as the wideband technology: Wideband Code Division Multiple Access (WCDMA), which provides 5 MHz wide radio channels.
For the design and simulation of these mobile radio systems taking into account MIMO wireless propagation (e.g. like the wideband-CDMA), channel models are needed that provide the required spatial and temporal information necessary for studying such systems, i.e., the basic modeling parameters in the space-time domains, e.g., the root mean square (rms) delay spread (DS) is directly connected to the capacity of a specific communication system and gives a rough implication on the complexity of a receiver.
In this thesis a channel modeling based on the clustering approach is proposed and used for analysis in the space-time domains for stationary conditions to represent the power delay angle profiles (PDAPs) of the multipath components (MPCs) in urban environments. In the thesis, closedform expressions are derived in angular and time domains respectively. Previous research on channel modeling covers a wide variety of aspects in varying levels of detail, including analysis for non stationary conditions. However, the work presented in the literature has not included the relationship between the physical clusters and the PDAPs. The proposed clustering approach model can be used to further performance improvement in stationary conditions of current or future mobile radio systems like the Wideband MIMO communication systems.
This thesis also presents an analysis in angular and time domain respectively through direction of arrival (DOA) and time of arrival (TOA) probability density functions (PDFs) for the clustering approach model. In order to evaluate the derived theoretical PDFs, these are compared with experimental results published in the literature. The comparison to experimental results shows good agreement, however the modeling approach proposed in this thesis is limited to stationary conditions of the channel. The non-stationary condition is outside the scope of this thesis, i.e., the clustering approach model proposed does not incorporate the Doppler effect in the analysis.

On Geometry-Based Statistical Channel Models for MIMO Wireless Communications

On Geometry-Based Statistical Channel Models for MIMO Wireless Communications. Ph. D. thesis, Marvin René Arias Oliva. Centro de Investigación en Computación, Instituto Politécnico Nacional, Mexico City. Nov. 2008 The thesis is here. Ésta es la tesis de doctorado de Marvin Arias (en inglés).
Abstract: The use of wideband Multiple Input Multiple Output (MIMO) communication systems is currently subject to considerable interest. One reason for this is the latest development of 3rd Generation mobile communication systems and beyond, such as the wideband technology: Wideband Code Division Multiple Access (WCDMA), which provides 5 MHz wide radio channels.
For the design and simulation of these mobile radio systems taking into account MIMO wireless propagation (e.g. like the wideband-CDMA), channel models are needed that provide the required spatial and temporal information necessary for studying such systems, i.e., the basic modeling parameters in the space-time domains, e.g., the root mean square (rms) delay spread (DS) is directly connected to the capacity of a specific communication system and gives a rough implication on the complexity of a receiver.
In this thesis a channel modeling based on the clustering approach is proposed and used for analysis in the space-time domains for stationary conditions to represent the power delay angle profiles (PDAPs) of the multipath components (MPCs) in urban environments. In the thesis, closedform expressions are derived in angular and time domains respectively. Previous research on channel modeling covers a wide variety of aspects in varying levels of detail, including analysis for non stationary conditions. However, the work presented in the literature has not included the relationship between the physical clusters and the PDAPs. The proposed clustering approach model can be used to further performance improvement in stationary conditions of current or future mobile radio systems like the Wideband MIMO communication systems.
This thesis also presents an analysis in angular and time domain respectively through direction of arrival (DOA) and time of arrival (TOA) probability density functions (PDFs) for the clustering approach model. In order to evaluate the derived theoretical PDFs, these are compared with experimental results published in the literature. The comparison to experimental results shows good agreement, however the modeling approach proposed in this thesis is limited to stationary conditions of the channel. The non-stationary condition is outside the scope of this thesis, i.e., the clustering approach model proposed does not incorporate the Doppler effect in the analysis.

Antecumen. Prototipo de herramienta para el análisis con cubos en memoria principal

184. Gilberto Martinez-Luna, Adolfo Guzmán-Arenas. (2008) Antecumen. Prototipo de herramienta para el análisis con cubos en memoria principal. Click here. Este artículo técnico fue publicado en la Conferencia Mundial sobre Tecnologías de la Informacion y Comunicaciones 2008.
Se describe una herramienta llamada Antecumem que se utiliza para desarrollar análisis en bases de datos almacenadas en memoria principal. La descripción abarca una lista de preguntas de negocio y el almacén de la base de datos. El almacén es una estructura de datos con arreglos y que están ligados entre sí, llamada Arblis, con lo cual no se buscan los datos en disco, lo que reduce el tiempo en la búsqueda de datos. Arblis almacena la base de datos, que es modelada como una base multi-dimensional (cubos de datos). Este modelo, permite definir operaciones con los cubos, operaciones con un interés sobre sucesos a través del tiempo, pero que también pueden ser en cualquier otra dimensión. Una operación con los datos de interés a analizar, puede ser el porcentaje de incremento de un período a otro. Arblis permite responder a la lista de preguntas de negocios aquí planteada.
(Technical paper). It describes a tool called Antecumem which is used for analysis in databases stored in main memory. The description includes a list of questions from business and store the database. The warehouse is a data structure and arrangements that are linked to each other, call Arblis, which does not seek data on disk, which reduces the time in the search for data. Arblis stores the database, which is modeled as a multi-dimensional (data cube). This model lets you define operations in the data cubes, oprations with an interest in events over time, but may also be in any other dimension. An operation with the data of interest to analyze, may be the percentage increase from one period to another. Arblis responding to the list of business questions raised here.

Ph. D. Thesis. A complete description of ANTECUMEN and Arblis is found in the Ph. D. Thesis of Gilberto Martinez, click here. Una descripción detallada de ANTECUMEN y Arblis, y programas accesorios, así como ejemplos y análisis teórico, se encuentra en la tesis de doctorado de Gilberto Martínez Luna. Abstract: This work deals with the design of a data structure called Arblis on main memory as a persistent warehouse only for reading, where to make searches and operations for data analysis. The design of the data structure helps to reduce the time to read the data of the main memory from 10 to 50 times, instead of reading them from disc, desirable reduction in information systems that make data analysis and decision support. The data stored is already validated and there is no modification process.
The data structure consists of two arrays linked between them. The data store is used by a software tool called Antecumem. The constructed tool full the data structure Arblis, captures the desired tasks, makes the corresponding data analyses and obtains the corresponding results.
The tasks of data analysis are on businesses questions that work with data range in different variables that have a special interest. In order to obtain the answer of the businesses questions it is generally required to merge thousands and sometimes millions of records. Besides, the processes are expensive by the access to the data, and also, they are expensive in the number of operations between the records.
The data ranges in the variables define to the tool to have like work unit the multi-dimensional model or the datacube. This unit allows to define operations on the results of analyzing the datacubes. The operations are union, intersection and difference. In general these are of interest in events through time, but it may be in any dimension. In addition, it allows to define operations on the facts, like the percentage of increase from a period to another one.
With the identification of the key elements (parameters and datacube) of the businesses questions when making a classification of them, obtained a work model in order to facilitate the creation of the corresponding algorithms to solve the questions. This model allows to see the base as a multi-dimensional database. The flexibility of the model allows to answer more business questions which were not consider of the start.
Based in the model, the tool uses an input screen to receive the parameters that define the type of businesses question, to accept the ranks of data to define the datacubes where the questions are answered and the corresponding screen to return the results for an interpretation of the results.
As a further proof of the usefulness of the data structure, Antecumem is used to model to the nodes of a called structure lattice. Lattice stores the views that form or complement to the datacube. This structure allows according to the ranks of the question, to select the detail of records or to make the decision to directly go to read the already accumulated records within the nodes of latice. It is decision helps to reduce plus the response time, in other types of questions, in addition to the modeled ones initially.
Palabras claves. Bases de Datos Relacionales, Cubo en Memoria, Datos en Memoria, Minería de Datos, Minería Incremental, Ajuste de Curvas, Bases de Datos Multidimensionales, OLAP, Cubos de Datos y Lattices.

Automatic interchange of knowledge between business ontologies

185. Alma-Delia Cuevas, Adolfo Guzman-Arenas (2009) Automatic interchange of knowledge between business ontologies. This technical paper will appear in Proceedings of Intelligent Decision Support Technologies 2009, Japan. Click here. This is a shorter version, suited for a Congress, of paper #183.
A person adds new knowledge to his/her mind, taking into account new information, additional details, better precision, synonyms, homonyms, redundancies, apparent contradictions, and inconsistencies between what he/she knows and new knowledge that he/she acquires. This way, he/she incrementally acquires information keeping at all times it consistent. This information can be perfectly represented by Ontologies. In contrast to human approach, algorithms of Ontologies fusion lack these features, merely being computer-aided editors where a person solves the details and inconsistencies. This article presents a method of Ontology Merging (OM), its algorithm and implementation to fuse or join two Ontologies (obtained from Web documents) in an automatic fashion (without human intervention), producing a third ontology, and taking into account the inconsistencies, contradictions, and redundancies between both Ontologies, thus delivering a result close to reality. OM produces better results, when they are compared against fusions manually carried out. The repeated use of OM allows acquisition of much more information about the same topic.

An extensive explanation of OM can be found in Alma-Delia Cuevas Ph. D. Thesis, click here. Ejemplos, explicaciones extensas, y consideraciones teóricas sobre OM y su desempeño se halla en la tesis de doctorado de Alma Delia Cuevas Rasgado. ABSTRACT: A person’s knowledge increases as more information is obtained from his environment; information sources play an important role in this process. One does not learn from zero, even an animal is born with innate knowledge. Learning happens by adding new concepts or linking them to already existing ones. Although information from outside sources can contradict or confound a person, he has the tools to solve somehow this problem. The knowledge accumulates in what we can call his ontology.
Ontologies can also be structured and defined in computers. This work focuses on ontology fusion; during the fusion the same cases arises as those occurring to a person. The difference is that machines have no common sense, so the challenges are to automate the fusion, to perform it in spite of problems (redundancies, descriptions at different detail levels), and that the result be as close as possible to the result obtained by a person.
Previous works [11, 13, 28 y 40] perform ontology fusion in a semiautomatic, computer-assisted manner. Others [25 y 34] fuse ontologies expressed in a formal notation, but are incapable of fusing mutually-inconsistent ontologies, as most of the real-life ontologies are.
This work presents a process for ontology merging which is automatic and robust. Automatic since the computer detects and solves the problems arising during the fusion and robust because merging occurs in spite of ontologies being mutually inconsistent and present information from different viewpoints. The efficiency of our algorithm is shown by converting by hand several documents in Internet to ontologies in our notation, and then automatically fusing them. Results show a slight error margin in comparison with manual fusion performed by an expert.
RESUMEN. El conocimiento de un ser humano se va acumulando conforme a lo que sucede en su entorno, las fuentes de información tienen un papel importante en este proceso; no se aprende de cero, inclusive un animal nace con conocimiento previo. El aprendizaje sucede agregando nuevos conceptos o asociándolos a los ya existentes. Aunque existe información del exterior que puede contradecir o confundir a un ser humano, éste cuenta con las herramientas que le permite resolverlo de alguna manera. A éste cúmulo de información se le puede llamar su ontología.
Las ontologías también se pueden estructurar y definir en las computadoras. Este trabajo se centra en la unión de ontologías entre computadoras, durante ésta unión pueden suceder los mismos casos que en una persona; la diferencia es que las máquinas carecen de sentido común y los desafíos son hacer la fusión de manera automática, que no se detenga ante los problemas (redundancias, distinto nivel de descripción…) que se presenten y que el resultado sea lo más cercano a la fusión natural de conocimiento del ser humano.
Existen trabajos [11, 13, 28 y 40] que realizan la unión de ontologías pero lo hacen de manera semiautomática, otros [25 y 34] unen ontologías expresadas en un lenguaje formal, pero son incapaces de unir ontologías mutuamente inconsistentes, como lo son la mayoría de las ontologías reales.
Este trabajo presenta un proceso de unión de ontologías de forma automático y robusto. Automático porque la computadora detecta y resuelve los problemas que se presentan durante el proceso de la unión y Robusto porque realiza la unión pese a que las ontologías son mutuamente inconsistentes o representan la información desde distintos ángulos. Se demuestra la eficiencia del algoritmo de fusión a través de varios ejemplos reales con documentos obtenidos de Internet cuyas ontologías se construyeron manualmente y se fusionaron de manera automática. Los resultados tuvieron un ligero margen de error en comparación con la fusión manual de un usuario experto en el tema del documento.

Obtaining the consensus and inconsistency among a set of assertions on a qualitative attribute

186. Adolfo Guzman-Arenas, Adriana Jimenez, Obtaining the consensus and inconsistency among a set of assertions on a qualitative attribute. (Technical paper) Click here.
It is well understood how to compute the average or centroid of a set of numeric values, as well as their variance. In this way we handle inconsistent measurements of the same property. We wish to solve the analogous problem on qualitative data: How to compute the “average” or consensus of a set of affirmations on a non-numeric fact, as reported for instance by different Web sites? What is the most likely truth among a set of inconsistent assertions about the same attribute?
Given a set (a bag, in fact) of statements about a qualitative feature, this paper provides a method, based in the theory of confusion, to assess the most plausible value or “consensus” value. It is the most likely value to be true, given the information available. We also compute the inconsistency of the bag, which measures how far apart the testimonies in the bag are. All observers are equally credible, so differences arise from perception errors, due to the limited accuracy of the individual findings (the limited information extracted by the examination method from the observed reality).
Our approach differs from classical logic, which considers a set of assertions to be either consistent (True, or 1) or inconsistent (False, or 0), and it does not use Fuzzy Logic.

Un conjunto de reglas heurísticas para encontrar información interesante en bases de datos relacionales y un algoritmo para su aplicación

Este trabajo es la tesis de maestría de Mirna López Espíndola. El trabajo completo se encuentra aquí. This is the M. Sc. Thesis of Mirna López. Click here to obtain the full work.
RESUMEN.

-->El almacenamiento de información en grandes bases de datos dificulta la extracción de datos útiles o interesantes para un usuario y objetivo específico. El objetivo del descubrimiento de información en bases de datos (KDD) es la obtención de información interesante mediante el proceso de minería de datos, dentro de este proceso se realiza la depuración de información, en el cual se sitúa el presente estudio, esta depuración contempla varias formas de representar la información y diversos métodos para la depuración, nosotros utilizaremos la regla de asociación para representar la información y proponemos un conjunto de reglas heurísticas para la depuración de reglas de asociación. Las reglas heurísticas fueron obtenidas con base en los elementos que, según diversas definiciones del concepto “interesante”, identifican cuando y en que circunstancias algo es interesante. Proponemos un algoritmo para indicar el orden y circunstancias en que cada regla heurística se aplicará. Finalmente, se realiza un ejemplo de la aplicación de nuestro algoritmo y se comprarán los resultados a los obtenidos con el algoritmo de [Sahar 99].
ABSTRACT.
The storage of information in big databases difficult the extract of useful or interesting data for an specific user and goal. The goal of knowledge discovery databases (KDD) is to obtain interesting information through the data mining process, inside this process, is made the refine of information, in the which this study is placed, this refine contemplates many forms of to represent the information and different methods for the refine, we are going to use the association rule for represent the information and we propose a set of heuristic rules for the refine of association rules. The heuristic rules have been obtain with base in the elements that, according the different definition of the “interesting” concept, identify when and in what circumstances something is interesting. We propose an algorithm for indicate the order and circumstances in than each heuristic rule is going to apply. At last, we did an example of the application of our algorithm and the results are going to compare with ones obtain with the algorithm of [Sahar 99].