Computer Science - from Adolfo Guzman --Trabajos en Computación
Professional activities of Adolfo Guzman-Arenas, publications & reports, as well as some students' work. Ontologies, knowledge understanding. Trabajos técnicos míos y de estudiantes. Aplicaciones, cómputo distribuido. Inteligencia Artificial, Ontologías.
Mi página Web -- (click here) -- My Web page (http://alum.mit.edu/www/aguzman)
Perfil en ResearchGate --
Aprendizaje de protocolos ASTM para equipos clínicos (análisis de laboratorio)
Minería de datos --curso en el CIC. Data mining course
La minería de datos es el descubrimiento automático (o semiautomático) de tendencias, desviaciones, situaciones interesantes y anomalías en un mar de datos. Es descubrir conocimiento en los datos. Extracción de patrones interesantes (no triviales, implícitos, previamente desconocidos y potencialmente útiles) o conocimiento, en una gran cantidad de datos. También se llama descubrimiento o minado de conocimiento, extracción de conocimiento, análisis de datos, análisis de patrones, arqueología de datos, inteligencia de negocios, etc.
Sirve para apoyar decisiones de negocios, para toma de decisiones, encontrar desviaciones, detectar anomalías cuando apenas surgen. Se apoya en las bases de datos (y las bodegas de datos), la estadística, la visualización y el agrupamiento (clustering).
Basado en el libro “Data mining, concepts and techniques” 2nd. Ed. Jiawei Han and Micheline Kamber
La minicomputadora DEC PDP-12 del CINVESTAV del IPN
El Dr. Pablo Rudomín (Departamento de Fisiología) y Adolfo Guzmán (Departamento de Ingeniería Eléctrica) usaron esta computadora en el Centro de Investigación y Estudios Avanzados del IPN, allá por los años 70's. Ahora está en el Museo Tezozomoc del IPN.
En una visita al museo en agosto de 2011, vemos a los dos investigadores posando frente a la minicomputadora.
Visualización de la información por jerarquías (tesis de maestría). Visualization using hierarchies
En este trabajo se muestra un análisis, diseño e implementación de una herramienta para resolver el tipo de pregunta de negocio planteada, lo cual consiste en la búsqueda de los elementos de interés dentro del árbol de jerarquías de una dimensión de un cubo de datos y posteriormente presentar los resultados en representaciones visuales recomendadas por los expertos de la visualización de la información. Se presentan 3 tipos de representaciones lo cuales son: Mapas de nodos, Mapas de calor y Mapas Pastel Multi-Nivel. Además de tableros de control para analizar las anomalías o puntos de interés en otros niveles de la jerarquía permitiendo así una navegación sobre los distintos niveles de granularidad y sobre otras dimensiones involucradas en el análisis. Send me email if you want the full document.
At present analysis in databases is difficult due to various reasons: either because of large volumes stored, or internal structures in the data set. This causes the search for anomalies or situations of interest in a data set to be complex. Suppose in a product sales company this situation occurs: They want to know what level of classification (hierarchy) of products with high sales levels, say above 80% over the previous year. This consulting business called "trend in hierarchy" is locating those items in a hierarchy in the data submitted by a situation of interest to be analyzed. This means finding the relevant elements and the elements necessary to achieve the landmarks.
This paper presents an analysis, design and implementation of a tool to solve the kind of business question posed. This consists in finding items of interest within the hierarchy tree of data cube dimension and then presents the results in visual representations recommended by information display scientists. There are 3 types of representations which are nodes maps, heat and Pastel Multi-Level maps. In addition to dashboards analyzing anomalies or points of interest in other levels of the hierarchy, which allows navigation on different granularity levels and other dimensions involved in the analysis.
La revista CIENCIA (jul-sep 2011) habla de Computación
- Hugo Coyote ("La información es poder ... sobre todo si está en una base de datos"),
- Gilberto Martínez Luna ("MInería de datos: cómo hallar una aguja en un pajar"),
- Luis Pineda ("De los sistemas conversacionales a los robots parlantes"),
- Adolfo Guzmán ("Ciudad digital, ciudad inteligente"),
- Guillermo Mallén ("La seguridad en el mundo digital"),
- Alma Delia Cuevas ("Cuando las máquinas entiendan lo que leen"),
- Nancy Ruiz ("Los usos del chile"),
- con una presentación por Adolfo Guzmán.
Uso de nuevas tecnologías de la computación para mejorar la interacción en una urbe
Desde el punto de vista de un informático, una ciudad es un conglomerado de entes (personas físicas y morales --empresas, organizaciones, dependencias...) que producen, consumen, procesan y almacenan información. Confluyen en una urbe dos fenómenos: (a) el hacinamiento o aglomeración de entes que aún se rigen por costumbres, leyes y servicios diseñados cuando la concentración era menor, y (b) el auge acelerado de la computación, en particular su abaratamiento, y la casi gratuidad de la transmisión de información. Esto hace que los informáticos tengamos una oportunidad ejemplar de aplicar los nuevos métodos y técnicas de nuestra profesión para remodelar la manera de actuar, de interactuar y de conducirse en una urbe o megaconglomerado.
Es preciso rediseñar los modelos de interacción entre nosotros, porque (a) no estábamos acostumbrados a vivir tan apretados, y (b) aún no aprovechamos las bondades y lo barato de los servicios informáticos con que contamos. Por ejemplo, solicitar servicios es aún presencial; actos jurídicos (demandar, desfogar una audiencia, ofrecer pruebas) aún son presenciales y síncronos (ocurren en determinado edificio a determinada hora de determinado día); estudiar es presencial; votar es presencial.
Tenemos que pensar en ideas de cómo cambiar nuestras costumbres, nuestros modelos de interacción y nuestra manera de funcionar, aprovechando la comunicación casi instantánea y casi gratuita, y evitando el transporte físico de personas o entes y de mercancías o satisfactores.
Temas a abordar:
Tecnologías para los servicios y toma de decisiones ciudadanas.
Reemplazar documentos de papel. "Junto con su solicitud que deberá firmar con tinta azul, deberá traer dos copias de su acta de nacimiento, copia de su credencial para votar, por ambos lados, así como constancia de ..., todos apostillados por el cónsul mexicano en su ciudad natal." La firma digital.
Acceso digital para los mexicanos--gobierno,banca y comercio digital. Ciudadanos transparentes.
Aprendizaje en presencia de la ubicuidad de la información. Qué aprender. Cómo aprender. Aprender a localizar fuentes de información.
Buscadores de documentos (Google) versus sistemas de conocimiento almacenado (programas que contestan preguntas no triviales en base a la información que contienen) --deducción de las respuestas. Ejemplo: Wolfram Alpha.
Seguridad informática, seguridad pública y seguridad privada. Las cámaras de video siempre vigilan.
La cédula única de identidad. Mi identidad en poder de la computadora. Los documentos oficiales, títulos, diplomas y escrituras se guardan en la computadora. La computadora tiene mi título. Más cédula de identificación ciudadana o cédula de identidad con datos biométricos.
Democracia, autodeterminación y procesos electorales. Votar por internet o por teléfono.
Impacto de los medios en la toma de decisiones. Propaganda focalizada.
Otro ejemplo: Gobierno electrónico.
Otro ejemplo: Software que ayuda a la atención de una contingencia severa (catástrofe) causada por un sismo de gran magnitud en una urbe.
Más información (transparencias) aquí.
Software para atender una contingencia severa causada por terremoto
RieSis, SOFTWARE PARA PROTECCIÓN CIVIL ANTE RIESGO SÍSMICO (terremoto en una gran urbe)
Los fenómenos geológicos e hidrometeorológicos se rigen por leyes todavía desconocidas en su mayor parte. Estos fenómenos afectan a la población mundial ubicados en zonas de peligro sin considerar normas de construcción ni las zonas afectables por inundaciones. Todos los países con frontera con el Cinturón de Fuego del Pacífico y los del Caribe, padecemos de tiempo en tiempo, terremotos. Hemos elaborado un “Plan Operativo anti Sísmico Protector de la Población” que describe las funciones y acciones que debe desarrollar el gabinete de un gobierno para atender y solucionar los efectos destructivos que un terremoto cause a sus habitantes. Este Plan Operativo supone 12 centros desde donde se girarían instrucciones, informes de avances, solicitudes de cantidades y especies, suministros, (sangre, medicamentos), entre otros muchos.Las primeras horas después de un terremoto de gran magnitud, son cruciales. El tiempo y la preparación son decisivos para proporcionar una atención aceptable a la población afectada. Eso hace indispensable incluir la informática en el proceso, lo que automatizará el desarrollo de las múltiples actividades que deben implementarse simultáneamente.
Proponemos construir el software RieSis, necesario para apoyar al Plan Operativo. En general, RieSis proporcionará comunicaciones efectivas entre los doce grupos de trabajo (Detección, Evaluación, Salvamento, Atención Hospitalaria, Refugios Temporales, Restablecimiento, Seguridad Pública, Adquisiciones de emergencia, Abasto (logística), Consejería Jurídica, Administración, Comunicación Social), el personal en campo y los puestos de mando secretariales (de las secretarías de gobierno), estatales, municipales, y con los del ejército, además de salvaguardar y administrar los datos sobre recursos, personas y daños, y llevar control del flujo de la atención al siniestro. RieSis estará localizado en un Centro de Control, su diseño será distribuido (en varias plataformas informáticas) para tener mayor comunicación con los grupos de trabajo e informantes (incluyendo a los Coordinadores de Sitio), y para redundancia. Los informantes (de daños, víctimas, rescatistas, grúas…), incluyendo personas espontáneas ingresarán información vía Internet. RieSis mostrará los sitios (y sus condiciones, estado, víctimas…) afectados mediante una interfaz gráfica, accesible a cualquier persona en Internet.
RieSis es un proyecto que estamos empezando (mayo 2011) en el Centro de Investigación en Computación del IPN, auspiciados por LACCIR.En LA CRÓNICA DE HOY publiqué (4 mayo 2011) un pequeño artículo sobre esto.
El Desarrollo industrial de México, por Rufino Guzmán Rasgado
Análisis cienciométrico de tesis de maestría 1996-2007 del CIC del IPN
RESUMEN.En este trabajo se presenta un estudio cienciométrico, donde se utilizan indicadores bibliométricos tales como indicadores de publicación e indicadores de análisis de citas, se hace uso de una herramienta que utiliza la cienciometría, siendo esta el método de las palabras asociadas (análisis cowords), todo esto en una muestra de documentos de tesis de maestría concluidas en ciencias de la computación del Centro de Investigación en Computación en el periodo de 1996 hasta 2007. Se ha organizado la información requerida para este análisis cienciométrico de hasta 198 tesis en una base de datos; los cuales se han recuperado acudiendo a diferentes fuentes de información, como lo son: Biblioteca, Área de Control Escolar y Apoyo de Investigadores.
En la parte de indicadores de publicación se describe la producción científica en los documentos de tesis; en donde se analiza la productividad de los directores en diversos tópicos de las Ciencias de la Computación, además de analizar si se tiene la preferencia o la tendencia en determinados tópicos. Los indicadores de análisis de citas describen como es la fuente de conocimiento en cuanto a citas bibliográficas.
Con el método de las palabras asociadas se generan diagramas estratégicos y grafos (representación visual de la información) permitiendo seguir la evolución a través del tiempo (patrones y tendencias) con los tópicos de las ciencias de la computación para analizar las relaciones entre ellos, los tópicos son de acuerdo al grupo de IEEE Computing Society and ACM.
Esta tesis deja las bases para realizar comparativos con el conocimiento que reflejan los diagramas estratégicos en el campo de las ciencias de la computación en los diferentes centros de investigación del I.P.N y de lo que realmente se investiga en estos centros. Estos diagramas se pueden enriquecer si se adiciona el análisis de artículos u otra fuente de información.
Ventajas y desventajas de la cédula de identidad ciudadana
Sistema de análisis temático del conocimiento científico
RESUMEN. En este trabajo de tesis se presenta una herramienta de software que permite identificar tendencias, que describen la evolución en una disciplina del conocimiento científico cuyos recursos de información se encuentran ya clasificados. La herramienta busca apoyar a la minería de datos como parte del proceso de descubrimiento de conocimiento y la identificación se apoya en el análisis de la producción de los recursos de información de ciencia y tecnología, y su visualización en gráficas con respecto al tiempo.
Para ilustrar el uso de la herramienta se emplean los artículos de divulgación de dos revistas electrónicas de Computación de la librería digital del ACM (Association for Computing Machinery), que están ya clasificados con la temática multinivel "The 1998 ACM Computing Classification System" que describe esta disciplina. Las tendencias en las categorías o temas de la disciplina se identifican mediqante la formulación de preguntas dirigidas conocidas como modelos y dependiendo del modelo utilizado, los resultados son represntados en gráficas que muestran las tendencias o en gráficas, que se pueden considerar como mapas de conocimiento que satisfacen el criterio del modelo. La unidad de análisis del conocimiento son los temas o categorías en los primeros tres niveles que se encuentran dentro del sistema de clasificación de ACM.
Las gráficas pueden ayudar a mostrar la contribución en la producción de los temas o categorías de la disciplina en un lapso de tiempo, mostrando comparativos en la producción de sus descriptores afines. También permite identificar en los temas si su "popularidad" va en aumento o en caso contrario de otras que ya no son de interés o están abandonadas en su estudio o investigación y por cuánto tiempo.
La contribución de este trabajo es el software que permite visualizar gráficas para identificar tendencias en una categoría de una disciplina científica y que se puede extender a cualquier otra que esté debidamente clasificada y con el tratamiento adecuado para registrar en la base de datos de este software. Otra contribución es que el diseño de la base de datos está acorde a como la trabaja la web de la ciencia y algunas herramientas que se dedican a aplicar la Bibliometría y Cienciometría entre otras ciencias afines.
Palabras Clave. The 1998 ACM Computing Classification System: H.2 Administración de bases de datos; H.2.8 Minería de datos; Tendencias en la evolución del conocimiento científico; herramienta de software.
Mapeando palabras a conceptos: desambiguación
Ésta es la tesis de Fabiola Colorado. Pulsar aquí. En este trabajo se presenta un nuevo modelo computacional para la desambiguación de palabras de textos en español. Dicho modelo se basa en la técnica del “Algoritmo de Lesk Simplificado” con extensiones y modificaciones sustanciales. A diferencia de otros modelos de desambiguación, no se realiza un etiquetado previo del texto, ni se dan las palabras ambiguas a buscar, es decir es un modelo no supervisado. Los resultados obtenidos muestran el potencial del modelo comparado con los mejores criterios internacionales.
Where to find recent technical papers --dónde hallar artículos técnicos recientes, y temas de tesis para computación
Informes técnicos recientes, publicaciones, tesis, transparencias, se localizan a texto completo:
- Información general, mi currículo: click here. General information, my vitae.
- Projects in Computer Science and possible thesis topics. Instruction to students writing thesis for A Guzman: click here. Proyectos y temas de tesis en Computación. Instrucciones para tesistas (estudiantes que están desarrollando su trabajo de tesis). Yo puedo asesorar en estos trabajos.
- Text analysis, disambiguation: click here. CLASITEX, análisis de documentos, desambiguación. Hallando los temas de los que habla un documento.
- Computando con palabras: click here. Computing with words, solving arithmetic problems posed in qualitative terms. Cálculos y operaciones pero no con números.
- BiblioDigital, una biblioteca digital distribuida: click here. BiblioDigital (C), a distributed digital library. Full text search; collections; crawlers; using stemmers.
- Inconsistency, how to measure it; consensus or centroid of a set of qualitative assertions: Click here. Qué tan inconsistente es un conjunto de afirmaciones sobre valores simbólicos o cualitativos; cómo medir la inconsistencia. Consenso, centroide, valor más plausible. Promediando peras y manzanas.
- Problem 7 of inconsistency. Click here. El problema 7 de la teoría de la inconsistencia: descomponer una secuencia de valores cualitativos (afirmaciones) en varias subsecuencias, cada una descrita por una máquina de estados finitos seleccionada de un conjunto dado de ellas.
- Confusion, similarity among qualitative values: click here. Confusión en jerarquías, cercanía de valores simbólicos. Si digo que Frankfurt es la capital de Alemania, ¿qué tan equivocado estoy?
- Data mining, data bases, information systems: click here. Bases de datos, minería de datos, sistemas de información. El fino arte de hallar situaciones interesantes, desviaciones, tendencias, anomalías, en un mar de datos.
- Data bases for Antropology. click here. Bases de datos antropológicas
- Curso de minería de datos. Click here. Data mining course. Técnicas para hallar datos que ocurren juntos frecuentemente (por ejemplo, cuando compro manzanas compro azúcar). Analizando una gran cantidad de datos. Escogiendo los ejes del cubo de datos.
- Ontology fusion, knowledge representation, text to concept: click here. Ontologías; su fusión; análisis semántico. Convirtiendo textos a redes semánticas (ontologías) para entender lo que dice el documento --extracción del conocimiento en él.
- Fusión de bases de datos heterogéneas. Contestando preguntas complejas mediante el acceso concurrente a bases de datos heterogéneas. Click here. Fusion of heterogeneous data bases.
- Software design: click here. Diseño de software. Su construcción.
- Virtual Learning. EVA. Click here. Educación virtual, enseñanza por Internet, el Proyecto EVA. Courseware hecho en el CIC-IPN.
- Symbolic languages: click here. Lenguajes de manipulación simbólica. CONVERT, SSDL. Lenguajes de programación que manipulan símbolos en vez de valores numéricos.
- Scene Analysis: click here. Análisis de escenas, visión por computadora (Aquí está mi tesis de doctorado)
- Shape description; shape comparison; shape numbers: click here. Descripción, comparaciones, análisis de formas 2D y 3D. Transformamos una forma o silueta en un número, y luego al comparar estos números hallamos qué tan similares son las formas que ellos representan.
- Parallel hardware design, multiprocessors: click here. Diseño de hardware paralelo, multiprocesadores. Acceso simultáneo a varios bancos de memorias.
- Pattern recognition: click here. Reconocimiento de patrones, análisis de escenas, reconocimiento de formas.
- Remote sensing: click here. Percepción remota, análisis de imágenes tomadas desde satélite.
- Recognition and awards: click here. Reconocimientos, distinciones, premios.
- Editorial work, Area editor of what Journals or publications: click here. Editor de área de publicaciones técnicas
- Reflexiones sobre Computación. Divulgación, artículos ligeros. Están aquí. Reflections on Computer Science. Dissemination, light articles.
- La computación, ¿Ciencia o Ingeniería? Click here. Computer Science: is it Science or Engineering?
- Construyendo el mundo digital. Cómo será el mundo en un futuro cercano. Cómo se construirá. Click here. Building the digital world. How will it be? Privacy, taxes, money, transportation, law... in the digital world of the future.
- Evaluating Computer Science. Click here. Evaluando la Computación. Cómo se ha medido y cómo debe medirse el trabajo en Computación.