SINAMED
escrito por Administrator   
Sunday, 29 de June de 2008

Antecedentes

Aunque la sobrecarga de información es un elemento común a toda la sociedad, quizás uno de los ámbitos en donde su impacto sea mayor sea el de la biomedicina, donde los investigadores y profesionales en general, necesitan de forma cada vez más crucial, herramientas que faciliten el acceso a la información adecuada a sus necesidades. Este dominio, además, ofrece la oportunidad de investigar nuevas y mejores técnicas de análisis del contenido de textos, capaces de resolver problemas específicos de nuevos entornos de aplicación.
Durante los últimos años, buena parte de la investigación del grupo se ha centrado en tareas de análisis del contenido textual y, especialmente, en categorización automática de textos y generación de resúmenes, y su aplicación en diferentes entornos de acceso a la información.
La eficacia e interés de la aplicación de técnicas de análisis del texto a tareas de acceso a la información viene avalada por multitud de trabajos en el área y por iniciativas internacionales tan importantes como la serie de conferencias TREC y DUC organizadas por el NIST. Respecto a nuestra propia experiencia, a lo largo de los últimos años hemos concluido con éxito trabajos que demuestran el interés y viabilidad de la propuesta que aquí se presenta. Así, por ejemplo, los trabajos [Maña, 1998, 1999 y 2000] prueban la eficacia de los resúmenes monodocumento adaptados al usuario en tareas de recuperación ad hoc y realimentación de relevancia. En [Maña, 2004] se presenta un experimento con usuarios que muestra mejoras en la efectividad, en una tarea de recuperación interactiva, cuando se utilizan conjuntamente técnicas de agrupamiento y de generación de resúmenes multidocumento. Para finalizar, en [Buenaga, 2000] y [Gómez, 2003] se muestra la integración de técnicas de categorización en personalización de información periodística de actualidad.

Objetivos del proyecto

El objetivo principal de este proyecto es desarrollar nuevos mecanismos de acceso a la información mediante la aplicación de técnicas de análisis del lenguaje humano. Las técnicas de análisis en que se centra son la categorización automática de textos y la generación automática de resúmenes.
Se plantea la introducción de mejoras originales y relevantes en estas técnicas y algoritmos, así como la realización de las especializaciones y adaptaciones requeridas por el entorno concreto de aplicación y el procesamiento de información bilingüe (inglés y español). Se desarrollará un entorno de aplicación y experimentación de dimensiones adecuadas sobre documentos del dominio biomédico: Medline, MedlinePlus/HealthDay (inglés/ español), y TREC/GenomicsTrack. Dicho entorno integrará las técnicas de análisis de texto mencionadas sobre mecanismos de búsqueda que faciliten el acceso a la información requerida por el usuario. Se realizará una evaluación del entorno de aplicación, y de cada uno de los diferentes elementos integrados conforme a estándares generales y específicos de recuperación de información TREC, y de las operaciones concretas de categorización y generación de resúmenes.
El proyecto propone el diseño e integración de técnicas de generación de resúmenes y categorización automática de textos para el acceso a la información bilingüe en el ámbito biomédico.

Los objetivos principales del proyecto son:

Desarrollo de técnicas avanzadas de generación de resúmenes monodocumento y multidocumento, adaptadas al dominio biomédico:

  • Estudiar cuál es la aportación real de la estructura temática en los resúmenes monodocumento
  • Explotar la estructura formal y temática de los documentos en resúmenes multidocumento
  • Mejorar los resúmenes de diferencias, basándose en técnicas más efectivas para descubrir información relevante y original
  • Adaptación de las técnicas a las características especiales de los textos biomédicos. Integración de recursos léxico-semánticos como UMLS (Unified Medical Language System)


Mejora de técnicas de categorización de textos y adaptación al dominio biomédico:

  • Adaptar e incorporar técnicas de categorización automática de texto al dominio biomédico, aumentando la efectividad de la tarea en este dominio.
  • Estudiar la utilización de recursos léxico-semánticos multilingües del dominio, especialmente UMLS, con el fin de mejorar las técnicas actuales basadas en aprendizaje automático


Desarrollo de tecnologías bilingües español/inglés integradas:

  • Desarrollo de componentes software para el procesamiento de textos en español e inglés orientado a la implementación de los algoritmos para la categorización y generación de resúmenes, potenciando la utilización e integración con recursos ya existentes como Freeling y Gate (análisis de lenguaje), Weka (aprendizaje automático), y ontologías y recursos léxicos (UMLS, MeSH, WordNet y EuroWordNet).


Desarrollo de un sistema de búsqueda y acceso a la información, integrando métodos de interacción basados en resúmenes y categorías:

  • Desarrollar un sistema de búsqueda que ofrezca al usuario facilidades de acceso a la información reduciendo la sobrecarga de información mediante los resúmenes y la categorización, y mejorando la organización de la respuesta, presentando grupos de documentos relacionados y contextualizados por categorías.
  • Desarrollar interfaces totalmente operativos para usuarios reales y ofreciendo interacción mediante dispositivos adecuados a sus necesidades: estándar y móviles.


Evaluación de la usabilidad y la efectividad: se realizarán procesos de evaluación con grupos de usuarios finales de dimensiones adecuadas, en dos tipos de entornos:

  • Entorno abierto: estos experimentos estarán orientados a medir la usabilidad de la interfaz y la satisfacción de los usuarios en tareas finales de acceso a la información sobre Medline y HealthDay. Se evaluarán parámetros de usabilidad como tiempo medio de realización de consultas de su interés, y grado de satisfacción de los usuarios.
  • Entorno controlado: estos experimentos estarán orientados a medir la mejora conseguida en la efectividad en problemas especialmente diseñados para evaluar las mejores conseguidas en el acceso a la información, y se conducirán sobre las colecciones de documentos, resultados y juicios de relevancia, experimentales de referencia TREC-Genomics Track

Entidades integrantes

El proyecto SINAMED esta integrado por una serie de  organismos colaboradores que contribuyen activamente al desarrollo tecnológico del proyecto, a continuación se pueden ver las entidades integrantes:
 
 
 
 
 
Miembros del GSI que participan en el proyecto SINAMED
 
A continuación se muestra la lista de investigadores que están implicados en el proyecto SINAMED.
 
Investigadores:
 
  • Manuel de Buenaga (Investigador Principal del GSI-UEM)
  • Diego Gachet
  • Francisco Carrero
  • José Carlos Cortizo
  • Enrique Puertas
  • Borja Monsalve
  • Mari Cruz Gaya
  • Yaiza Temprado
 
Becarios:
 
  • Pablo Miranda
  • Adrián Yanes

Publicaciones

Artículos en revistas y capítulos de libros

Maña, M.J., M. de Buenaga y J.M. Gómez. 2004. Multidocument summarization: An added value to clustering in interactive retrieval. ACM Transactions on Information Systems, vol. 22, núm. 2, 215-241
J.M. Gómez, I. Giráldez, M. de Buenaga, 2004. Text Categorization for Internet Content Filtering (Categorización para los filtros de contenido en Internet) : Inteligencia Artificial Vol III/2004, núm 22, 147-160
J.M. Gómez, E. Puertas, F. Carrero, M. de Buenaga, 2003, Categorización de texto sensible al coste para el filtrado de contenidos inapropiados en Internet, Procesamiento del Lenguaje Natural vol 31, 13-20
Ureña, L.A., de Buenaga, M., Gómez, J.M. "Integrating linguistic resources in Text Categorization through Word Sense Disambiguation", en Computers and the Humanities, Kluwer Academic Press, vol. 35, núm. 2, 215-230
Maña, M.J., L.A. Ureña y M. de Buenaga. 2000. Tareas de análisis del contenido textual para la recuperación de información con realimentación. En Procesamiento del Lenguaje Natural , nº 26, septiembre 2000, 215-222.
Buenaga, M., Gómez, J.M., Díaz, B. , 2000. Using Wordnet to Complement Training Information in Text Categorization, cap. en “Recent Advances in Natural Language Processing II“ John Benjamins, 353-364
Maña, M.J., M. de Buenaga y J.M. Gómez. 1999. Using and Evaluating User Directed Summaries to Improve Information Access. En S. Abiteboul y A.M. Vercoustre (eds.), Research and Advanced Technology for Digital Libraries, LNCS, Vol. 1696, 198-214, Springer-Verlag. París (Francia).
Maña, M.J., M. de Buenaga y J.M. Gómez. 1998. Diseño y evaluación de un generador de resúmenes de texto con modelado de usuario en un entorno de recuperación de información. En Procesamiento del Lenguaje Natural,  nº 23, septiembre 1998, 32-39.
Buenaga, M., Fernández-Manjón, B., Fernández-Valmayor, A., 1995. “Information Overload at the Information Age”, cap. en “Innovating Adult Learning with Innovative Technologies”, Elsevier, 17-30

Comunicaciones en congresos


José María Gómez Hidalgo, José Carlos Cortizo Pérez, Enrique Puertas Sanz, Miguel Ruíz Leyva Concept Indexing for Automated Text Categorization, 9th International Conference on Applications of Natural Language to Information Systems, NLDB 2004, Salford, UK.
Manuel de Buenaga Rodríguez, José María Gómez Hidalgo, Enrique Puertas Sanz, 2004. Text Filtering for Spanish, Workshop on present and future of open-source content-based Web Filtering, Pisa, Italia
Mark Hepple, Neil Ireson, Paolo Allegrini, Simone Marchi, José María Gómez Hidalgo, NLP-enhanced Content Filtering within the POESIA Project, Fourth International conference on Language Resources and Evaluation (LREC 2004), Lisboa, Portugal.
Gómez Hidalgo, J.M., 2003. Evaluating Cost-Sensitive Unsolicited Bulk Email Categorization, ACM Symposium on Applied Computing, Madrid.
Gómez Hidalgo, J.M., de Buenaga Rodríguez, M., Ureña López, L.A., Martín Valdivia, M.T., García Vega, M., 2002. Integrating Lexical Knowledge in Learning-Based Text Categorization, 6th International Conference on the Statistical Analysis of Textual Data, St. Malo, Francia.
Ignacio Giráldez, Enrique Puertas, José María Gómez, Raúl Murciano, Inmaculada Chacón, 2002. HERMES: Intelligent Multilingual News Filtering Based on Language Engineering for Advanced User Profiling, Multilingual Information Access and Natural Language Processing Workshop, IBERAMIA, Sevilla
 

Modificado el ( Tuesday, 29 de June de 2010 )