Extracción de la información
De Wikipedia, la enciclopedia libre
La Extracción de la información (de sus siglas en inglés IE, Information Extraction) es un tipo de recuperación de la información cuyo objetivo es extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora.
Una aplicación típica de IE es el escaneado de una serie de documentos escritos en una lengua natural y rellenar una base de datos con la información extraída. Las tendencias actuales en relación con la IE utilizan técnicas de procesamiento de lenguaje natural que se centran en áreas muy restringidas. Por ejemplo, la Message Understanding Conference (MUC), o Conferencia para la Comprensión de Mensajes es una competición que se ha centrado en los siguientes aspectos durante los últimos años:
- MUC-1 1987, MUC-2 1989: Mensajes para operaciones navales.
- MUC-3 1991: Terrorismo en países latinoamericanos.
- MUC-5 1993: Microelectrónica.
- MUC-6 1995: Nuevos artículos a cerca de los cambios en la gerencia.
- MUC-7 1998: Informes de lanzamiento de satélites.
[editar] Táreas típicas de la IE
Reconocimiento de nombres de personas, organizaciones, lugares, expresiones temporales y ciertas expresiones numéricas.
Coreferencialidad: identificar distintos sintagmas nominales que se refieren al mismo objeto. La anáfora es un tipo de coreferencialidad.