dissabte, 15 de maig del 2010

lexicon

Lexicón

De Wikipedia, la enciclopedia libre

El lexicón es el "diccionario mentalmente hablado en el mundo lexico de los llamados lexihablantes" en el que se registran las palabras que conoce un hablante. Este "diccionario" especifica los rasgos característicos de las piezas léxicas (palabras y morfemas), como irregularidades morfológicas, requerimientos sobre alomorfos, información pragmática, etc.

Algunos modelos gramaticales formales basan la generación de oraciones en el procesamiento de los rasgos de las unidades del lexicón. En estos modelos, el lexicón no es parte de la gramática, sino que proyecta sus rasgos a través de mecanismos inherentes a las gramáticas.

Clases de unidades léxicas [editar]

Según su naturaleza, las unidades del lexicón pueden distinguirse entre:

  • Categorías léxicas o abiertas: Son aquellas que poseen carácter referencial (es decir, las que designan procesos, propiedades, acciones o entidades). Se caracterizan por formar un inventario abierto (es decir que no existe un número específico y limitado para estas unidades). Los sustantivos, los verbos y los adjetivos son representantes canónicos de este tipo de unidades léxicas.
  • Categorías funcionales o cerradas: Son aquellas que sólo poseen significado gramatical (es decir, que son fundamentales para la generación de una oración pero que, sin embargo, no tienen significado referencial). Se caracterizan por formar un inventario cerrado. Las conjunciones y los artículos son representantes de este tipo de unidad.

Clases de rasgos léxicos [editar]

Las unidades léxicas distinguen tres tipos de rasgos (no todos los modelos gramaticales utilizan los mismos rasgos léxicos. Lo que se da a continuación es una generalización):

  • Rasgos formales: Contienen información sobre el tipo de palabra de la que se trata (sustantivo, verbo, preposición), sobre el contexto sintáctico en el que pueden aparecer y sobre el tipo de flexión (regular o irregular) que requieren.
  • Rasgos semánticos: Contienen información sobre la estructura argumental requerida por una unidad léxica (un verbo como "destruir" requiere un agente que destruya y un tema a ser destruido), sobre las propiedades inherentes de cada unidad (un nombre como "niño" tiene rasgos [+humano] [+contable] etc.).
  • Rasgos fonológicos: Contiene la información necesaria para asignarle representación fonética a la unidad.

El lexicón en la Traducción Automática [editar]

En un diccionario tradicional típico, las entradas se identifican mediante una forma base o "canónica" de la palabra. Esta forma canónica varía según el idioma: los verbos en inglés se representan mediante la raíz no flexionada, mientras en francés o español se representan con el infinitivo del verbo. Además de la definición estos diccionarios tradicionales incluyen en cada entrada información adicional como la pronunciación, la categoría gramatical o su etimología.

El lexicón, o diccionario, empleado en Traducción Automática posee algunas diferencias con respecto al tradicional. Algunos programas de Traducción Automática cuentan únicamente con diccionarios de formas flexionadas, es decir, listas de palabras con todas las formas e información gramaticales correspondiente. Un lexicón de esta forma contendría las palabras comer, comida, comiendo, comido por separado, como unidades diferenciadas. Esta aproximación no es nada eficiente en lenguas como el español, que posee de una rica y compleja flexión. En estos casos, el lexicón suele proporcionar una raíz a partir de la cual el componente morfológico se encargará de generar las formas apropiadas.

Este lexicón para la Traducción Automática debe suministrar la información necesaria para el análisis sintáctico y semántico:

  • categoría gramatical (nombre, verbo, etc.)
  • rasgos de subcategorización, subcategoría del apartado anterior (verbo transitivo o intransitivo, sustantivo masculino o femenino, etc.)
  • información semántica (nombre animado, verbo que exige un sujeto animado, etc.)

A menudo estos dos últimos tipos de información se emplean conjuntamente a la hora de definir, por ejemplo, una subcategoría en términos de restricciones de selección. Esta información ayuda a determinar el contexto en el que pueden aparecer las palabras. Así, por ejemplo, el verbo amar restringe la selección de su sujeto, de manera que éste debe ser animado.

Además, un lexicón empleado en la Traducción Automática, debe aportar información relativa a la correspondencia entre las unidades léxicas de distintas lenguas. Debido a la complejidad que puede entrañar esta tarea, muchos sistemas optan por establecer una separación entre dos tipos de información: por un lado la información necesaria para el análisis o producción de textos en una lengua particular y, por otro lado, la información relativa a las correspondencias léxicas entre dos pares de lenguas. Estas correspondencias incluyen las condiciones en las que se produce la equivalencia:

  • categorías gramaticales (bote: verbo o nombre)
  • categorías semánticas (banco: asiento o establecimiento que realiza negocios con dinero)
  • contexto sintáctico (tratar una enfermedad o tratar de conseguir algo)

Un ejemplo claro de lexicón es el Wordnet (en inglés) y el EuroWordNet (en otros idiomas).