ISSN: 1139-8736
Depósito Legal: B-8929-00


    3.1 WordNet
 


    WordNet es una base de datos léxico-conceptual del inglés estructurada en forma de red semántica -es decir, compuesta de unidades léxicas y relaciones entre ellas-, que pretende ser un modelo del conocimiento léxico-conceptual de los hablantes de inglés.

    WordNet se ha venido desarrollando desde los años 80 bajo la dirección del psicolingüista George Miller en la Universidad de Princeton. La última versión hecha pública es WordNet 1.5, la cual consta de 126.000 entradas entre palabras (el 57%) y grupos lexicalizados (el 43% restante) pertenecientes a las llamadas categorías abiertas: nombres (70%), adjetivos (15%), verbos (10%) y adverbios (5%). Las llamadas categorías cerradas (preposiciones, conjunciones, etc.) no se representan en WordNet pues sus autores consideran que son parte del conocimiento sintáctico de los hablantes, no del conocimiento léxico-semántico que es el que se pretende representar.

    La unidad básica en la que se estructura WordNet es el synset o conjunto de sinónimos, el cual se considera representativo de un concepto lexicalizado. Así, en WordNet, las relaciones se establecen fundamentalmente entre conceptos, no entre palabras, asumiéndose que un concepto viene definido por el conjunto de formas léxicas que, en un contexto apropiado, sirven para representarlo en el lenguaje. Tal asunción implica la de una noción débil de sinonimia, la sinonimia en contexto, una versión laxa de la noción tradicional de sinonimia -atribuida a Leibniz- según la cual dos unidades léxicas son sinónimas si la sustitución de una por la otra no produce en ningún caso alteración del valor de verdad de la proposición en la que aparecen. Como es sabido, atendiendo a dicha noción tradicional de sinonimia, en escasísimas ocasiones podría decirse que dos palabras son sinónimas. Por dicha razón, en WordNet se apuesta por la sinonimia en contexto como solución pragmática y realista que, aunque poco purista y, como veremos, siempre sujeta a matices e interpretaciones, permite afrontar la tarea de representar y tratar computacionalmente el conocimiento léxico-semántico de una lengua.

    Así, las 126.000 entradas de WordNet 1.5 se organizan en 91.000 conceptos o synsets. Por ejemplo, el nombre board, traducible según su sentido por 'tabla', 'mesa' (en su sentido de 'manjar') o 'consejo' aparece en los siguientes synsets:

    (1) {board , plank} 'tabla', 'plancha'
    (2) {board} 'consejo'
    (3) {board, table} 'mesa', 'manjar'

 lo cual debe interpretarse como que board-1 es sinónimo de plank; y board-3 sinónimo de table.

    Como puede verse, el synset no es una unidad explícitamente explicativa de la entidad del concepto, tan sólo es indicativo de la existencia del mismo. Según Miller et al. (1990) el significado en WordNet no es, como en otros planteamientos semánticos, composicional o construido, sino diferencial: el significado de un concepto viene dado por contraposición al del resto de conceptos de la base de datos. Así, el significado del concepto representado en cada caso debe ser inferido del haz de relaciones semánticas en el cual el mismo se halla inmerso. Por ejemplo, el significado de cada sentido de board puede ser deducido en principio a la vista de sus hiperónimos directos, {lumber,timber}('maderaje'), {committee} ('comité') y {fare} ('alimentos'):

    (1) {board , plank} (a stout length of sawn timber; made in a wide variety of sizes and used...)
    HIPERÓNIMO ® {lumber, timber}

    (2) {board}(a committee having supervisory powers; "the board has seven members")
    HIPERÓNIMO ® {committee}

    (3) {board, table} (food or meals in general; "she sets a fine table"; "room and board")
    HIPERÓNIMO ® {fare}

    Como puede verse, la sinonimia y la taxonomía son las relaciones semánticas fundamentales en WordNet 1.5. La sinonimia define los conceptos, o synsets; y la taxonomía los ordena de forma jerárquica. Los nodos superiores de la estructura taxonómica nominal constituyen un conjunto de unos 30 conceptos con los que cualquier entidad del modelo del conocimiento léxico está relacionada (entidad, abstacción, lugar, forma, estado, evento, grupo,...) El resto de relaciones que se hallan en WordNet son las que se detallan en la tabla III.1.

    WordNet 1.5 es una gran red semántica, un modelo del lexicón de los hablantes de inglés en que todas las unidades están interconectadas, de forma que, en principio, cualquier sistema de procesamiento del lenguaje que la utilice, obtiene la posibilidad de realizar una gran multiplicidad de inferencias de significado. Veámoslo, por ejemplo en fig. III.2 un fragmento del lexicón tal como se halla representado en WordNet 1.5. Dicha figura representa un fragmento del léxico relativo a vehículos de motor. Obsérvese como car ('coche'), se halla emparentado por sinonimia con auto ('auto') y taxonómicamente por hiponimia sucesivamente con motor vehicle ('vehículo de motor'), vehicle ('vehículo'), artifact ('artefacto'), object ('objeto'), y con el concepto de orden máximo superior (o top) entitiy ('entidad'); siendo a su vez hiperónimo de ambulance ('ambulancia'), taxi ('taxi') y wagon ('furgón'). Asimismo, car tiene como parte propia blinker ('intermitente').
 

    Relación     Categorías en que se aplica     Ejemplo/s
    Sinonimia     nombres, verbos, adjetivos adverbios     board-plank ('tabla'-'plancha')
    Antonimia     nombres, verbos, adjetivos, adverbios     rise-fall ('ascender'-'caer')
    Hiperonimia-Hiponimia     nombres  board ® committee
('consejo'® comité')
    Meronimias      nombres  trunk ® tree
('tronco'® árbol') 
    tree ® forest 
('árbol'® bosque')
    wood ® lumber, timber ('madera'® 'maderaje')
    Implicaciones     verbos  supply ® give
('proporcionar'® dar')
    divorce ® marry
('divorciarse'® 'casarse')
    snore ® sleep
('roncar'® dormir')
    give ® have
('dar'® tener')
    Similitud     adjetivos  positive - good 
 ('positivo'-'bueno')
    Atributo/Valor     nombres - adjetivos   height - tall    ('altura'-'alto')

Tabla III.1: relaciones en WordNet 1.5


Fig. III.2: Esquema parcial de relaciones en WordNet
 

    En cuanto a las relaciones meronímicas, aunque Miller et al. (op. cit.) anuncian la intención de representar las definidas por Winston et al. (1987), únicamente encontramos tres de ellas implementadas en WordNet 1.5: parte-de (o relación de componente), miembro-de y substancia-de (ver tabla III.2) -la primera de ellas es la única representada en la fig. III.2-.
 

    tipo de meronimia     ejemplo
    part_of      trunk --> tree
    member_of      tree --> forest, wood
    substance_of      wood --> lumber, timber

                                                         Tabla III.2: Relaciones meronímicas en WordNet 1.5

    La primera de ellas relaciona a una entidad con sus componentes, la segunda a un conjunto con sus miembros, y la tercera a una entidad con la sustancia de la que, al menos en parte, está compuesta. Dichas relaciones siguen la definición establecida en Winston et al. (1987) -ver Sección 2.1-.

    Otra relación parte-todo se establece en Wordnet 1.5 entre eventos (denotados por verbos), aunque se halla algo desdibujada porque tal relación no figura de forma explícita sino como subconjunto de una relación: la de entailment -'implicación'-.

    Las relaciones que estructuran la red verbal en WordNet 1.5 son tres: troponimia (o 'hiponimia' verbal), implicación y causación. Todas ellas son de hecho subtipos de implicación, aunque tan sólo una de ellas reciba dicho nombre. Y es precisamente dicha relación la que engloba a dos relaciones de hecho, una de las cuales es la que debe considerarse una relación parte-todo entre acciones. Dicha estructuración de relaciones resulta, pues, algo confusa, por lo que la detallaré a continuación de forma esquematizada con ejemplos (véase fig. III.3).

    Se definen dos formas de implicación, una que presupone inclusión temporal entre los eventos (en el esquema: +inclusión temporal) y otra que no ( - inclusión temporal). A continuación se distinguen dos relaciones de implicación que no presuponen relación temporal: la causación y la presuposición retroactiva. Se da causación cuando la realización de una acción o proceso implica necesariamente la existencia de otro evento, como en el caso de 'dar' ® 'tener': si algo o alguien da algo, el resultado es que necesariamente algo o alguien tiene algo. Por presuposición retroactiva (backward pressuposition) se entiende que la existencia de un evento implica necesariamente la existencia anterior de otro evento de tipo distinto: el que alguien se divorcie implica que ese alguien anteriormente se ha casado.

Fig. III.3: Relaciones verbales en WordNet 1.5
 

    Las relaciones de implicación que presuponen inclusión temporal se subdividen asimismo en dos: troponímicas (+ troponímia) y no troponímicas (- troponimia) -del griego tropos, 'manera'-. WordNet 1.5 toma la troponimia como relación verbal fundamental, y de hecho se entiende como el equivalente para verbos de la hiponimia-hiperonimia. Dicha etiqueta establece una relación de manera entre (verbos que denotan) eventos de modo que un evento X será tropónimo de Y cuando Y es un evento más general que X de forma que X es entendido como una manera particular de realizar Y: por ejemplo, 'dar' es una manera de 'transferir', siendo el evento denotado por 'transferir' de tipo más general que 'dar', ya que existen otras maneras de 'transferir', como 'donar', 'regalar', etc. Ambos eventos se consideran incluidos temporalmente el uno en el otro de forma completa, ya que, p.e., todo el tiempo en que se está llevando a cabo la acción de 'dar', se está llevando a cabo la de 'transferir'.

    Finalmente, la otra relación que implica inclusión temporal es la relación no troponímica de inclusión de eventos. Ésta es la relación que debe ser vista como una relación parte-todo para verbos, y se establece entre dos acciones o procesos cuando como mínimo durante todo el tiempo en que uno de ellos tiene lugar, tiene lugar el otro, pero no existe relación de manera entre ellos. Por ejemplo, si sucede la acción 'roncar', necesariamente ésta se desarrolla durante el tiempo en que sucede la acción 'dormir', pero no necesariamente todo el tiempo en que se duerme se ronca -afortunadamente-.

    Respecto a la transmisión de información meronímica entre conceptos lexicalizados (transitividad de las relaciones y herencia de información), WordNet procede del siguiente modo. Siguiendo las directrices trazadas en Winston et al. (1987) se concluye respecto a la transitividad de la meronimia que dicha relación será transitiva siempre y cuando se mantenga la línea de transmisión dentro de un mismo subtipo. Es decir (ver fig. III.2), si inner tube ('tubo interior del neumático') es parte componente de pneumatic tyre ('neumático') y éste a su vez es parte componente de car wheel ('rueda de coche'), inner tube es parte componente de car wheel. Dicha transitividad no se mantendría en el supuesto de un concepto que se hallara relacionado con cualquiera de los anteriores por un subtipo diferente de meronimia. Supongamos por ejemplo que 'goma' se hallara relacionada como substancia-de inner tube. En dicho caso no se inferiría que 'goma' es parte de car wheel. Ciertamente nuestro conocimiento del mundo nos dice que dicha inferencia sí es posible en este caso, pero debe tenerse en cuenta que, aunque en este caso concreto la inferencia es posible, no lo es en todos los casos posibles, por lo que no puede postularse a nivel general el mantenimiento de la transitividad cuando diferentes subtipos de meronimia se hallan implicados. Por ejemplo, siguiendo la línea transmisoria hasta un nivel superior, es obvio que no necesariamente wheel ('rueda') tiene como parte 'goma', pues p.e. una rueda de carro no cuenta con dicho material en su constitución.

    El segundo aspecto relacionado con la transmisión de información meronímica es la herencia. Se considera en WordNet que las relaciones de parte son heredables por los conceptos via hiponimia. Obsérvese en la fig. III.2 que el único merónimo propio de car es blinker. Sin embargo, el hiperónimo de car, motor vehicle, tiene como merónimos car wheel y cab ('cabina'). Siguiendo el principio mencionado, debe inferirse necesariamente que tanto car como sus hipónimos ambulance, taxi, etc. tienen por parte (por herencia) car wheel y cab.

    Sin duda alguna la mayor virtud de WordNet 1.5 es precisamente el hecho de su existencia: se trata de la única base de datos léxico-semántica relacional en formato máquina de gran volumen, por lo que se ha convertido en una herramienta de utilización cada vez mayor en múltiples trabajos de investigación en lingüística computacional (p.e., en España, aunque para el tratamiento del inglés, Ribas 1994 y 1995, Agirre y Rigau 1996, Atserias et al. 1977, y Rigau prox.) que precisan aplicar o extraer conocimiento léxico-semántico a partir de corpora textuales reales. Pero no carece de defectos. Los principales son dos: el primero, comentado anteriormente, que el status de las relaciones existentes entre pares de unidades léxicas es en muchos casos discutible; el segundo, que en WordNet 1.5 se procude una multiplicación de sentidos de palabras que en muchos casos debe juzgarse como excesiva o inmotivada.

    Un ejemplo de esta última situación relacionado con el tratamiento de las relaciones de parte puede verse a partir de los casos de (12), que muestran tres sentidos en Wordnet 1.5 de la palabra door ('puerta'). En dos de ellos, 1 y 3, (puerta de habitación o edificio vs. puerta de coche) no parece justificable mantener dos conceptos separados. La motivación de tal duplicidad debe hallarse en que, en WordNet 1.5, no es posible representar la holonimia en forma disyuntiva.

    (12)
    1.- {door} (a swinging or sliding barrier that will close the entrance to a room or building)
    PART-OF: {doorway, door, entree, portal, room access}

    2.- {doorway, door, entree, portal, room access} (the space in a wall through which you enter or leave a room or building; the space that a door can close)
    PART-OF: {wall}

    3.- {door} (a swinging or sliding barrier that will close off access into a car)
    PART-OF: {car, auto, automobile, machine, motorcar}

        Es decir, si existen las entidades 'edificio' y 'coche' y resulta que cada una de ellas tiene como parte componente una 'puerta', no es posible dados los recursos de WordNet el representar una única entidad 'puerta' con holónimos disjuntos, 'edificio' y 'coche': la única solución es introducir dos sentidos distintos de 'puerta'.

    Como veremos a continuación, este problema de WordNet se ha intentado solucionar en el diseño de EuroWordNet.
 


    Continuar
    Volver al inicio del capítulo
    Volver al índice
 


Climent S. (1999) Individuación e información Parte-Todo. Representación para el procesamiento computacional del lenguaje. Estudios de Lingüística Española (ELiEs).

ISSN: 1139-8736
Depósito Legal: B-8929-00