ISSN: 1139-8736 Depósito Legal: B-39120-2002 Copyright: © Chantal Pérez |
Puesto que en la exposición de nuestro trabajo de investigación hemos optado por incluir un apartado específico para resumir y discutir las ideas expuestas en cada uno de los capítulos de los que consta el presente trabajo, no creemos necesario volver a repetir en esta sección las conclusiones y discusiones parciales expuestas en los capítulos anteriores.
Tomamos esta decisión en cuanto a nuestra exposición debido a la naturaleza eminentemente interdisciplinar de nuestro trabajo, en el que el hilo conductor ha sido proponer soluciones al alcance de los terminógrafos para los problemas que encuentran en las dos fases principales de su trabajo: la extracción de la información terminológica y su representación. Para ello, hemos tenido que integrar en nuestro trabajo conocimiento proveniente de áreas que son afines, pero que poseen elementos y características particulares, como son la lingüística, la lexicografía, la terminología, la terminografía, la representación del concomimiento y la gestión de bases de datos. Esta disparidad de áreas de conocimiento nos condujo a discutir las conclusiones pertinentes a cada una de ellas por separado.
Sin embargo, sí nos parece fructífero en este capítulo final ofrecer una visión de conjunto del trabajo realizado e integrar y relacionar las conclusiones más destacables que del mismo hemos extraído:
En el capítulo 2 llevamos a cabo un extenso repaso del uso de los córpora en el estudio de la lengua general, desde la perspectiva lingüística y lexicográfica porque, a nuestro entender, sólo si podíamos demostrar las aportaciones que el uso de los córpora ha hecho al estudio de la lengua general, podríamos después sopesar y calibrar las implicaciones que tiene para el estudio de los lenguajes de especialidad. Por ello, discutimos en profundidad la fundamentación teórica de las investigaciones lingüísticas basadas en corpus, comparándola con otras visiones diferentes dentro de la investigación lingüística. De la comparación de ambos enfoques, se desprende que hoy día es una necesidad prioritaria partir del estudio del contexto cultural y situacional, como requisito básico para el estudio de la lengua, insertando las producciones lingüísticas dentro de dicho contexto.
Hemos tratado también los aspectos principales que conciernen al uso del corpus en el estudio lingüístico, como son la definición y tipología de los córpora (entre los que se incluyen los córpora especializados), el concepto de representatividad y las herramientas de procesamiento y manejo de corpus disponibles en el mercado. Hemos tratado estos aspectos en profundidad, puesto que son una parte importante de la base teórica de la metodología que aquí proponemos. Nuestra intención ha sido proponer, de forma sistemática, una forma nueva de realizar el trabajo terminográfico: la terminografía basada en corpus. Sin embargo, la adopción del uso de un corpus especializado en el trabajo terminográfico nos exigía hacernos una serie de planteamientos previos: definición de lo que constituye un corpus especializado, criterios específicos para su selección y herramientas de utilidad para la extracción de información terminológica. En nuestro caso, dichos planteamientos han partido del estudio pormenorizado de la aplicación de los córpora al estudio de la lengua general, para después sopesar la forma en que dichos planteamientos han de adaptarse a las necesidades específicas de los terminógrafos.
El capítulo 3 supuso un intento de trazar puentes que faciliten la interacción entre la lexicografía y la terminografía. Para enmarcar las bases del trabajo terminológico de corte descriptivo, hemos partido del análisis de la terminología como ciencia que está en el centro de toda industria del lenguaje y cuyo buen funcionamiento es requisito indispensable para la transmisión del conocimiento y, por tanto, para su avance. Por ello, hemos analizado los retos a los que la terminología debe enfrentarse para seguir cumpliendo tan importantes tareas, resaltando aquellos aspectos teóricos que, en nuestra opinión, requieren una adaptación a los nuevos desarrollos científicos y tecnológicos.
Del estudio de la relación que existe entre lengua general y lenguajes especializados, entre términos y palabras y entre diccionarios y bases de datos terminológicas concluimos que, en muchos aspectos, las diferencias que los separan no son opositivas sino graduales y que, en cualquier caso, es el uso que se hace de la lengua y de los elementos léxicos que la componen y, en el caso de los diccionarios, los usuarios para los que se compilan, los que otorgan y activan el carácter especializado a la lengua.
Una vez delineada la perspectiva desde la que abordamos nuestro trabajo terminográfico, en el capítulo 4 delimitamos los fundamentos teóricos sobre los que se basa nuestro entendimiento de la terminografía y su objeto de estudio, la unidades de significación especializada. Para ello, partimos del entendimiento de los términos como unidades poliédricas constituidas por tres dimensiones indisociables, y a las que debe prestarse igual atención: la conceptual, la lingüística y la comunicativa. Como ya mencionamos en el capítulo introductorio de nuestro trabajo, la concepción que tenemos de la terminología como una ciencia interdisciplinar y transdisciplinar, y de las unidades terminológicas como unidades léxicas de denominación y comunicación, está en consonancia con los presupuestos teóricos y metodológicos de la Teoría Comunicativa de la Traducción. Para desarrollar nuestra propuesta, retomamos los aspectos generales de las investigaciones basadas en corpus que habíamos expuesto en el capítulo segundo, para analizar la forma en la que deben aplicarse al trabajo terminográfico, de forma que los córpora se puedan convertir herramientas útiles que permitan a los terminógrafos estudiar las unidades de significación especializada en su dimensión conceptual, lingüística y comunicativa. Concretamente, nuestras propuestas se han centrado en la discusión de los aspectos específicos que atañen a la recopilación y creación de córpora especializados y su tipología. Después de discutir estos aspectos, discutimos sobre los criterios que deben guiar la selección de los textos a incluir en el corpus, exponiendo los que nosotros empleamos en nuestra investigación, junto con otro aspecto no menos importante: las herramientas con las que los terminógrafos cuentan para su estudio. Guiados por estos criterios de selección, expusimos las fuentes documentales con las que hemos construido el corpus que usamos en nuestro estudio, repasando las opciones posibles con las que hoy día cuentan los terminógrafos y los problemas de derechos de autor de los textos a los que toda compilación de corpus debe prestar atención.
Una vez expuestos los aspectos relevantes que conciernen a la extracción de la información terminológica, en el capítulo quinto nos centramos en el estudio de la fase de representación de la información terminológica. Para ello, analizamos las formas tradicionales de representación de la información, que se han basado mayoritariamente en las definiciones del concepto al que una unidad terminológica hace referencia y al establecimiento de diferentes tipos de relaciones conceptuales. La forma en la que estos mecanismos de representación debe plasmarse, sin embargo, no se especifica en ninguno de los manuales consultados, por lo que, hasta la fecha, la mayoría de los terminógrafos almacenan sus representaciones conceptuales de modo informal, en gráficos o tablas unidimensionales. Los problemas de este tipo de representación son múltiples: además de las limitaciones obvias en cuanto a la expresión de las relaciones, estas representaciones estáticas no pueden reutilizarse para otras aplicaciones y, además, no permiten conectar esta información explícitamente con la información puramente lingüística.
Conscientes de estas limitaciones, nuestra propuesta se centra en la integración de la representación de la información terminológica en el ámbito más amplio de la representación y gestión de información. Después de estudiar las formas tradicionales de representación del conocimiento terminológico y las opciones principales que nos ofrece la ingeniería del conocimiento, optamos por la integración de los conceptos de nuestro ámbito de especialidad en un sistema de representación que supone "una especificación de una conceptualización": una ontología de conceptos, ya que, como mostramos, este tipo de representación conceptual presenta una serie de ventajas importantes sobre otros posibles sistemas.
Después de estudiar los diferentes tipos de ontologías que existen y sus usos en el procesamiento del lenguaje natural, quedó patente el hecho de que la tarea de construir una ontología desde cero es ingente y, desde luego, se halla fuera de los límites de nuestra investigación. Por tanto, y siguiendo el espíritu de reutilización de recursos lingüísticos existentes promovido en la comunidad investigadora en los últimos años, decidimos adaptar a nuestros propósitos una ontología genérica construida como componente central del proyecto Mikrokosmos, en la que integramos los conceptos específicos de nuestro dominio de especialidad. En las últimas secciones del capítulo 5 mostramos la forma en la que hemos ampliado la ontología de Mikrokosmos con especificaciones relacionadas con el subdominio de la oncología. Discutimos las ventajas que este tipo de recurso posee sobre otros formalismos de representación del conocimiento y señalamos algunas de las limitaciones que presenta.
En cuanto a la representación de la información que atañe a las otras dos dimensiones que conforman las unidades de significación especializadas, la lingüística y la comunicativa, optamos por la adopción de las categorías de datos propuestas por el comité técnico nº 37 de la International Organisation for Standardization, denominado ISO 12620. Dicha norma, junto con la norma ISO 12200: MARTIF (Machine-Readable Terminology Interchange Format) han sido desarrolladas con la finalidad de facilitar el intercambio de recursos terminológicos en formato electrónico.
Una vez desarrollada nuestra propuesta para la representación de la información terminológica mostramos el sistema gestor de base de datos terminológica basado en el conocimiento que la ha hecho posible. Este sistema, denominado OntoTerm®, ha sido desarrollado en parte dentro del marco de trabajo del proyecto de investigación OncoTerm, en el que se encuadra nuestro trabajo. De los resultados de nuestro trabajo se desprenden las claras ventajas de usar un sistema gestor de base de datos terminológica como OntoTerm. En dicho sistema se integran dos módulos principales: el gestor de ontologías nos permitió editar, modificar y publicar la información contenida en la ontología, con un mínimo entrenamiento y máxima expresividad. Por otra parte, la base de datos terminológica implementa las categorías de datos de la norma ISO 12260, por lo que nos fue posible representar la información lingüística y de uso referente a los términos con un formato que asegura su reutilización y coherencia.
Finalmente, en el capítulo 6 mostramos de forma práctica el modo en que hemos usado el corpus para la extracción terminológica, para lo que empleamos un grupo de herramientas de manejo de corpus genérico, pero muy potente y versátil: WordSmith Tools. En este capítulo queda patente que el uso intensivo y extensivo de córpora textuales informatizados puede aportar muchos tipos de información que de otro modo pasarían inadvertidos al terminógrafo y, por tanto, es una pieza fundamental para estudiar el comportamiento de los términos, que se deriva del uso que de ellos hacen los especialistas en diferentes situaciones comunicativas. Más significativos aún han sido los resultados obtenidos en el desarrollo de una metodología que nos permitiera extraer de corpus información sobre la estructura conceptual del subdominio de especialidad, la oncología.
En este aspecto, estudiamos en detalle un subdominio de la oncología, la leucemia, y dentro de él, identificamos los conceptos relevantes en su estructura conceptual. El corpus ha resultado ser una excelente herramienta para extraer información sobre la leucemia (y sus subtipos), y nos ha permitido estudiar las relaciones y enlaces que existen entre las palabras clave identificadas por medio de diferentes procedimientos estadísticos y de comparación de frecuencias. La identificación de conceptos clave del subdominio de especialidad se vio enormemente facilitada por la información que pudimos extraer de las relaciones existentes entre palabras clave que coaparecen en un horizonte colocacional determinado.
Para obtener información específica sobre cada uno de los conceptos que componen el dominio de especialidad hemos propuesto el uso de las sondas de conocimiento, que son las estructuras lingüísticas que los autores de los textos usan para expresar relaciones semánticas entre conceptos. Por medio de estas sondas hemos tenido acceso a una gran cantidad de contextos que contenían información sobre la forma en la que unos conceptos se relacionan con otros. Estas relaciones son las que caracterizan y enriquecen la descripción de un concepto y son imprescindibles para diferenciarlo claramente de otros conceptos de la estructura conceptual del dominio.
Estas sondas de conocimiento pueden usarse, además, para obtener del corpus información metalingüística que los autores incluyen en los textos. Por metalingüística nos referimos a información sobre sinonimia, variaciones denominativas o preferencias en el uso terminológico que los autores tienen. A todas luces, la obtención de este tipo de información de un corpus es de gran utilidad, puesto que representa un fiel reflejo del uso que los especialistas hacen de la terminología y de las reflexiones que hacen sobre la relación que existe entre el concepto y su denominación.
Por lo tanto, los resultados obtenidos de la extracción de información terminológica del corpus han validado y se han beneficiado de nuestra decisión de usar una ontología de conceptos como recurso independiente de la lengua para expresar formalmente las relaciones conceptuales y la estructura del dominio de la oncología y, por extensión, de cualquier otro ámbito de especialidad.
Los resultados obtenidos en nuestra investigación pueden resumirse en los cuatro puntos siguientes, que hacen referencia al cumplimiento de los objetivos generales y específicos de nuestro trabajo:
Cada uno de estos objetivos constituye en sí mismo un trabajo de investigación, que por su interés y complejidad podría abarcar el trabajo conjunto de varios miembros del grupo. Lejos de asustarnos, nos hace sentirnos privilegiados por trabajar en un área a la que, sin lugar a dudas, se le pueden augurar tiempos de intensos desarrollos y debates teóricos y metodológicos.
ISSN: 1139-8736 Depósito Legal: B-39120-2002 Copyright: © Chantal Pérez |