educ.ar
Ministerio de Educación, Ciencia y Tecnología
InicioAnterior
Propuestas innovadoras para el aula
CD17
Lengua - Módulos teóricos
Imprimir

LingŁística de corpus

La lingüística de corpus es una línea de trabajo muy importante en la lingüística funcionalista actual, que se distingue nítidamente por su metodología: tiene un carácter empírico, puesto que realiza sus investigaciones sobre la base de colecciones extensas de textos naturales, las que se denominan corpora. Esas muestras de textos son analizadas mediante el empleo intensivo de programas computacionales, es decir, es un tipo de estudio lingüístico que se destaca por el empleo de las modernas tecnologías de la información.

Los corpus deben ser “preparados” para su tratamiento informático, esto es, anotados y preanalizados mediante procesos de lematización (organización en clases de las formas idénticas o relacionadas de una palabra bajo una entrada) y etiquetados (marcado de la categoría de palabra y rasgos sintácticos significativos). Existen procedimientos y criterios rigurosos para el diseño, recolección, tamaño y organización de los corpus de manera que sean confiables y apropiados para el tipo de investigación que se pretende emprender.

En tanto que los corpora de primera generación contenían alrededor de un millón de palabras (por ejemplo, el Brown Corpus), los megacorpora de segunda generación actuales contienen más de cien millones de palabras. Suelen distinguirse los corpora generales o preexistentes, que emplean los lingüistas para obtener evidencia empírica, de los corpus especializados, es decir, aquellos que se diseñan para proyectos de investigación particulares (por ejemplo, estudios diacrónicos, investigaciones sobre determinados registros de uso, variedades lingüísticas, etc.).

Los estudios sobre el uso lingüístico se plantean básicamente preguntas como las siguientes:

cómo estructuras aparentemente similares ocurren en distintos contextos y desempeñan distintas funciones, por qué las lenguas tienen múltiples estructuras que son muy similares tanto en significado como en función gramatical, para qué se emplea determinado recurso lingüístico, etc.

La lingüística de corpus orientada a la investigación textual intenta identificar y analizar patrones de uso (estructuras y rasgos lingüísticos) y correlacionarlos con variables extralingüísticas que puedan determinarlos. Para ello emplea técnicas de análisis cuantitativas y cualitativas: dentro de las primeras, pueden mencionarse programas de concordancias (ocurrencias de determinado tipo en un corpus), estadísticas (extensión oracional, número de palabras, etc.), búsquedas diversas (listas de palabras, índices, etc.). Ilustraremos el modo de trabajo de la lingüística de corpus con un modelo desarrollado en los últimos años por Douglas Biber, Finnegan, Susan Conrad, entre otros. Estos autores han propuesto un método para estudiar la variación textual –o registros– llamado análisis multidimensional: se basa en corpora que representan el rango total de los esquemas mayores de coocurrencia en una lengua. El método consiste de varios pasos: en primer lugar, se identificaron los rasgos lingüísticos que tienen asociaciones funcionales; para el caso del inglés, los rasgos incluidos pertenecen a dieciséis categorías gramaticales (algunos de ellos: marcadores de tiempo y aspecto, adverbios de lugar y tiempo, pronombres y proverbos, interrogativas, formas nominales, pasivas, etc.). En segundo lugar, se desarrollaron programas computacionales para identificar y contar la ocurrencia de cada rasgo lingüístico en los textos. Luego, para determinar cómo coocurren los rasgos lingüísticos se desarrolló un procedimiento estadístico conocido como “análisis factorial”: se trata de una técnica correlacional diseñada para identificar conjuntos de variables que están distribuidas de manera similar. Cada conjunto de rasgos coocurrentes es denominado una “dimensión” de variación. Se trata de grupos de rasgos lingüísticos que coocurren con una alta frecuencia en los textos y que se interpretan funcionalmente, en términos de las funciones situacionales, sociales y cognitivas que son más ampliamente compartidas por los rasgos lingüísticos. La mayoría de las dimensiones consisten en escalas compuestas de dos polos, realizados por agrupamientos de rasgos lingüísticos(en inglés, clusters), que representan conjuntos de rasgos que ocurren en un esquema complementario, es decir, que cuando los rasgos de un grupo ocurren frecuentemente en un texto, los rasgos del otro grupo son marcadamente menos frecuentes en ese texto y viceversa. En los registros orales y escritos del inglés se identificaron cinco dimensiones mayores que permiten oponer distintos géneros que se emplean en distintos registros.

Así por ejemplo la primera dimensión de oposición está representada por dos polos: el primero, que conforman rasgos lingüísticos como verbos “privados” (sentir, pensar, imaginar), elisión de that (en cláusulas complementantes), contracciones, verbos en tiempo presente, pronombres de segunda persona, etc., que se asocia funcionalmente con géneros que implican la presencia marcada del hablante y del interlocutor y las circunstancias de producción (como la conversación cara a cara); el segundo polo está representado por las nominalizaciones, palabras extensas, frases preposicionales, adjetivos atributivos, que funcionalmente responden a un estilo distanciado, planificado, que es propio por ejemplo de la prosa académica.

 Más allá de las aplicaciones en el ámbito de la lingüística del texto y de la variación, es preciso mencionar que la lingüística de corpus es útil en variadas áreas de la lingüística que tienen importantes campos de aplicación, como por ejemplo, la lexicografía, la terminología, los estudios sobre lenguas para propósitos específicos (conocidos como LSP, la sigla del inglés Languages for Special Purposes) y la enseñanza de lenguas (ver lenguajes para propósitos específicos).

Bibliografía

  • Conrad, S. y D. Biber (eds.) (2001) Variation in English: Multi-dimensional studies. London: Longman.
  • Biber, D., S. Conrad y R. Reppen (1998) Corpus Linguistics: Investigating Language Structure and Use. Cambridge: Cambridge University Press.
  • Kennedy, Graeme (1998) An Introduction of Corpus Linguistics. London: Longman.
  • Mc Carthy, M. (1998) Spoken Language & Applied Linguistics. Cambridge: Cambridge University Press.
  • Stubbs, M. (1996) Text and Corpus Analysis. Computer assisted Studies of Language and Culture. Oxford: Blackwell Publishers.
Acerca deMapa del CDCómo usar el CDCréditos