Big data y corpus lingüísticos para el estudio de la densidad léxica

Adela González Fernández

Resumen/Abstract

La unión entre la Informática y de la Lingüística es cada vez más frecuente en las investigaciones en el campo del lenguaje y de las lenguas. La Lingüística de corpus, en especial, se está viendo beneficiada por este emparejamiento, gracias a los avances a la hora de gestionar y procesar los corpora. En este trabajo damos un paso más y proponemos el trabajo en Lingüística de corpus a través de big data, en general, y de Twitter, en particular. Gracias a la creación de una herramienta informática diseñada específicamente para el trabajo lingüístico en big data, obtendremos una inmensa cantidad de información textual que nos servirá para la compilación de corpora mediante los que estudiaremos la diversidad léxica en el lenguaje de cuatro escritores españoles. Para ello, extraeremos los tuits publicados por ellos en sus cuentas de Twitter y los procesaremos a través de nuestra herramienta para obtener la información deseada. Intentaremos demostrar, también, la mejora que esta nueva metodología supone en este tipo de estudios.


Palabras clave/Keywords


lingüística de corpus; densidad léxica; diversidad léxica; big data; Twitter

Texto completo:

PDF

Enlaces refback

  • No hay ningún enlace refback.