La Xunta y el Centro Ramón Piñeiro presentan la "versión 4.0" del Corpus de Referencia do Galego Actual
El nuevo Corpus aportará datos para el estudio del idioma desde múltiples perspectivas como la léxica, sintáctica y comunicativa, entre otras
El secretario xeral de Política Lingüística, Valentín García, ha participado este jueves en la presentación de la versión 4.0 del Corpus de Referencia do Galego Actual (CORGA), que busca "aportar datos para el estudio del gallego actual desde múltiples perspectivas: léxica, morfológica, sintáctica, fraseológica, terminológica y comunicativa, entre otras".
El Corpus se enmarca, tal y como ha explicado la Consellería de Cultura en un comunicado, en el convenio entre el Centro Ramón Piñeiro --en cuya página web se puede visitar el Corpus-- para a Investigación en Humanidades, dependiente de la Xunta, y la Universidade de Santiago de Compostela (USC).
Junto al representante del Ejecutivo autonómico, también han participado en el acto de presentación en el Pazo de San Roque, los directores del proyecto, María Sol López Martínez y Guillermo Rojo; la coordinadora lingüística del proyecto, Eva María Domínguez; el vicerrector de la USC, Ernesto González; y el doctor en computación y coordinador de NLPgo Tecnologies, Francisco Mario Barcala.
Según explican, se trata de un corpus documental abierto a través de internet que abarca, cronológicamente, desde 1975 hasta la actualidad, sobre el que el secretario xeral ha destacado que "continuará avanzando para poner a disposición de los lingüistas que se ocupan del gallego, nuevas funcionalidades que permitan hacer estudios cada vez más amplios y variados".
"Este recurso, uno de los más destacados del Centro Ramón Piñeiro, es una herramienta en línea potente, flexible, amigable e innovadora, de suma utilidad para extraer datos de la lengua gallega actual de tipo léxico, gramatical, terminológico, fraseológico y discursivo, entre otros", señalan en el comunicado.
Indican también que, enriquecido automáticamente con el etiquetado morfosintáctico de sus textos, el Corpus contiene 43.162.364 palabras ortográficas (51.451.088 elementos gramaticales) pertenecientes mayoritariamente a distintos tipos de textos escritos, representativos del gallego actual. Incluye además casi 45 horas de transcripciones, sobre todo programas de radio, en las que se alinea el texto con la voz.
Entre las nuevas herramientas de esta versión 4.0, han destacado la recuperación de información por la modalidad inventario, el reconocimiento automático mediante reglas lingüísticas d los apreciativos en '-iño', los relativos en '-ísimo' y "una buena parte de las formas con gheada", así como la posibilidad de realizar estudios desde la perspectiva de género, "con grafías innovadoras para el lenguaje inclusivo o atendiendo a la discriminación de los resultados en función del sexo del autor".
Escribe tu comentario