#Claves de la semana

Chat GPT ya habla gallego y puede ayudar a salvarlo, pero también a marginarlo más

ChatGPT 3, la herramienta que ha popularizado el uso de la Inteligencia Artificial (IA), escribe un excelente gallego, pese que nadie se lo ha enseñado. ¿Cómo es posible? Por el procesamiento de grandes masas de datos. El problema es que no hay tantos contenidos en gallego como en otros idiomas. Por ejemplo, uno de los principales corpus que alimenta a las IA a penas tiene un 0,05% en gallego. Esto supone un riesgo de quedarnos atrás, que ya están abordando varias iniciativas públicas, como el Proxecto Nós.

 


|

DALLu00b7E 2023 05 15 17.42.16   Realistic picture of the Cathedral of Santiago on the surface of the moon
La Catedral de Santiago sobre la superficie de la luna en una foto creada por la inteligencia artificial Dalle 

 

Ninguna de las inteligencias artificiales disponibles al público comprende lo que dice. La mayoría, incluída ChatGPT, calcula qué palabra o frase es más probable que siga a otra. Este cálculo se basa en un entrenamiento previo, ejecutado sobre un gigantesco corpus de textos. 

 

El material de aprendizaje provenie de diversas fuentes, incluyendo textos en línea y otros no disponibles en la red. Dado que, al menos en lo que se refiere a los contenidos en línea, ese corpus incluye al gallego, el resultado es que ChatGPT es capaz de procesar preguntas y devolver contestaciones en el idioma propio de Galicia. 

 

Eso y mucho más. A esta IA le podemos pedir, por ejemplo, que nos escriba una poesía sobre la importancia del gallego y el Día das Letras:

 

O galego é a nosa lingua,
a voz do noso corazón,
que nos fala de raíces
e da nosa identidade con amor.

Neste Día das Letras,
lembramos a semente que se plantou,
unha semente de cultura
que hoxe en día medrou.

A nosa lingua é a nosa esencia,
unha maneira de expresión,
que nos fala de historia e tradición,
e de todo aquilo que somos.

Por iso é importante recordar,
aquellos que dedicaron a súa vida
a escribir e falar en galego,
e deixaron unha pegada viva.

Que nunca esquezamos a nosa lingua,
nin todo o que representa,
porque sen ela non seriamos
quen somos hoxe en día na Galicia contenta.

Neste día tan especial,
celebramos a nosa cultura,
e todo aquilo que nos fai únicos,
en cada palabra e na nosa escritura

 

Aunque sus virtudes líricas sean limitadas, por ahora, no cabe duda que la presencia del gallego en los chats de inteligencia artificial supone un salto adelante respecto a otras tecnologías. Además, su corrección lingüística, por ejemplo, es superior a la de muchos gallegos, que jamás recibieron clases de su normativa.

 

Hablamos, al fin y al cabo, de un idioma no normalizado, cuyos hablantes aún hoy tienen dificultades para usar su lengua para interactuar con las tecnologías digitales. Prueben a pedirle a Whatsapp o a Google Docs que les transcriba un audio en gallego o que el navegador de Google Maps les guíe en esta lengua. Si no tienen cuidado, acabarán en la más profunda de las corredoiras. 

 

INEXACTAS, PERO CADA VEZ MÁS POPULARES

A pesar de que los modelos de lenguaje como GPT3 pueden generar respuestas y textos coherentes, en realidad no tienen una comprensión profunda del contenido que están procesando. Pese a esta limitación, cada vez más nuestras interacciones se realizan a través de plataformas digitales cuyo motor es una inteligencia artificial. Por ejemplo, cuando el navegador 'adivina' que queremos buscar realmente. 

 

Su utilidad hace que la eficacia de los modelos de procesamiento de lenguaje natural resulte crucial para el desarrollo de nuevas tecnologías en un idioma y, por lo tanto, en última instancia, en caso de lenguas amenazadas como el gallego, también en supervivencia.

 

Existe el riesgo de que los hablantes de un idioma, por ejemplo el gallego,  comprueben que los modelos en su lengua  no funcionan bien y pasen a apostar por herramientas en otros idiomas, por ejemplo el castellano o el inglés, frenando a su vez el interés de las empresas por desarrollar soluciones de IA en el idioma minorizado. 

 

PRIMERAS INICIATIVAS PÚBLICAS
Lanzamiento del Proxecto Nu00f3s en una imagen de archivo de la Xunta
Lanzamiento del Proxecto Nós en una imagen de archivo de la Xunta

 

Para abordar este problema, algunas academias y gobiernos autonómicos están tomando iniciativas específicas para mejorar y preservar sus lenguas en el incipiente mundo de las soluciones IA. Lo hizo la Generalitat y también la Xunta, en colaboración con la USC, a través del Proxecto Nós, lanzado hace menos de un año.

 

Su objetivo, según explican sus promotores, es "situar el gallego a la vanguardia de la inteligencia artificial y las tecnologías lingüísticas para posibilitar el uso natural de esta lengua en las interacciones digitales entre personas y dispositivos tecnológicos". Es decir, que podamos, por ejemplo, doblar películas con las IA en gallego o que nos devuelvan una imagen de la Catedral de Santiago en la luna más realista que la que ilustra estre artículo.

 

Y es que la asombross capacidad de las IA para generar contenido en gallego y sobre Galicia no es perfecta. Si el  nivel de eficacia de las aplicaciones galaicas es menor que en otros idiomas, lo más probable es que los internautas opten simplemente por no complicarse la vida y usar otros lenguajes.

 

MENOS DE UN 0,05% DE LOS CONTENIDOS PARA APRENDER EN GALLEGO

Este riesgo es muy real, basta con revisar las estadísticas lingüísticas de uno de los principales corpus que alimentó el aprendizaje de ChatGPT y herramientas similares, llamado Common Crawl

 

Se trata de una 'araña' que rastrea Internet, capaz de recopilar y almacenar grandes cantidades de datos procedentes de webs de acceso libre para que estén disponibles para su reutilización en I+D. El proyecto utiliza rastreadores web para explorar internet y recopilar datos de portales . Después los almacena en un índice que puede ser consultado por investigadores, desarrolladores y empresas para una variedad de fines, como entrenar modelos de aprendizaje automático, mejorar la búsqueda en línea y realizar análisis de datos masivos.

 

Pues bien, según su web oficial en Git Hub, más del 46% del contenido recopilado en las últimas fechas estaba en inglés. Pese a que el chino mandarín es el idioma más hablado en el mundo, a penas un 5% de sus textos estaba en este lenguaje. Al español le va algo mejor, también anda en torno al 4,5, pese a ser mucho menos hablado que el chino. 

 

¿Y al gallego? Unicamente el 0,04% de las páginas procesadas estaba en la lengua de Rosalía. Esto sitúa al idioma en la posición 46, de un total de 146. En su última 'expedición', la araña identificó solo 86 documentos en gallego, frente a 463.044 en inglés. 

 

Torre de Hu00e9rcules en la luna en una imagen creada por la inteligencia artificial DALLE
Torre de Hercules en la luna en una imagen creada por la inteligencia artificial DALL-E de OpenAi

 

No es de extrañar, por lo tanto, que los recursos en gallego que puede tener Chat GPT a la hora de, por ejemplo, escribir una poesía o una receta sean mucho más limitados que 'hablando' inglés. 

 

Esto no se debe a ninguna conspiración contra el idioma. Simplemente, los corpus en inglés sobre los que aprenden las redes neuronales de las IA son muchísimo más amplios que en otros idiomas porque la lengua anglosajana es, con muchísima diferencia, la más frecuente entre los contenidos de Internet a nivel global. 

 

Con todo, la ausencia de malicia no implica que la escasez sea peligrosa, pues nos podemos enfrentar a otro efecto 'pescadilla que se muerde la cola'. Al haber menos webs en gallego, las IA serán menos eficaces en en gallego por lo que, al final, los creadores de contenido también usarán menos las IA para producir textos en esta lengua y habrá menos contenidos en gallego en el ciberespacio para alimentar a su vez a  nuevas IA.

 

De ahí que los poderes públicos gallegos empiecen a prestarle más atención a este campo. La Xunta ya ha dedicó 600.000 euros, asegura, al Proxecto Nós. La iniciativa también cuenta con el apoyo Proyecto Estratégico para la Recuperación y Transformación Económica (PERTE) de la Nueva Economía Lingüística, el dinero de Europa que gestiona el Estado, los famosos fondos Next Generation.

 

En este vídeo promocional del Día das Letras colaboró el Proxecto Nós:

 

 

 

RECOGER AUDIO Y TEXTO

Claro que no solo de las instituciones depende que el gallego no se quede atrás en esta nueva revolución, que ya está cambiando la forma de producir contenidos. Además de usar aplicaciones de IA en gallego, es clave que las inteligencias artificiales cuenten con repositorios completos y bien estructurados m. Por eso el Instituto da Lingua Galega da USC (ILG) y el CiTIUS llevan meses trabajando en la creación de recursos textuales y de voz que en el futuro podrán usar  las entidades interesadas. 

 

Serán corpus, promete la Xunta, accesibli bajo licencia abierta. Algo clave, pues la reutilización del contenido y de la tecnología que lo procesa es fundamental para que más herramientas de IA se puedan desarrollar en gallego y otras lenguas menos potentes a nivel global desde un punto de vista estrictamente comercial. 

Última hora

Sin comentarios

Escribe tu comentario




He leído y acepto la política de privacidad

No está permitido verter comentarios contrarios a la ley o injuriantes. Nos reservamos el derecho a eliminar los comentarios que consideremos fuera de tema.
Última hora
Cabeceralomasleido 1
Cabecerarecomendados 1

Galiciapress
Plaza de Quintana, 3 15704 Santiago de Compostela
Tlf (34)678803735

redaccion@galiciapress.es o direccion@galiciapress.es
RESERVADOS TODOS LOS DERECHOS. EDITADO POR POMBA PRESS,S.L.
Aviso legal - Política de Cookies - Política de Privacidad - Configuración de cookies - Consejo editorial - Publicidad
Powered by Bigpress
CLABE