El sistema masivo de inteligencia artificial (IA) de la lengua española creado en el Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS), MarIA, ha avanzado en su desarrollo y su nueva versión permite resumir textos existentes y crear nuevos a partir de titulares o palabras.
MarIA es un conjunto de redes neuronales profundas que han sido entrenadas para comprender y escribir la lengua española a nivel experto con el impulso de la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA). Se publica en abierto para que los desarrolladores de aplicaciones, compañías, grupos de investigación y la sociedad en general lo puedan utilizar y, por su volumen y capacidades, ha situado a la lengua española en el tercer puesto de los idiomas que disponen de modelos masivos de acceso abierto, tras el inglés y el mandarín.
Los últimos avances de MarIA se alinean con los objetivos de la Estrategia Nacional de Inteligencia Artificial (ENIA) y del Plan de Recuperación, Transformación y Resiliencia referentes a la proyección y uso de la lengua española en los ámbitos de aplicación de la IA. El Plan de Tecnologías del Lenguaje, en el que se enmarca el proyecto, tiene la finalidad de fomentar el desarrollo del procesamiento del lenguaje natural, la traducción automática y los sistemas conversacionales en lengua española y lenguas cooficiales.
Nueva versión de MarIA con GPT-2
La primera versión de MarIA fue elaborada con RoBERTa, una tecnología que genera modelos del lenguaje del tipo ‘codificadores’. Por su parte, la nueva versión ha sido creada con GPT-2, una tecnología más avanzada que crea modelos generativos decodificadores, que dada una secuencia de texto pueden generar nuevos textos; y añade prestaciones al sistema.
Así, puede servir para hacer resúmenes automáticos, simplificar redactados complicados a la medida de diferentes perfiles de usuario, generar preguntas y respuestas, mantener diálogos complejos con los usuarios y redactar textos completos a partir de un titular o de un pequeño número de palabras. Estas nuevas capacidades la convierten en una herramienta útil para administraciones públicas, desarrolladores de aplicaciones y empresas.
Los datos de la Biblioteca Nacional de España con los que se ha entrenado MarIA están constituidos por más de 135.000 millones de palabras, que ocupan un total de 570 Gigabytes. Para ello, se ha utilizado el superordenador MareNostrum 4 del BSC y ha sido necesaria una potencia de cálculo de 9,7 trillones de operaciones (969 exaflops).
La versión actual de MarIA dará lugar a versiones especializadas en distintas áreas de aplicación y evolucionará para resolver problemas específicos. Así, se adaptará a los nuevos desarrollos tecnológicos en procesamiento del lenguaje natural entrenados con mayor cantidad de datos, se crearán espacios de trabajo para facilitar su uso por parte de compañías y grupos de investigación en los entornos computaciones adecuados y embeberlos en sistemas de evaluación y certificación de la calidad de los sistemas desarrollados en distintos dominios.