El gobierno francés ha anunciado la creación de una inteligencia artificial capaz de redactar textos a partir de la alimentación de ciertas palabras o frases claves, en cualquiera de los idiomas más usados en el mundo y de libre acceso.
El BLOOM (BigScience Large Open-science Open-access Multilingual Languaje Model), es un modelo de lenguaje multiidioma, creado por el Centro Nacional de Francia para el Desarrollo Científico. Es similar al GPT-3 desarrollado por OpenAI y al LaMDA, desarrollado por Google.
Los tres son software que a través de inteligencia artificial permiten desarrollar textos a partir de ciertas palabras clave. Pero a diferencia del GPT-3 y el LaMDA el BLOOM es de código abierto y de uso gratuito. B
LOOM fue creado durante 2021 gracias al trabajo de 1.000 científicos voluntarios coordinados por la startup de inteligencia artificial Hugging Face, con fondos aportados por el gobierno francés, con el objetivo de democratizar el acceso a la más nueva tecnología en IA.
Cualquiera puede descargar BLOOM sin costo desde el sitio web de Hugging Face
¿Cómo funciona?
Se selecciona el idioma en el que se quiere trabajar y a continuación elegir lo que se quiere hacer. Puede ser: escribir un poema o una receta, traducir o sintetizar un texto, o escribir códigos de programación. Los desarrolladores de IA pueden usar el modelo como base para construir sus propias aplicaciones.
Con 176.000 millones de parámetros (variables que determinan cómo la información que entra se convierte en la deseada información que sale), BLOOM es más grande que GPT-3, que tiene 175.000 millones de parámetros. Y ofrece niveles similares de certeza y toxicidad (prejuicios) que los otros modelos mencionados. Y a diferencia de estos modelos, BLOOM está disponible en español y árabe.
Aún así, los creadores advierten que BLOOM no soluciona los problemas comunes a los
modelos de lenguaje, incluyendo la falta de adecuadas políticas en control de datos y privacidad y la tendencia de los algoritmos a difundir contenidos tóxicos, racistas o sexistas.
Los modelos de lenguaje son algoritmos entrenados sobre una gran cantidad de datos.
Son unos de los ámbitos preferidos por los investigadores en inteligencia artificial. Modelos poderosos como GPT-3 y LaMDA, que producen textos como si fueran escritos por personas, tienen gran potencial de cambiar el modo en que procesamos la información online. Pueden ser usados como chatbots o para buscar información, moderar contenido, hacer reseñas de libros o generar páginas enteras de texto a partir de ciertas indicaciones.
Con suma facilidad estos modelos empiezan a producir contenido dañino.
Estos modelos son extremadamente exclusivos. Necesitan ser entrenados con grandes cantidades de datos y usando costosas computadoras, por lo que sólo lo pueden hacer grandes corporaciones como Google o OpenAI.
Las grandes tecnológicas que desarrollan la más moderna tecnología relacionada a los modelos amplios de lenguaje restringen su uso y no revelan información acerca de cómo fueron creados. Este modelo de secretismo y avaricia en la alta tecnología es lo que se quiere evitar con el lanzamiento libre de BLOOM.
Meta recientemente anunció su propio modelo amplio de lenguaje, llamado Open Pretrained Transformer (OPT-175B), y puso a disposición su código y un libro detallando cómo fue entrenado el modelo.
El OPT sólo está disponible bajo solicitud y su uso está limitado a investigaciones. En el caso de Huggins Face, no sólo es de libre acceso, sino que además están grabadas y disponibles las reuniones que se hicieron mientras se desarrolló el proceso y pueden ser descargadas libremente.
Los modelos amplios de lenguaje (en inglés LLM) son entrenados con toneladas de datos recolectados de internet. Esto puede resultar problemático, porque los datos incluyen mucha información personal que a menudo refleja una cantidad de prejuicios.
El grupo de investigadores desarrolló una estructura de control de datos, especialmente pensada para LLMs, que debiera clarificar cuál es la información que está siendo utilizada y a quién pertenece y obtuvo diferentes conjuntos de datos que no están disponibles online. También creó una Licencia de IA Responsable, para evitar que sea usado con malas intenciones, pero la realidad es que no hay forma de evitar que esto suceda. “BigScience ha hecho un espectacular trabajo de construir una comunidad alrededor de BLOOM, y su interés por el problema ético y de control desde su comienzo ha sido inteligente”, sostiene Percy Liang, director del Centro de Investigación de Modelos de Lenguaje De Stanford. “Sin embargo, esto no va a cambiar mucho la esencia de los LLMs. OpenAI, Google y Microsoft siguen avanzando a pasos agigantados”, afirma Liang. Finalmente BLOOM es también un modelo amplio de lenguaje, presenta los mismos riesgos y fallos que los otros. OpenAI no ha hecho público su GPT-3, porque según ellos el lenguaje racista y sexista que evidencia lo hace muy peligroso para ser usado públicamente.
Margaret Mitchell, investigadora de Hugging Face, sostiene que BLOOM también tiene sus defectos y prejuicios, pero al ser un modelo abierto, los usuarios podrán colaborar en sus virtudes y señalar sus defectos.
La mayor contribución de BigScience a la inteligencia artificial puede ir mucho más allá de BLOOM, que puede ser solo el comienzo de una forma de cooperación internacional en investigación de inteligencia artificial.
“Un nuevo modelo amplio de lenguaje no cambiará el curso de la historia”, dice el investigador Tven Le Scao. “Pero tener un buen modelo amplio de lenguaje con el que la gente pueda investigar tendrá un importante impacto a largo plazo”.
Te puede interesar también:
La inteligencia artificial sigue creciendo
Plataforma para crear apps de inteligencia artificial
Big Data y la Inteligencia Artificial