CX Innovación y tendencia

La Inteligencia Artificial Generativa en 2022

Escrito por Yuri Doudchitzky - Autor invitado | Nov 8, 2022 6:56:26 PM

 

La Inteligencia Artificial Generativa ha entrado en un momento excepcional. Nos referimos a la inteligencia artificial que no sólo procesa data preexistente, sino que crea textos enteros, imágenes, audio, video y hasta escribe código.

Cuatro años atrás el revolucionario modelo de IA llamado Bert fue alimentado con 110 millones de parámetros. Hoy los programas más avanzados de IA son 10.000 veces más grandes, por encima de un trillón de parámetros. Hasta hace poco se creía que sumando parámetros los modelos alcanzarían un punto en que empezaría a disminuir su eficacia, pero no fue así. A medida que se los alimenta con más información, se vuelven cada vez mejores.

 

Inteligencia actual

Los nuevos modelos superan a los anteriores en tareas como sugerir las próximas palabras en un email, o nombrar las cosas que están en una imagen dada. Incluso escribiendo poesía. Wu Dao, un modelo construido por la Academia de Inteligencia Artificial de Beijing sobre un trillón de parámetros, escribe excelente poesía Tang. Estos modelos incluso están exhibiendo capacidades inesperadas por los propios creadores.
Estas nuevas propiedades están conectadas con otra prometedora característica: la flexibilidad. Los anteriores modelos de IA eran buenos en un solo propósito específico. A los nuevos modelos se les puede asignar diferentes desafíos con relativa facilidad. De hecho, dentro de la industria ya se los denomina como “modelos fundacionales”.
Esta habilidad para procesar diferentes herramientas en un modelo está cambiando no solo lo que la IA puede hacer, sino también las posibilidades de la IA como negocio.

“La IA se está moviendo hacia su era industrial”, sostiene Jack Clark, de la startup Anthropic.


Tecnologías de propósito general

La analogía sugiere potenciales impactos económicos de envergadura. A fines del siglo pasado, historiadores de la economía empezaron a hablar sobre las “tecnologías de propósito general”, como factores fundamentales para conducir el crecimiento de la productividad a largo plazo. 80% de las investigaciones que se están realizando actualmente en IA está dedicada a los modelos fundacionales. Microsoft, Meta, Google, Tesla, así como decenas de startups están invirtiendo cientos de millones de dólares en esta tecnología. Según la consultora PitchBook, en el último año se invirtieron en IA Generativa, U$S 115.000 millones. Y China no se queda atrás.
Hay gente a la que le preocupa que el crecimiento sin control de esta tecnología generará mayor concentración económica y política. Y más allá de los evidentes beneficios lo cierto es que no se sabe bien las consecuencias que traerá la sostenida automatización de la sociedad. También está el riesgo de que estos modelos se vuelvan cada vez más independientes a medida que vayan creciendo en capacidad. “Estamos construyendo un superdeportivo antes de haber inventado el volante” es la metáfora que usa Ian Hogarth, empresario inglés autor de la encuesta anual “State of AI”.
Todos los modelos de aprendizaje automático están basados en “redes neuronales” (programación que imita la manera en que las células del cerebro interactúan entre sí).
Sus parámetros describen el peso de las conexiones entre estas neuronas virtuales, peso que el modelo desarrolla a través de prueba y error. Así son entrenados para responder a fines específicos, con el tipo de resultados que buscan los diseñadores.

Durante décadas las redes neuronales fueron interesantes en teoría pero no en la práctica. El gran cambio que se produjo a principios de la década pasada fue producto de que las computadoras empezaron a ser suficientemente poderosas para desarrollar sistemas más grandes y que internet puede proveer grandes cantidades de información que estas redes necesitan. Un ejemplo claro es el de las fotos que contienen gatos y han sido usadas para reconocer animales. Los sistemas creados de esta manera pueden hacer cosas que ningún programa podía hacer antes, como por ejemplo proporcionar traducciones aproximadas de textos, interpretar textos hablados o reconocer caras en distintas imágenes.
En parte, lo que ha permitido lograr estos impresionantes desarrollos ha sido el poder de procesamiento. El aprendizaje automático usa principalmente chips llamados “unidades de procesamiento de gráficos” (en inglés, GPUs), desarrollados para videojuegos principalmente por Nvidia. 
El quiebre necesario para poder hacer uso efectivo de esta potencialidad se produjo en 2017. En el documento titulado “Atención es todo lo que necesitas”, investigadores de Google y la Universidad de Toronto describieron el software usado para construir Bert. Allí explican que descartaron los mecanismos usados hasta el momento para alimentar información secuencialmente –mecanismos que eran vistos como esenciales hasta entonces- y empezaron a usar un sistema que rastrea los datos al mismo tiempo. Este nuevo método significa que los programas pueden prestar atención a los patrones que se destacan en un texto determinado, en vez de mirar cada palabra por separado.

 

Un modelo mundial

Estos modelos son entrenados usando una técnica llamada “aprendizaje supervisado”, en vez de conjuntos de datos etiquetados. A medida que hurgan en cantidades de texto, esconden palabras específicas y a partir de ahí adivinan –sobre la base de otros textos similares- cuál sería la palabra que no aparece. Tras realizar miles de millones de veces el procedimiento de adivinar-comparar-mejorar-adivinar, este enfoque provee nuevo poder de estadística a un adagio acuñado por el J.R. First: “sabrás cuál es la palabra por las palabras que la acompañan”. Y resultó ser que esta técnica puede ser aplicada a la secuencia de datos más allá de las palabras. Sirve para fotos, dibujos, videos y hasta para conjuntos de moléculas. En vez de adivinar la próxima combinación de letras, los modelos como Dall-E, de Open AI, predicen combinación de pixels.

El descubrimiento de que estos modelos trabajan mejora a medida que son más grandes, convirtió un nuevo enfoque en un gran avance. Esta revelación llegó con el GPT-3, en 2020. Su predecesor, el GPT-2, aparecido un año antes, fu alimentado con 40 gigabytes de datos (7.000 textos de ficción inéditos) y tenía 1,5 billones de parámetros. El GPT-3 pasó a 570 gigabytes (más libros y textos, incluida toda la Wikipedia) y 175 billones de parámetros. El entrenamiento requirió muchos más recursos pero superó fácilmente al GPT-2, con nuevas habilidades.
Esta evolución se evidenció primero con la escritura de código. El GPT-3 vio una gran cantidad de código. Y se entrenó en programación de la misma manera que se entrenó para escribir coherentemente en inglés. Dos servicios basados en GPT-3, Codex y Copilot, ahora intentan convertir las descripciones de los programadores en el código que lo hará.
No siempre resulta cuando se intentan funciones complicadas. Pero para tareas fáciles de describir y restringidas, que pueden actuar como bloques de construcción para cosas más grandes, funcionan bien. Desarrolladores con acceso a Copilot en GitHub, una plataforma de Microsoft que hostea programas de código abierto, lo usan para armar un tercio de su código cuando utilizan los lenguajes de programación más importantes.
Actualmente no pasa más de una semana sin que una empresa anuncie un nuevo modelo.
En abril Google lanzó PaLM, con 540 billones de parámetros, que superó al GPT-3 en varios aspectos. Hasta es capaz de explicar chistes. Los llamados modelos multimodales también están proliferando. En mayo Deep Mind, también de Google, lanzó Gato, que puede jugar videojuegos y controlar un brazo robótico, además de generar texto.
Meta ha empezado a desarrollar un ambicioso “Modelo Mundial”, que recogerá datos como movimientos faciales y otros movimientos del cuerpo; un proyecto que es parte de la construcción del Metaverso. 

La revolución digital nos envuelve. Suscríbete a nuestro blog y mantente actualizado con las ultimas noticias del mundo digital.