
El nuevo Gato AI de DeepMind me preocupa que los humanos nunca lleguen a AGI
mayo 14, 2022
DeepMind presentó hoy un nuevo sistema de IA multimodal capaz de realizar más de 600 tareas diferentes.
Apodado Gato, este es posiblemente el kit de aprendizaje automático todo en uno más impresionante que el mundo haya visto jamás.
Según una publicación de blog de DeepMind:
El agente, a quien llamamos Gato, opera como un policía generalista multimodal, multitarea y multiencarnación. La misma red con los mismos pesos puede reproducir Atari, subtitular imágenes, chatear, apilar bloques con un brazo robótico real y mucho más, decidiendo en función de su contexto si generar texto, torsión conjunta, pulsaciones de botones u otros tokens.
Y aunque queda por ver exactamente qué tan bien funcionará una vez que los investigadores y usuarios fuera de los laboratorios de DeepMind lo tengan en sus manos, Gato parece ser todo lo que GPT-3 quiere que sea y más.
He aquí por qué me pone triste: GPT-3 es un modelo de lenguaje grande (LLM) producido por OpenAI, la empresa de inteligencia general artificial (AGI) mejor financiada del mundo.
Sin embargo, antes de que podamos comparar GPT-3 y Gato, debemos comprender de dónde provienen OpenAI y DeepMind como empresas.
OpenAI es una creación de Elon Musk, tiene miles de millones de dólares en respaldo de Microsoft, y al gobierno de los EE. UU. básicamente podría importarle menos lo que hace en términos de regulación y supervisión.
Teniendo en cuenta que el único propósito de OpenAI es desarrollar y controlar un AGI (es una IA capaz de hacer y aprender todo lo que un humano podría, con el mismo acceso), da un poco de miedo que toda la empresa haya logrado producir es un LLM realmente elegante.
No me malinterpreten, GPT-3 es impresionante. De hecho, podría decirse que es tan impresionante como el Gato de DeepMind, pero esta evaluación requiere algunos matices.
OpenAI tomó la ruta LLM en su camino hacia AGI por una simple razón: nadie sabe cómo hacer que AGI funcione.
Así como tomó tiempo desde el descubrimiento del fuego hasta la invención del motor de combustión interna, descubrir cómo pasar del aprendizaje profundo a AGI no sucederá de la noche a la mañana.
GPT-3 es un ejemplo de una IA que al menos puede hacer algo que se siente humano: genera texto.
Lo que DeepMind hizo con Gato es, bueno, más o menos lo mismo. Tomó algo que funciona como un LLM y lo convirtió en un ilusionista capaz de más de 600 formas de conjurar.
Como dijo recientemente Mike Cook, del colectivo de investigación Knives and Paintbrushes, a Kyle Wiggers de TechCrunch:
Suena emocionante que la IA sea capaz de hacer todas estas tareas que se ven muy diferentes, porque para nosotros parece que escribir texto es muy diferente a controlar un robot.
Pero en realidad, no es muy diferente de GPT-3 entendiendo la diferencia entre el texto regular en inglés y el código de Python.
Eso no quiere decir que sea fácil, pero para el observador externo puede parecer que la IA también puede preparar una taza de té o aprender fácilmente otras diez o cincuenta tareas, y no puede.
Básicamente, Gato y GPT-3 son sistemas de inteligencia artificial robustos, pero ninguno de ellos es capaz de inteligencia general.
Aquí está mi problema: A menos que su apuesta por AGI haya surgido como resultado de un acto de suerte al azar (me viene a la mente la película Short Circuit), probablemente sea el momento de que todos reevalúen su agenda de AGI.
No diría «nunca» porque es una de las únicas malas palabras en la ciencia. Pero esto da la impresión de que el AGI no ocurrirá durante nuestra vida.
DeepMind ha estado trabajando en AGI durante más de una década y OpenAI desde 2015. Y ninguno ha podido resolver el primer problema en el camino de AGI para resolverlo: construir una IA capaz de aprender cosas nuevas sin capacitación.
Creo que Gato podría ser el sistema de IA multimodal más avanzado del mundo. Pero también creo que DeepMind tomó el mismo concepto de callejón sin salida para AGI que OpenAI y simplemente lo hizo más comercializable.
Pensamientos finales: Lo que ha hecho DeepMind es notable y probablemente generará mucho dinero para la empresa.
Si soy el director ejecutivo de Alphabet (la empresa matriz de DeepMind), hago de Gato un producto puro o empujo a DeepMind hacia más desarrollo que investigación.
Gato podría tener el potencial de operar de manera más lucrativa en el mercado de consumo que Alexa, Siri o Google Assistant (con el marketing adecuado y los casos de uso aplicables).
Pero Gato y GPT-3 no son puntos de entrada más viables para AGI que los asistentes virtuales mencionados anteriormente.
La capacidad de Gato para realizar múltiples tareas se parece más a una consola de videojuegos que puede almacenar 600 juegos diferentes que a un juego al que se puede jugar de 600 maneras diferentes. No es una IA general, es un grupo de modelos estrechos preentrenados cuidadosamente agrupados.
Eso no es algo malo, si eso es lo que estás buscando. Pero simplemente no hay nada en el trabajo de investigación que acompaña a Gato que indique que esto es siquiera un empujón en la dirección correcta para AGI, y mucho menos un trampolín.
En algún momento, la buena voluntad y el capital que empresas como DeepMind y OpenAI han generado a través de su inexpresiva insistencia en que AGI estaba a la vuelta de la esquina tendrá que mostrar incluso el más mínimo de los dividendos.