No espere que se democraticen los grandes modelos lingüísticos como el próximo GPT

No espere que se democraticen los grandes modelos lingüísticos como el próximo GPT

mayo 22, 2022 0 Por RenzoC


Este artículo es parte de nuestra cobertura de las últimas investigaciones sobre IA.

A principios de mayo, Meta lanzó Open Pretrained Transformer (OPT-175B), un modelo de lenguaje grande (LLM) que puede realizar varias tareas. Los modelos de lenguaje grande se han convertido en una de las áreas de investigación más candentes en inteligencia artificial en los últimos años.

El OPT-175B es el último participante en la carrera armamentista LLM provocada por GPT-3 de OpenAI, una red neuronal profunda con 175 mil millones de parámetros. El GPT-3 mostró que los LLM pueden realizar muchas tareas sin capacitación adicional y viendo solo algunos ejemplos (cero aprendizaje o algunos aciertos). Luego, Microsoft integró GPT-3 en varios de sus productos, mostrando no solo la promesa científica sino también comercial de los LLM.

saludos humanoides

Suscríbase ahora para obtener un resumen semanal de nuestras historias favoritas de IA

Lo que hace único al OPT-175B es el compromiso de Meta con la «apertura», como sugiere el nombre del modelo. Meta ha puesto el modelo a disposición del público (con algunas salvedades). También publicó un montón de detalles sobre el proceso de formación y desarrollo. En una publicación en el blog Meta AI, la compañía describió su lanzamiento del OPT-175B como «la democratización del acceso a modelos de lenguaje a gran escala».

El movimiento de Meta hacia la transparencia es encomiable. Sin embargo, la competencia por los principales modelos lingüísticos ha llegado a un punto en el que ya no puede democratizarse.

https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2021/12/large-language-models.jpg?resize=696%2C435&ssl=1

La versión Meta del OPT-175B tiene algunas características clave. Incluye tanto modelos preentrenados como el código necesario para entrenar y usar el LLM. Los modelos previamente entrenados son especialmente útiles para las organizaciones que no tienen los recursos informáticos para entrenar el modelo (entrenar redes neuronales requiere muchos más recursos que ejecutarlas). También ayudará a reducir la huella de carbono masiva causada por los recursos informáticos necesarios para entrenar grandes redes neuronales.

Al igual que GPT-3, OPT viene en diferentes tamaños, que van desde 125 millones hasta 175 mil millones de parámetros (los modelos con más parámetros tienen más capacidad de aprendizaje). Al momento de escribir este artículo, todos los modelos hasta el OPT-30B están disponibles para descargar. El modelo completo de 175 mil millones de parámetros estará disponible para investigadores e instituciones seleccionadas que completen un formulario de solicitud.

Según el blog Meta AI, «Para mantener la integridad y prevenir el abuso, lanzamos nuestro modelo bajo una licencia no comercial para enfocarnos en casos de uso de investigación. Se otorgará acceso al modelo a investigadores académicos; aquellos afiliados al gobierno, la sociedad civil y organizaciones académicas, así como laboratorios de investigación industrial en todo el mundo.

Además de los modelos, Meta ha publicado un libro de registro completo que proporciona una cronología técnica detallada del proceso de desarrollo y entrenamiento de los grandes modelos de lenguaje. Los artículos publicados normalmente solo contienen información sobre el modelo final. El libro de registro brinda información valiosa sobre «la cantidad de computación utilizada para entrenar el OPT-175B y la sobrecarga humana requerida cuando la infraestructura subyacente o el proceso de entrenamiento en sí se vuelve inestable a escala», según Meta.

https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2020/09/microsoft-openai-gpt-3-license.jpg?resize=696%2C464&ssl=1

En su publicación de blog, Meta afirma que se puede acceder principalmente a Big Language Models a través de «API pagas» y que el acceso restringido a LLM tiene «una capacidad limitada de los investigadores para comprender cómo y por qué funcionan estos Big Language Models, lo que impide el progreso de los esfuerzos para mejorar su robustez. y mitigar problemas conocidos como el sesgo y la toxicidad.

Este es un golpe para OpenAI (y, por extensión, para Microsoft), que lanzó GPT-3 como un servicio API de caja negra en lugar de poner a disposición del público los pesos y el código fuente de su modelo. Entre las razones dadas por OpenAI para no hacer público GPT-3 fue controlar el mal uso y desarrollo de aplicaciones dañinas.

Meta cree que al poner los modelos a disposición de un público más amplio, estará en una mejor posición para investigar y prevenir cualquier daño que puedan causar.

Así es como Meta describe el esfuerzo: «Esperamos que el OPT-175B traiga más voces a la frontera de la creación de excelentes modelos lingüísticos, ayude a la comunidad a diseñar colectivamente estrategias de lanzamiento responsables y agregue un nivel de transparencia y apertura sin precedentes al desarrollo de los principales lenguajes». modelos en el campo.

Sin embargo, cabe señalar que «transparencia y apertura» no equivale a «democratizar los grandes modelos lingüísticos». Los costos de capacitación, configuración y ejecución de grandes modelos de lenguaje siguen siendo prohibitivos y es probable que aumenten en el futuro.

Según la publicación del blog de Meta, sus investigadores lograron reducir significativamente los costos de entrenamiento de modelos de lenguaje grandes. La compañía afirma que la huella de carbono del modelo se ha reducido a una séptima parte de GPT-3. Los expertos con los que había hablado anteriormente estimaron los costos de capacitación para el GPT-3 en $ 27,6 millones.

Esto significa que entrenar el OPT-175B seguirá costando varios millones de dólares. Afortunadamente, el modelo preentrenado evitará tener que entrenar el modelo, y Meta dice que proporcionará la base de código utilizada para entrenar e implementar el modelo completo «usando solo 16 GPU NVIDIA V100». Es el equivalente a una Nvidia DGX-2, que cuesta alrededor de $ 400,000, que no es una suma pequeña para un laboratorio de investigación o un investigador individual con problemas de liquidez. (Según un artículo que brinda más detalles sobre el OPT-175B, Meta entrenó su propio modelo con 992 GPU A100 de 80 GB, que son significativamente más rápidos que el V100).

El libro de registro de Meta AI confirma además que entrenar modelos de lenguaje grandes es una tarea muy complicada. La línea de tiempo de OPT-175B está llena de fallas de servidor, fallas de hardware y otras complicaciones que requieren personal altamente técnico. Los investigadores también tuvieron que reiniciar varias veces el proceso de entrenamiento, modificar los hiperparámetros y modificar las funciones de pérdida. Todo esto agrega costos adicionales que los laboratorios más pequeños no pueden pagar.

https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2021/09/tech-giants-artificial-intelligence.jpg?resize=696%2C392&ssl=1

Los modelos de lenguaje como OPT y GPT se basan en la arquitectura del transformador. Una de las principales características de los transformadores es su capacidad para procesar grandes datos secuenciales (por ejemplo, texto) en paralelo ya gran escala.

En los últimos años, los investigadores han demostrado que al agregar más capas y parámetros a los modelos de transformadores, pueden mejorar su desempeño en tareas lingüísticas. Algunos investigadores creen que alcanzar niveles más altos de inteligencia es solo un problema de escala. Como resultado, los laboratorios de investigación ricos en efectivo como Meta AI, DeepMind (propiedad de Alphabet) y OpenAI (respaldado por Microsoft) se están moviendo hacia la construcción de redes neuronales cada vez más grandes.

El año pasado, Microsoft y Nvidia crearon un modelo de lenguaje de 530 mil millones de parámetros llamado Megatron-Turing (MT-NLG). El mes pasado, Google presentó Pathways Language Model (PaLM), un LLM con 540 mil millones de parámetros. Y hay rumores de que OpenAI lanzará GPT-4 en los próximos meses.

Sin embargo, las grandes redes neuronales también requieren mayores recursos financieros y técnicos. Y aunque los grandes modelos lingüísticos tendrán nuevas campanas y silbatos (y nuevos fracasos), inevitablemente centralizarán el poder en manos de unas pocas corporaciones ricas, lo que dificultará aún más que los pequeños laboratorios de investigación y los investigadores independientes trabajen en grandes modelos lingüísticos.

Comercialmente, las grandes empresas de tecnología tendrán una ventaja aún mayor. Ejecutar modelos de lenguaje grandes es muy costoso y difícil. Empresas como Google y Microsoft tienen servidores y procesadores especiales que les permiten ejecutar estos modelos a escala y de manera rentable. Para las pequeñas empresas, la sobrecarga de ejecutar su propia versión de un LLM como GPT-3 es demasiado prohibitiva. Así como la mayoría de las empresas utilizan servicios de alojamiento en la nube en lugar de configurar sus propios servidores y centros de datos, los sistemas estándar como la API GPT-3 crecerán en popularidad a medida que los modelos de lenguajes grandes se vuelvan más populares.

Esto centralizará aún más la IA en manos de las grandes empresas tecnológicas. Cada vez más laboratorios de investigación de IA necesitarán asociarse con grandes tecnologías para financiar su investigación. Y le dará a la gran tecnología más poder para decidir las direcciones futuras de la investigación de IA (que probablemente estará alineada con sus intereses financieros). Esto puede ocurrir a expensas de las áreas de investigación que no tienen un retorno de la inversión a corto plazo.

La conclusión es que, mientras celebramos la decisión de Meta de brindar transparencia a los LLM, no olvidemos que la naturaleza misma de los grandes modelos lingüísticos es antidemocrática y está a favor de las mismas empresas que los publican.

Este artículo fue escrito originalmente por Ben Dickson y publicado por Ben Dickson el TechTalks, una publicación que examina las tendencias en tecnología, cómo afectan la forma en que vivimos y hacemos negocios, y los problemas que resuelven. Pero también discutimos el lado malo de la tecnología, las implicaciones más oscuras de las nuevas tecnologías y lo que debemos tener en cuenta. Puede leer el artículo original aquí.