La programación en lenguaje «natural» llegará antes de lo que cree

La programación en lenguaje «natural» llegará antes de lo que cree

octubre 10, 2021 0 Por RenzoC


A veces, los cambios importantes pasan prácticamente desapercibidos. El 5 de mayo, IBM anunció el proyecto CodeNet con poca atención académica o de los medios de comunicación.

CodeNet sigue a ImageNet, un conjunto de datos a gran escala de imágenes y sus descripciones; las imágenes son gratuitas para uso no comercial. ImageNet se encuentra ahora en el corazón de los avances en el aprendizaje profundo de la visión por computadora.

CodeNet es un intento de codificar para inteligencia artificial (IA) lo que ImageNet hizo para la visión por computadora: es un conjunto de datos de más de 14 millones de muestras de código, que abarcan programas de 50 idiomas, diseñado para resolver 4.000 problemas de codificación. El conjunto de datos también contiene una gran cantidad de datos adicionales, como la cantidad de memoria necesaria para ejecutar el software y registrar las salidas del código en ejecución.

Acelere el aprendizaje automático

El propio fundamento de IBM para CodeNet es que está diseñado para actualizar rápidamente los sistemas heredados programados en código obsoleto, un desarrollo esperado desde el pánico del año 2000 hace más de 20 años, cuando muchos pensaron que los sistemas heredados indocumentados podrían fallar con graves consecuencias.

Sin embargo, como investigadores de seguridad, creemos que la implicación más importante de CodeNet, y proyectos similares, es el potencial para reducir las barreras y la posibilidad de la codificación en lenguaje natural (NLC).

Un video producido por IBM examina la búsqueda para producir IA capaz de comprender el lenguaje humano.

En los últimos años, empresas como OpenAI y Google han mejorado rápidamente las tecnologías de procesamiento del lenguaje natural (NLP). Estos son programas basados ​​en aprendizaje automático diseñados para comprender e imitar mejor el lenguaje humano natural y traducir entre diferentes idiomas. Los sistemas de entrenamiento de aprendizaje automático requieren acceso a un gran conjunto de datos con textos escritos en los lenguajes humanos deseados. NLC también aplica todo esto a la codificación.

La codificación es una habilidad difícil de aprender y mucho menos dominar, y un codificador experimentado debe dominar varios lenguajes de programación. NLC, por otro lado, aprovecha las tecnologías de PNL y una gran base de datos como CodeNet para permitir que cualquiera use el inglés, o en última instancia, el francés, el chino o cualquier idioma natural para codificar. Esto podría hacer que tareas como diseñar un sitio web sean tan simples como escribir «crear un fondo rojo con la imagen de un avión, el logotipo de mi empresa en el medio y un botón de contacto debajo», y este sitio web exacto nacería, el resultado de la traducción automática del lenguaje natural a código.

Está claro que IBM no fue el único que pensó. GPT-3, el modelo de PNL líder en la industria de OpenAI, se utilizó para habilitar la codificación de un sitio web o aplicación escribiendo una descripción de lo que desee. Poco después del anuncio de IBM, Microsoft anunció que había obtenido los derechos exclusivos de GPT-3.

Microsoft también es propietario de GitHub, la colección más grande de código fuente abierto en Internet, adquirida en 2018. La compañía ha aumentado el potencial de GitHub con GitHub Copilot, un asistente de inteligencia artificial. Cuando el programador entra en la acción que quiere codificar, Copilot genera una muestra de codificación que podría lograr lo que especificó. El programador puede aceptar la muestra generada por IA, modificarla o rechazarla, simplificando enormemente el proceso de codificación. Copilot es un gran paso hacia NLC, pero aún no ha llegado.

Consecuencias de la codificación del lenguaje natural

Si bien NLC aún no se puede lograr por completo, nos dirigimos rápidamente hacia un futuro en el que la codificación es mucho más accesible para la persona promedio. Las implicaciones son enormes.

Primero, hay implicaciones para la investigación y el desarrollo. Se argumenta que cuanto mayor es el número de innovadores potenciales, mayor es la tasa de innovación. Al eliminar las barreras a la codificación, se expande el potencial de innovación a través de la programación.

Además, disciplinas académicas tan diversas como la física computacional y la sociología estadística dependen cada vez más de programas informáticos personalizados para procesar datos. La disminución de las habilidades necesarias para crear estos programas aumentaría la capacidad de los investigadores en campos especializados fuera de la informática para implementar tales métodos y hacer nuevos descubrimientos.

Sin embargo, también existen peligros. Irónicamente, uno es la desdemocratización de la codificación. Actualmente, existen muchas plataformas de codificación. Algunas de estas plataformas ofrecen varias características que favorecen a diferentes programadores, sin embargo, ninguna ofrece una ventaja competitiva. Un programador nuevo podría usar fácilmente una terminal de codificación básica y gratuita y estar en desventaja.

Sin embargo, la IA en el nivel requerido para NLC no es barata de desarrollar o implementar y es probable que esté monopolizada por grandes empresas de plataformas como Microsoft, Google o IBM. El servicio puede ofrecerse contra pago o, como la mayoría de los servicios de redes sociales, de forma gratuita pero en condiciones desfavorables o abusivas para su uso.

También hay motivos para creer que estas tecnologías estarán dominadas por las empresas de plataformas debido a cómo funciona el aprendizaje automático. Teóricamente, programas como Copilot mejoran cuando se introducen nuevos datos: cuanto más se utilizan, más mejoran. Esto hace que sea más difícil para los nuevos competidores, incluso si tienen un producto más fuerte o más ético.

Salvo un serio contraesfuerzo, parece probable que los grandes conglomerados capitalistas sean los guardianes de la próxima revolución de la codificación.

Artículo de David Murakami Wood, profesor asociado de sociología, Queen’s University, Ontario y David Eliot, estudiante de maestría, estudios de vigilancia, Queen’s University, Ontario

Este artículo se ha vuelto a publicar de The Conversation con una licencia de Creative Commons. Lea el artículo original.