La IA ahora está aprendiendo a evolucionar como formas de vida terrestres

La IA ahora está aprendiendo a evolucionar como formas de vida terrestres

noviembre 1, 2021 0 Por RenzoC


Este artículo es parte de nuestras revisiones de artículos de investigación sobre IA, una serie de artículos que exploran los últimos hallazgos en inteligencia artificial.

Cientos de millones de años de evolución han bendecido a nuestro planeta con una amplia variedad de formas de vida, cada una inteligente a su manera. Cada especie ha evolucionado para desarrollar habilidades innatas, habilidades de aprendizaje y aptitud física que aseguran su supervivencia en su entorno.

Pero a pesar de estar inspirado por la naturaleza y la evolución, el campo de la inteligencia artificial se ha centrado en gran medida en crear los elementos de la inteligencia por separado y fusionarlos después del desarrollo. Si bien este enfoque ha dado excelentes resultados, también ha limitado la flexibilidad de los agentes de IA en algunas de las habilidades básicas que se encuentran incluso en las formas de vida más simples.

En un nuevo artículo publicado en la revista científica Nature, los investigadores de inteligencia artificial de la Universidad de Stanford presentan una nueva técnica que puede ayudar a superar algunos de estos límites. Titulada «Aprendizaje por refuerzo evolutivo profundo», la nueva técnica utiliza un entorno virtual complejo y aprendizaje por refuerzo para crear agentes virtuales que pueden evolucionar tanto en su estructura física como en sus capacidades de aprendizaje. Los hallazgos pueden tener implicaciones importantes para el futuro de la investigación en inteligencia artificial y robótica.

La evolución es difícil de simular

Crédito: Ben Dickson / TechTalks

En la naturaleza, el cuerpo y el cerebro evolucionan juntos. A lo largo de muchas generaciones, cada especie animal ha pasado por innumerables ciclos de mutación para desarrollar miembros, órganos y un sistema nervioso que respalde las funciones que necesita en su entorno. Los mosquitos tienen visión térmica para detectar el calor corporal. Los murciélagos tienen alas para volar y un dispositivo de ecolocalización para navegar por lugares oscuros. Las tortugas marinas tienen aletas para nadar y un sistema de detección de campo magnético para viajar distancias muy largas. Los humanos tienen una postura erguida que libera sus brazos y les permite ver el horizonte lejano, manos y dedos ágiles que pueden manipular objetos, y un cerebro que los convierte en las mejores criaturas sociales y solucionadoras de problemas del planeta.

Curiosamente, todas estas especies descienden de la primera forma de vida que apareció en la Tierra hace miles de millones de años. Sobre la base de las presiones de selección causadas por el medio ambiente, los descendientes de estos primeros seres vivos evolucionaron en muchas direcciones diferentes.

Estudiar la evolución de la vida y la inteligencia es interesante. Pero reproducirlo es extremadamente difícil. Un sistema de IA que quiera recrear vida inteligente de la misma manera que lo hizo la evolución tendría que buscar un espacio muy grande de posibles morfologías, lo cual es extremadamente costoso desde el punto de vista computacional. Se necesitarían muchos ciclos de prueba y error en paralelo y secuencial.

Los investigadores de IA utilizan varios atajos y funciones predefinidas para superar algunos de estos desafíos. Por ejemplo, corrigen la arquitectura o el diseño físico de un sistema de inteligencia artificial o robótica y se centran en optimizar los parámetros de aprendizaje. Otro atajo es el uso de la evolución lamarckiana en lugar de darwiniana, en la que los agentes de IA transmiten sus parámetros aprendidos a sus descendientes. Otro enfoque es entrenar por separado diferentes subsistemas de IA (visión, locomoción, lenguaje, etc.) y luego ensamblarlos en un sistema final de IA o robótica. Si bien estos enfoques aceleran el proceso y reducen los costos de capacitación y actualización de los agentes de IA, también limitan la flexibilidad y la variedad de resultados que se pueden lograr.

Aprendizaje profundo por refuerzo evolutivo

Estructura de aprendizaje de refuerzo evolutivo profundo
Crédito: Ben Dickson / TechTalks

En su nuevo trabajo, los investigadores de Stanford tienen como objetivo acercar la investigación de la IA al proceso evolutivo real, manteniendo los costos lo más bajos posible. «Nuestro objetivo es dilucidar ciertos principios que gobiernan las relaciones entre la complejidad ambiental, la morfología evolucionada y la capacidad de aprender el control inteligente», escriben en su artículo.

Su marco se llama Aprendizaje por refuerzo evolutivo profundo. En DERL, cada agente utiliza el aprendizaje de refuerzo profundo para adquirir las habilidades necesarias para maximizar sus objetivos a lo largo de su vida. DERL utiliza la evolución darwiniana para buscar en el espacio morfológico soluciones óptimas, lo que significa que cuando se genera una nueva generación de agentes de IA, estos solo heredan rasgos físicos y arquitectónicos de sus padres (con ligeras mutaciones). Ninguno de los parámetros aprendidos se pasa de una generación a la siguiente.

«DERL abre la puerta a la realización de experimentos in silico a gran escala para proporcionar información científica sobre cómo el aprendizaje y la evolución crean de manera cooperativa relaciones sofisticadas entre la complejidad ambiental, la inteligencia morfológica y las tareas de control del aprendizaje», escriben los investigadores.

Simular la evolución

Para su marco, los investigadores utilizaron MuJoCo, un entorno virtual que proporciona una simulación física de alta precisión de cuerpos rígidos. Su espacio de diseño se denomina UNIversal aniMAL (UNIMAL), en el que el objetivo es crear morfologías que aprendan tareas de locomoción y manipulación de objetos en una variedad de terrenos.

Cada agente ambiental está compuesto por un genotipo que define sus miembros y articulaciones. El descendiente directo de cada agente hereda el genotipo del padre y sufre mutaciones que pueden crear nuevos miembros, eliminar miembros existentes o realizar pequeños cambios en características como grados de libertad o tamaño de miembro.

Cada agente está capacitado con aprendizaje por refuerzo para maximizar las recompensas en varios entornos. La tarea más básica es la locomoción, en la que el agente es recompensado por la distancia que recorre durante un episodio. Los agentes cuya estructura física es más adecuada para cruzar el terreno aprenden más rápidamente a usar sus extremidades para moverse.

Para probar los resultados del sistema, los investigadores generaron agentes en tres tipos de terreno: plano (FT), variable (VT) y terreno variable con objetos modificables (MVT). El terreno llano ejerce menos presión de selección sobre la morfología de los agentes. Los terrenos variables, por otro lado, obligan a los agentes a desarrollar una estructura física más versátil que pueda escalar pendientes y sortear obstáculos. La variante MVT presenta el desafío adicional de requerir que los agentes manipulen objetos para lograr sus objetivos.

Las ventajas de DERL

Las ventajas de DERL
Crédito: Ben Dickson / TechTalks