
La IA ahora está aprendiendo a evolucionar como formas de vida terrestres
noviembre 1, 2021
Este artículo es parte de nuestras revisiones de artículos de investigación sobre IA, una serie de artículos que exploran los últimos hallazgos en inteligencia artificial.
Cientos de millones de años de evolución han bendecido a nuestro planeta con una amplia variedad de formas de vida, cada una inteligente a su manera. Cada especie ha evolucionado para desarrollar habilidades innatas, habilidades de aprendizaje y aptitud física que aseguran su supervivencia en su entorno.
Pero a pesar de estar inspirado por la naturaleza y la evolución, el campo de la inteligencia artificial se ha centrado en gran medida en crear los elementos de la inteligencia por separado y fusionarlos después del desarrollo. Si bien este enfoque ha dado excelentes resultados, también ha limitado la flexibilidad de los agentes de IA en algunas de las habilidades básicas que se encuentran incluso en las formas de vida más simples.
En un nuevo artículo publicado en la revista científica Nature, los investigadores de inteligencia artificial de la Universidad de Stanford presentan una nueva técnica que puede ayudar a superar algunos de estos límites. Titulada «Aprendizaje por refuerzo evolutivo profundo», la nueva técnica utiliza un entorno virtual complejo y aprendizaje por refuerzo para crear agentes virtuales que pueden evolucionar tanto en su estructura física como en sus capacidades de aprendizaje. Los hallazgos pueden tener implicaciones importantes para el futuro de la investigación en inteligencia artificial y robótica.
La evolución es difícil de simular
En la naturaleza, el cuerpo y el cerebro evolucionan juntos. A lo largo de muchas generaciones, cada especie animal ha pasado por innumerables ciclos de mutación para desarrollar miembros, órganos y un sistema nervioso que respalde las funciones que necesita en su entorno. Los mosquitos tienen visión térmica para detectar el calor corporal. Los murciélagos tienen alas para volar y un dispositivo de ecolocalización para navegar por lugares oscuros. Las tortugas marinas tienen aletas para nadar y un sistema de detección de campo magnético para viajar distancias muy largas. Los humanos tienen una postura erguida que libera sus brazos y les permite ver el horizonte lejano, manos y dedos ágiles que pueden manipular objetos, y un cerebro que los convierte en las mejores criaturas sociales y solucionadoras de problemas del planeta.
Curiosamente, todas estas especies descienden de la primera forma de vida que apareció en la Tierra hace miles de millones de años. Sobre la base de las presiones de selección causadas por el medio ambiente, los descendientes de estos primeros seres vivos evolucionaron en muchas direcciones diferentes.
Estudiar la evolución de la vida y la inteligencia es interesante. Pero reproducirlo es extremadamente difícil. Un sistema de IA que quiera recrear vida inteligente de la misma manera que lo hizo la evolución tendría que buscar un espacio muy grande de posibles morfologías, lo cual es extremadamente costoso desde el punto de vista computacional. Se necesitarían muchos ciclos de prueba y error en paralelo y secuencial.
Los investigadores de IA utilizan varios atajos y funciones predefinidas para superar algunos de estos desafíos. Por ejemplo, corrigen la arquitectura o el diseño físico de un sistema de inteligencia artificial o robótica y se centran en optimizar los parámetros de aprendizaje. Otro atajo es el uso de la evolución lamarckiana en lugar de darwiniana, en la que los agentes de IA transmiten sus parámetros aprendidos a sus descendientes. Otro enfoque es entrenar por separado diferentes subsistemas de IA (visión, locomoción, lenguaje, etc.) y luego ensamblarlos en un sistema final de IA o robótica. Si bien estos enfoques aceleran el proceso y reducen los costos de capacitación y actualización de los agentes de IA, también limitan la flexibilidad y la variedad de resultados que se pueden lograr.
Aprendizaje profundo por refuerzo evolutivo
En su nuevo trabajo, los investigadores de Stanford tienen como objetivo acercar la investigación de la IA al proceso evolutivo real, manteniendo los costos lo más bajos posible. «Nuestro objetivo es dilucidar ciertos principios que gobiernan las relaciones entre la complejidad ambiental, la morfología evolucionada y la capacidad de aprender el control inteligente», escriben en su artículo.
Su marco se llama Aprendizaje por refuerzo evolutivo profundo. En DERL, cada agente utiliza el aprendizaje de refuerzo profundo para adquirir las habilidades necesarias para maximizar sus objetivos a lo largo de su vida. DERL utiliza la evolución darwiniana para buscar en el espacio morfológico soluciones óptimas, lo que significa que cuando se genera una nueva generación de agentes de IA, estos solo heredan rasgos físicos y arquitectónicos de sus padres (con ligeras mutaciones). Ninguno de los parámetros aprendidos se pasa de una generación a la siguiente.
«DERL abre la puerta a la realización de experimentos in silico a gran escala para proporcionar información científica sobre cómo el aprendizaje y la evolución crean de manera cooperativa relaciones sofisticadas entre la complejidad ambiental, la inteligencia morfológica y las tareas de control del aprendizaje», escriben los investigadores.
Simular la evolución
Para su marco, los investigadores utilizaron MuJoCo, un entorno virtual que proporciona una simulación física de alta precisión de cuerpos rígidos. Su espacio de diseño se denomina UNIversal aniMAL (UNIMAL), en el que el objetivo es crear morfologías que aprendan tareas de locomoción y manipulación de objetos en una variedad de terrenos.
Cada agente ambiental está compuesto por un genotipo que define sus miembros y articulaciones. El descendiente directo de cada agente hereda el genotipo del padre y sufre mutaciones que pueden crear nuevos miembros, eliminar miembros existentes o realizar pequeños cambios en características como grados de libertad o tamaño de miembro.
Cada agente está capacitado con aprendizaje por refuerzo para maximizar las recompensas en varios entornos. La tarea más básica es la locomoción, en la que el agente es recompensado por la distancia que recorre durante un episodio. Los agentes cuya estructura física es más adecuada para cruzar el terreno aprenden más rápidamente a usar sus extremidades para moverse.
Para probar los resultados del sistema, los investigadores generaron agentes en tres tipos de terreno: plano (FT), variable (VT) y terreno variable con objetos modificables (MVT). El terreno llano ejerce menos presión de selección sobre la morfología de los agentes. Los terrenos variables, por otro lado, obligan a los agentes a desarrollar una estructura física más versátil que pueda escalar pendientes y sortear obstáculos. La variante MVT presenta el desafío adicional de requerir que los agentes manipulen objetos para lograr sus objetivos.
Las ventajas de DERL
Uno de los hallazgos interesantes del DERL es la diversidad de resultados. Otros enfoques de la IA evolutiva tienden a converger hacia una solución, ya que los nuevos agentes heredan directamente lo físico y los aprendizajes de sus padres. Pero en DERL, solo se transmiten datos morfológicos a los descendientes, el sistema termina creando un conjunto diverso de morfologías exitosas que incluyen bípedos, trípedos y cuadrúpedos con y sin brazos.
Al mismo tiempo, el sistema exhibe características del efecto Baldwin, lo que sugiere que los agentes que aprenden más rápido tienen más probabilidades de reproducirse y transmitir sus genes a la siguiente generación. El DERL muestra que la evolución «selecciona a los estudiantes más rápidos sin ninguna presión de selección directa para hacerlo», según el artículo de Stanford.
«Curiosamente, la existencia de este efecto Baldwin morfológico podría explotarse en estudios futuros para crear agentes incorporados con menor complejidad de muestra y mayor capacidad de generalización», escriben los investigadores.
Finalmente, el marco DERL también valida la hipótesis de que entornos más complejos darán lugar a agentes más inteligentes. Los investigadores probaron los agentes evolucionados en ocho tareas diferentes, que incluyen patrullaje, evasión, manipulación de objetos y exploración. Sus resultados muestran que, en general, los agentes que han evolucionado sobre terrenos variables aprenden más rápido y se desempeñan mejor que los agentes de IA que solo han experimentado terrenos planos.
Sus resultados parecen estar en línea con otra hipótesis de los investigadores de DeepMind de que un entorno complejo, una estructura de recompensa adecuada y un aprendizaje reforzado pueden eventualmente conducir a la aparición de todo tipo de comportamientos inteligentes.
Investigación en IA y robótica
El entorno DERL tiene solo una fracción de las complejidades del mundo real. «Si bien DERL nos permite dar un paso adelante significativo en la ampliación de la complejidad de los entornos escalables, una línea importante de trabajo futuro será diseñar entornos escalables que sean más abiertos, físicamente realistas y con múltiples agentes», escriben los investigadores.
En el futuro, los investigadores ampliarán la gama de tareas de evaluación para evaluar mejor cómo los agentes pueden mejorar su capacidad para aprender comportamientos relevantes para los humanos.
El trabajo puede tener implicaciones importantes para el futuro de la inteligencia artificial y la robótica y empujar a los investigadores a utilizar métodos de exploración mucho más cercanos a la evolución natural.
«Esperamos que nuestro trabajo fomente nuevas exploraciones a gran escala del aprendizaje y la evolución en otros contextos para aportar nuevos conocimientos científicos sobre la aparición de comportamientos inteligentes de aprendizaje rápido, así como nuevos avances técnicos en nuestra capacidad para instanciarlos en máquinas», explican los investigadores. escribir.
Este artículo fue publicado originalmente por Ben Dickson en TechTalks, una publicación que examina las tendencias tecnológicas, cómo afectan la forma en que vivimos y hacemos negocios, y los problemas que resuelven. Pero también discutimos el lado malo de la tecnología, las implicaciones más oscuras de la nueva tecnología y qué buscar. Puedes leer el artículo originalaquí.