Usar los ataques del oponente para refinar las predicciones de energía molecular

Usar los ataques del oponente para refinar las predicciones de energía molecular

septiembre 1, 2021 0 Por RenzoC

Las redes neuronales (NN) se utilizan cada vez más para predecir nuevos materiales, la velocidad y el rendimiento de las reacciones químicas y las interacciones fármaco-objetivo, entre otras cosas. Para estas aplicaciones, son órdenes de magnitud más rápidas que los métodos tradicionales como las simulaciones de mecánica cuántica.

Sin embargo, el precio de esta agilidad es la fiabilidad. Debido a que los modelos de aprendizaje automático solo se interpolan, pueden fallar cuando se usan fuera del dominio de datos de entrenamiento.

Pero la parte que preocupaba a Rafael Gómez-Bombarelli, Jeffrey Cheah Career Development Professor en el Departamento de Ciencia e Ingeniería de Materiales del MIT, y a los estudiantes graduados Daniel Schwalbe-Koda y Aik Rui Tan fue establecer los límites de estos modelos de máquina. El aprendizaje (ML) es aburrido y laborioso.

Esto es particularmente cierto para la predicción de «superficies de energía potencial» (PES), que es el mapa de energía de una molécula en todas sus configuraciones. Estas superficies codifican las complejidades de una molécula en llanuras, valles, picos, valles y barrancos. Las configuraciones más estables de un sistema se encuentran generalmente en fosas profundas, abismos de la mecánica cuántica de los que los átomos y las moléculas generalmente no escapan.

En un artículo reciente de Nature Communications, el equipo de investigación presentó una forma de delimitar la «zona segura» de una red neuronal mediante «ataques contradictorios». Se han estudiado los ataques contradictorios para otras clases de problemas, como la clasificación de imágenes, pero esta es la primera vez que se utilizan para muestrear geometrías moleculares en un PES.

“Durante años, la gente ha estado utilizando la incertidumbre para el aprendizaje activo en potenciales ML. La diferencia clave es que tienen que ejecutar la simulación ML completa y evaluar si NN era confiable y, de no ser así, adquirir más datos, reentrenar y volver a simular. Esto significa que se necesita mucho tiempo para encontrar el modelo correcto y hay que ejecutar la simulación ML muchas veces ”, explica Gómez-Bombarelli.

El laboratorio Gómez-Bombarelli del MIT trabaja en una síntesis sinérgica de simulación de primeros principios y aprendizaje automático que acelera enormemente este proceso. Las simulaciones reales se realizan solo para una pequeña fracción de estas moléculas, y todos esos datos se introducen en una red neuronal que aprende a predecir las mismas propiedades para el resto de las moléculas. Han demostrado con éxito estos métodos para una clase creciente de nuevos materiales que incluyen catalizadores para producir hidrógeno a partir de agua, electrolitos poliméricos más baratos para vehículos eléctricos, zeolitas para tamices moleculares, materiales magnéticos y más.

El desafío, sin embargo, es que estas redes neuronales son tan inteligentes como los datos en los que están entrenados. Teniendo en cuenta el mapa de PES, el 99 por ciento de los datos podrían caer en un pozo, perdiendo por completo los valles que son de mayor interés.

Tales predicciones erróneas pueden tener consecuencias nefastas; piense en un automóvil autónomo que no puede identificar a una persona que cruza la calle.

Una forma de averiguar la incertidumbre de un modelo es ejecutar los mismos datos en varias versiones del mismo.

Para este proyecto, los investigadores utilizaron múltiples redes neuronales para predecir la superficie de energía potencial a partir de los mismos datos. Cuando la red confía lo suficiente en la predicción, la variación entre las salidas de diferentes redes es mínima y las superficies convergen ampliamente. Cuando la red es incierta, las predicciones de los diferentes modelos varían ampliamente, produciendo un rango de salidas, cada una de las cuales podría ser la superficie correcta.

La extensión en las predicciones de un «comité de redes neuronales» es la «incertidumbre» en ese punto. Un buen modelo no solo debe indicar el mejor pronóstico, sino también la incertidumbre acerca de cada uno de estos pronósticos. Es como si la red neuronal dijera «esta propiedad del material A tendrá un valor de X y estoy muy seguro de ello».

Esta podría haber sido una solución elegante si no fuera por la inmensidad del espacio combinatorio. «Cada simulación (que es la potencia de tierra para la red neuronal) puede requerir decenas a miles de horas de CPU», explica Schwalbe-Koda. Para que los resultados sean significativos, es necesario ejecutar varios modelos en un número suficiente de puntos en el PES, un proceso que lleva mucho tiempo.

En cambio, el nuevo enfoque solo muestrea puntos de datos de regiones de baja confianza en la predicción, correspondientes a geometrías específicas de una molécula. Luego, estas moléculas se estiran o deforman ligeramente para maximizar la incertidumbre del comité de la red neuronal. Se calculan datos adicionales para estas moléculas a través de simulaciones y luego se agregan al grupo de entrenamiento inicial.

Las redes neuronales se vuelven a entrenar y se calcula un nuevo conjunto de incertidumbres. Este proceso se repite hasta que la incertidumbre asociada con los diversos puntos de la superficie se vuelve bien definida y no se puede reducir más.

Gómez-Bombarelli explica: «Aspiramos a tener un modelo perfecto en las regiones que nos interesan (es decir, las que visitará la simulación) sin tener que ejecutar la simulación ML completa, asegurándonos de hacerlo muy bueno en regiones de alta probabilidad donde No lo es.»

El artículo presenta varios ejemplos de este enfoque, incluida la predicción de interacciones supramoleculares complejas en zeolitas. Estos materiales son cristales cavernosos que actúan como tamices moleculares con una alta selectividad de forma. Encuentran aplicaciones en catálisis, separación de gases e intercambio iónico, entre otros.

Dado que ejecutar simulaciones de grandes estructuras de zeolita es muy costoso, los investigadores muestran cómo su método puede proporcionar ahorros significativos en simulaciones computacionales. Utilizaron más de 15.000 ejemplos para entrenar una red neuronal para predecir superficies de energía potencial para estos sistemas. A pesar del alto costo involucrado en la generación del conjunto de datos, los resultados finales son mediocres, con solo alrededor del 80% de las simulaciones basadas en redes neuronales teniendo éxito. Para mejorar el rendimiento del modelo utilizando métodos tradicionales de aprendizaje activo, los investigadores calcularon 5.000 puntos de datos adicionales, lo que aumentó el rendimiento de los potenciales de la red neuronal al 92 por ciento.

Sin embargo, cuando se usa el enfoque contradictorio para reentrenar las redes neuronales, los autores vieron un aumento del 97 por ciento en el rendimiento usando solo 500 puntos adicionales. Este es un logro notable, dicen los investigadores, especialmente considerando que cada uno de estos puntos adicionales requiere cientos de horas de CPU.

Este puede ser el método más realista para probar los límites de los modelos que utilizan los investigadores para predecir el comportamiento de los materiales y el curso de las reacciones químicas.