Una IA famosa ha aprendido un nuevo truco: cómo hacer química

Una IA famosa ha aprendido un nuevo truco: cómo hacer química

junio 19, 2022 0 Por RenzoC


La inteligencia artificial ha cambiado la forma en que se practica la ciencia al permitir que los investigadores analicen las cantidades masivas de datos generados por los instrumentos científicos modernos. Puede encontrar una aguja en un millón de montones de información y, a través del aprendizaje profundo, puede aprender de los propios datos. La IA está acelerando el progreso en la investigación genética, la medicina, el diseño de fármacos y la creación de compuestos orgánicos.

El aprendizaje profundo utiliza algoritmos, a menudo redes neuronales entrenadas en grandes cantidades de datos, para extraer información de nuevos datos. Es muy diferente de la informática tradicional con sus instrucciones paso a paso. Más bien, aprende de los datos. El aprendizaje profundo es mucho menos transparente que la programación informática tradicional, lo que deja preguntas importantes: ¿qué ha aprendido el sistema, qué sabe?

Como profesor de química, me gusta diseñar exámenes con al menos una pregunta desafiante que amplíe el conocimiento de los estudiantes para determinar si pueden combinar diferentes ideas y sintetizar nuevas ideas y conceptos. Diseñamos esa pregunta para el cartel de los defensores de la IA, AlphaFold, que resolvió el problema del plegamiento de proteínas.

plegamiento de proteínas

Saludos humanoides

Suscríbase a nuestro boletín ahora para recibir un resumen semanal de nuestras historias favoritas de IA en su bandeja de entrada.

Las proteínas están presentes en todos los organismos vivos. Estructuran células, catalizan reacciones, transportan pequeñas moléculas, digieren alimentos y mucho más. Están formados por largas cadenas de aminoácidos como cuentas en un hilo. Pero para que una proteína haga su trabajo en la célula, debe retorcerse y doblarse en una estructura tridimensional compleja, un proceso llamado plegamiento de proteínas. Las proteínas mal plegadas pueden provocar enfermedades.

En su discurso de aceptación del Premio Nobel de Química en 1972, Christiaan Anfinsen postuló que debería ser posible calcular la estructura tridimensional de una proteína a partir de la secuencia de sus componentes básicos, los aminoácidos.

Así como el orden y el espaciado de las letras en este artículo le dan significado y mensaje, el orden de los aminoácidos determina la identidad y la forma de la proteína, lo que se traduce en su función.

un gráfico que muestra una línea filiforme a la izquierda y una estructura enrollada a la derecha
Dentro de los milisegundos de una cadena de aminoácidos (izquierda) que sale del ribosoma, se pliega en la forma 3D de menor energía (derecha) necesaria para que la proteína funcione.
marca zimmerCC BY-ND

Debido a la flexibilidad inherente de los bloques de construcción de aminoácidos, una proteína típica puede adoptar aproximadamente 10 a la potencia de 300 formas diferentes. Este es un número enorme, más que el número de átomos en el universo. Sin embargo, en un milisegundo, cada proteína de un organismo se plegará en su propia forma específica: la disposición de energía más baja de todos los enlaces químicos que componen la proteína. Cambie solo un aminoácido de los cientos de aminoácidos que se encuentran típicamente en una proteína y puede plegarse mal y dejar de funcionar.

plegado alfa

Durante 50 años, los científicos informáticos han intentado resolver el problema del plegamiento de proteínas, con poco éxito. Luego, en 2016, DeepMind, una subsidiaria de inteligencia artificial de Alphabet, la empresa matriz de Google, lanzó su programa AlphaFold. Usó la base de datos de proteínas como un conjunto de entrenamiento, que contiene las estructuras determinadas experimentalmente de más de 150.000 proteínas.

En menos de cinco años, AlphaFold ha conquistado el problema del plegamiento de proteínas, al menos la parte más útil, es decir, determinar la estructura de la proteína a partir de su secuencia de aminoácidos. AlphaFold no explica cómo se pliegan las proteínas con tanta rapidez y precisión. Esta fue una gran victoria para la IA, porque no solo ganó un enorme prestigio científico, sino que también fue un gran avance científico que podría afectar la vida de todos.

Hoy, gracias a programas como AlphaFold2 y RoseTTAFold, los investigadores como yo podemos determinar la estructura tridimensional de las proteínas a partir de la secuencia de aminoácidos que componen la proteína, sin costo alguno, en una hora o dos. Antes de AlphaFold2, teníamos que cristalizar proteínas y resolver estructuras usando cristalografía de rayos X, un proceso que tomaba meses y costaba decenas de miles de dólares por estructura.

Ahora también tenemos acceso a la base de datos de estructuras de proteínas AlphaFold, donde Deepmind ha depositado las estructuras 3D de casi todas las proteínas que se encuentran en humanos, ratones y más de otras 20 especies. Hasta la fecha, han resuelto más de un millón de estructuras y planean agregar otras 100 millones de estructuras solo este año. El conocimiento de las proteínas se ha disparado. Se espera que la estructura de la mitad de todas las proteínas conocidas esté documentada para fines de 2022, incluidas muchas estructuras nuevas únicas asociadas con nuevas funciones útiles.

Piensa como un químico

AlphaFold2 no fue diseñado para predecir cómo las proteínas interactuarían entre sí, pero fue capaz de modelar cómo las proteínas individuales se combinan para formar unidades grandes y complejas formadas por múltiples proteínas. Teníamos una pregunta difícil para AlphaFold: ¿Su conjunto de entrenamiento estructural le enseñó algo de química? ¿Podría decir si los aminoácidos reaccionarían entre sí, un evento raro pero importante?

Soy un químico computacional interesado en proteínas fluorescentes. Estas son proteínas presentes en cientos de organismos marinos como medusas y corales. Su brillo se puede utilizar para iluminar y estudiar enfermedades.

dos gotas multicolores con líneas luminosas en el interior sobre un fondo negro
Las neuronas que expresan proteínas fluorescentes revelan las estructuras cerebrales de dos larvas de mosca de la fruta.
Wen Lu y Vladimir I. Gelfand, Facultad de Medicina Feinberg, Universidad Northwestern

Hay 578 proteínas fluorescentes en la base de datos de proteínas, 10 de las cuales están «rotas» y no emiten fluorescencia. Las proteínas rara vez se atacan a sí mismas, un proceso llamado modificación postraduccional autocatalítica, y es muy difícil predecir qué proteínas reaccionarán consigo mismas y cuáles no.

Solo un químico con una cantidad significativa de conocimientos sobre proteínas fluorescentes podría usar la secuencia de aminoácidos para encontrar proteínas fluorescentes que tengan la secuencia de aminoácidos correcta para sufrir las transformaciones químicas necesarias para hacerlas fluorescentes. Cuando le presentamos a AlphaFold2 las secuencias de 44 proteínas fluorescentes que no están en la base de datos de proteínas, plegó las proteínas fluorescentes adjuntas de manera diferente a las rotas.

un diagrama que muestra una bombilla a la izquierda y el tallo único de una bombilla a la derecha
AlphaFold2 puede tomar la secuencia de aminoácidos de proteínas fluorescentes (letras superiores) y predecir sus formas de barril 3D (centro). No es sorprendente. Lo que es totalmente inesperado es que también puede predecir qué proteínas fluorescentes están «rotas» y no pueden volverse fluorescentes.
marca zimmerCC BY-ND

El resultado nos sorprendió: AlphaFold2 había aprendido un poco de química. Había descubierto qué aminoácidos en las proteínas fluorescentes hacen la química que las hace brillar. Sospechamos que el conjunto de entrenamiento de la base de datos de proteínas y las múltiples alineaciones de secuencias permiten que AlphaFold2 «piense» como químicos y busque los aminoácidos necesarios para reaccionar entre sí para producir la proteína fluorescente.

Un programa que integre el aprendizaje de la química de su conjunto de entrenamiento también tiene implicaciones más amplias. Al hacer las preguntas correctas, ¿qué más se puede obtener de otros algoritmos de aprendizaje profundo? ¿Podrían los algoritmos de reconocimiento facial encontrar marcadores ocultos de enfermedades? ¿Podrían los algoritmos diseñados para predecir los hábitos de gasto de los consumidores también encontrar una propensión a los pequeños robos o engaños? Y lo más importante, ¿es deseable esta habilidad, y saltos de habilidad similares en otros sistemas de IA?La conversación

Este artículo de Marc Zimmer, profesor de química, Connecticut College, se vuelve a publicar de The Conversation bajo una licencia Creative Commons. Lea el artículo original.