
Uso del aprendizaje automático para predecir enfermedades raras
febrero 5, 2023Los biobancos, bases de datos con información genética y de salud, ofrecen a los investigadores la capacidad de explorar enfermedades y estudiar las contribuciones de la genética y el medio ambiente a la trayectoria de la enfermedad. Estas investigaciones nos han permitido sacar conclusiones sobre factores que van desde la relación entre la dieta y la enfermedad hasta el tamaño del hogar y la gravedad de la COVID, lo que ha brindado información valiosa para guiar a investigadores, médicos y pacientes por igual.
Pero los biobancos son tan útiles como la cantidad y la calidad de los datos que contienen. La información incompleta suele ser un problema en los conjuntos de datos de los pacientes, explica Lu Yang, estudiante de doctorado de Stanford. «Podríamos saber que el paciente ha sido tratado por diabetes tipo II, por ejemplo», dice Yang, «pero si nunca ha sido tratado en el hospital en un entorno de hospitalización, el término ‘diabetes tipo II’ puede faltar en su fecha.” Esta información faltante es una barrera importante para los investigadores que realizan estudios de enfermedades y buscan patrones que podrían conducir a nuevos avances.
Para abordar este problema, Yang colaboró con el reciente estudiante postdoctoral de Stanford Sheng Wang y Russ Altman, director asociado de Stanford HAI y profesor de bioingeniería, genética, medicina, ciencia de datos biomédicos y, por cortesía, informática, para crear un modelo que puede predecir un conjunto completo de códigos de diagnóstico, también llamados códigos de fenotipo, para todos los pacientes en el Biobanco del Reino Unido. Este banco tiene los datos de medio millón de participantes del Reino Unido, incluidos pacientes con enfermedades raras. Al crear POPDx, un marco de aprendizaje automático para el reconocimiento de enfermedades, el equipo de investigación creó un modelo que, según Yang, «produce probabilidades de que una persona pueda tener ciertas enfermedades o códigos de fenotipo».
De hecho, POPDx supera a los modelos existentes en la predicción de enfermedades comunes y raras, incluidas enfermedades que no están presentes en los datos de entrenamiento. Este es un hallazgo significativo, según Altman. “Si bien la mayoría de los enfoques de aprendizaje automático que usan redes neuronales profundas requieren mucho entrenamiento, nos complació mucho que nuestro enfoque que utiliza conocimientos previos como texto y taxonomía nos permitiera reconocer algunas enfermedades en nuestro conjunto de prueba, aunque nunca las habíamos visto antes. entrenando. Esto es importante porque, si bien hay datos sustanciales en medicina, no están a la misma escala que las grandes empresas de TI, por lo que es fundamental que desarrollemos métodos que puedan funcionar con datos escasos y que funcionen lo suficientemente bien como para ayudar a los pacientes con enfermedades poco comunes. .”
Datos reales de pacientes reales
Al embarcarse en esta investigación, Yang consideró el trabajo previo del segundo autor Wang sobre la clasificación de las células. En esa investigación, Wang usó Cell Ontology para predecir un solo tipo de célula correcto para todas las células en el conjunto de prueba. Yang quería adoptar un enfoque similar para POPDx, pero para enfermedades. «Pensé que sería genial aprovechar de manera similar las relaciones de las enfermedades en la ontología de enfermedades humanas para abordar el reconocimiento de enfermedades». Si bien la investigación de Wang fue un problema de clasificación de uno contra todos en el que solo se predijo un tipo de célula, Yang necesitaba múltiples etiquetas. “Cada paciente puede tener múltiples enfermedades, por lo que lo abordamos como un tipo de problema de múltiples etiquetas y múltiples clasificaciones”, dice ella.
Otra diferencia clave en el trabajo de Yang es la amplitud de la información que utilizó. El modelo POPDx analiza una gran cantidad de datos de pacientes, desde información demográfica y cuestionarios de pacientes hasta exámenes médicos y datos de EHR. Incluso extrae información de datos físicos y pruebas de laboratorio. “Antes de esto, la mayoría de los modelos existentes necesitaban conjuntos de datos bien seleccionados, lo que significa que es posible que no puedan analizar la gran cantidad de características que podemos analizar con nuestro trabajo”, dice. La gran escala del trabajo de Yang se tradujo directamente en la amplia gama de códigos de enfermedades que el modelo podía predecir. “Por lo general, la investigación será específica para un determinado dominio, como la enfermedad cardíaca, por lo que solo observarán la información o los códigos relevantes. Pero para nuestro estudio tratamos de generar un perfil completo de los participantes del Biobanco del Reino Unido”.
Predicción de enfermedades a pesar de pequeños conjuntos de datos
El modelo POPDx funciona buscando relaciones entre los datos del paciente y la información de la enfermedad, utilizando el procesamiento del lenguaje natural y la ontología de enfermedades humanas para tomar decisiones probabilísticas. “El mayor desafío para el modelo proviene de enfermedades que no vemos en el entrenamiento o para las que tenemos pocos datos. Como sabemos, la mayoría de los modelos de ML se basan en grandes conjuntos de datos, pero algunas de estas enfermedades no tienen datos”, dice Yang.
El sólido rendimiento de POPDx con datos limitados o incluso sin datos es extremadamente poderoso, lo que evita la necesidad de grandes conjuntos de datos. Yang pudo mejorar la AUPRC (métrica de precisión para el modelo) para enfermedades raras y no vistas en un 218 % y un 151 %. Según Yang, esto significa que si un equipo clínico necesita identificar pacientes con una enfermedad de baja prevalencia, “nuestro modelo en promedio aumentará la posibilidad de encontrar estos casos positivos. Antes tenían que pasar por un gran número de pacientes en el Biobanco, pero ahora pueden cribar un número mucho menor para encontrar posibles casos”. La capacidad de POPDx para reconocer enfermedades raras proporciona un mejor punto de partida para los médicos e investigadores que buscan estudiar esas enfermedades.
Un desafío que señaló Yang fue el sesgo demográfico del Biobanco del Reino Unido, que es 56% femenino y mayoritariamente blanco, y tiene una edad promedio de 71 años. Pero la falta de diversidad en el biobanco se relaciona menos con los datos que con el amplio acceso a la atención médica. “El problema es que si alguien no tiene acceso a la atención médica, no tenemos sus datos”, dice Yang. Los investigadores abordaron esta preocupación mediante la introducción de información de fondo sobre la jerarquía y la relación entre enfermedades, lo que dio un impulso al modelo cuando se trata de enfermedades desconocidas. Yang cree que esta estrategia también puede haber agregado algo de aleatoriedad al modelo y mitigado el sesgo. La esperanza de Yang es que haya más infraestructura en el futuro para permitir la integración de datos en múltiples biobancos, lo que permitirá conjuntos de datos más diversos.
El futuro de la predicción de enfermedades
Mientras mira hacia el futuro, Yang está interesada en un análisis de series de tiempo de los datos del paciente, que analizaría no solo la probabilidad de tener una enfermedad, sino también cuándo en su vida un paciente podría tenerla. Otra vía posible es la integración de datos de fenotipo y genotipo en el modelo, lo que daría a los investigadores una perspectiva aún más completa sobre las enfermedades que la que tienen ahora. Cualquiera que sea el siguiente paso, Yang se compromete a construir modelos inclusivos que funcionen para todos. “Ya sea un paciente o un investigador, el acceso a los datos es fundamental”, dice Yang.
La misión de Stanford HAI es promover la investigación, la educación, las políticas y la práctica de la IA para mejorar la condición humana. Aprende más.