Los datos sintéticos son la alternativa segura y económica a los datos reales que necesitamos

Los datos sintéticos son la alternativa segura y económica a los datos reales que necesitamos

octubre 2, 2022 0 Por RenzoC


Contenido proporcionado por IBM y TNW.

Los bebés aprenden a hablar escuchando a otros humanos, principalmente a sus padres, haciendo sonidos repetidamente. Lentamente, a través de la repetición y la búsqueda de patrones, los bebés comienzan a relacionar estos sonidos con su significado. A través de mucha práctica, eventualmente logran producir sonidos similares que los humanos que los rodean pueden entender.

Los algoritmos de aprendizaje automático funcionan de la misma manera, pero en lugar de tener unos pocos padres para copiar, utilizan datos, minuciosamente categorizados por miles de humanos que tienen que mirar manualmente los datos y decirle a la máquina lo que significan.

Saludos humanoides

Suscríbase a nuestro boletín ahora para recibir un resumen semanal de nuestras historias favoritas de IA en su bandeja de entrada.

Sin embargo, este proceso tedioso y lento no es el único problema con los datos del mundo real que se utilizan para entrenar algoritmos de aprendizaje automático.

Tomar detección de fraude en siniestros de seguros. Para que un algoritmo distinga con precisión un caso de fraude de reclamos legítimos, necesita ver ambos. Miles y miles de ambos. Y debido a que los sistemas de inteligencia artificial a menudo son proporcionados por terceros, por lo tanto, no son administrados por la propia compañía de seguros, estos terceros deben tener acceso a todos estos datos confidenciales. Ya ve a dónde lleva esto, porque lo mismo ocurre con los registros médicos y los datos financieros.

Más esotéricos pero igualmente inquietantes son todos los algoritmos entrenados sobre texto, imágenes y video. Además de los problemas de derechos de autor, muchos creadores han expresado su desacuerdo con que su trabajo sea absorbido por un conjunto de datos para formar una máquina que posiblemente podría hacerse cargo de (parte de) su trabajo. Y eso suponiendo que sus creaciones no sean racistas o problemáticas, lo que a su vez podría conducir a lanzamientos problemáticos.

Además, ¿qué sucede si simplemente no hay suficientes datos disponibles para entrenar una IA para todas las eventualidades? En un informe de RAND Corporation de 2016, los autores calcularon cuántas millas tendría que viajar “una flota de 100 vehículos autónomos que conducen las 24 horas del día, los 365 días del año, a una velocidad promedio de 25 millas por hora” para demostrar que su falla (resultando en muerte o lesiones) fue significativamente menor que la de los humanos. Su respuesta ? 500 años y 11 mil millones de millas.

No es necesario ser un genio superinteligente para darse cuenta de que el proceso actual no es el ideal. Entonces, ¿qué podemos hacer? ¿Cómo podemos crear suficientes datos que sean amigables con la privacidad, no problemáticos, que cubran todas las eventualidades y que estén etiquetados con precisión? Lo has adivinado: más IA.

Los datos falsos pueden ayudar a las IA a procesar datos reales

Incluso antes del informe RAND, estaba muy claro para las empresas que trabajan en la conducción autónoma que lamentablemente no estaban equipadas para recopilar suficientes datos para entrenar algoritmos de manera confiable para conducir de manera segura en todas las condiciones o circunstancias.

Tomemos como ejemplo a Waymo, la empresa de vehículos autónomos de Alphabet. En lugar de confiar únicamente en sus vehículos del mundo real, crearon un mundo completamente simulado, donde los autos simulados con sensores simulados podían conducir sin parar, recopilando datos reales en su ruta simulada. Según la compañía, en 2020 había recopilado datos sobre 15 mil millones de millas de conducción simulada, en comparación con unos miserables 20 millones de millas de conducción en el mundo real.

Cada vez más métodos de producción de datos sintéticos están ganando terreno.

En la jerga de la IA, esto se denomina datos sintéticos, o «datos aplicables a una situación dada que no se obtienen mediante medición directa», si desea ser técnico. O menos técnicamente: las IA producen datos falsos para que otras IA puedan aprender sobre el mundo real a un ritmo más rápido.

Un ejemplo es Task2Sim, un modelo de IA construido por MIT-IBM Watson AI Lab que crea datos sintéticos para clasificar clasificadores. En lugar de enseñarle al clasificador a reconocer un objeto a la vez, el modelo crea imágenes que pueden usarse para enseñar múltiples tareas. La escalabilidad de este tipo de modelo hace que la recopilación de datos consuma menos tiempo y sea menos costosa para las empresas ávidas de datos.

Además de eso, Rogerio Feris, investigador de IBM y coautor del artículo Task2Sim, dijo:

La belleza de las imágenes sintéticas es que puede controlar su configuración: el fondo, la iluminación y la posición de los objetos.

Gracias a todas las preocupaciones enumeradas anteriormente, la producción de todo tipo de datos sintéticos se ha disparado en los últimos años, con docenas de nuevas empresas en el campo floreciendo y cosechando cientos de millones de dólares en inversiones.

Los datos sintéticos generados van desde «datos humanos» como registros financieros o de salud hasta imágenes sintetizadas de una amplia gama de rostros humanos, hasta conjuntos de datos más abstractos como datos genómicos, que imitan la estructura del ADN.

Cómo crear datos falsos reales

Esta generación de datos sintéticos ocurre de varias maneras, la más común y bien establecida de las cuales se denomina GAN o Generative Adversarial Networks.

En una GAN, dos IA compiten. Una IA produce un conjunto de datos sintéticos, mientras que la otra intenta establecer si los datos generados son auténticos. La retroalimentación de este último regresa en el primer «entrenamiento» para volverse más preciso en la producción de datos falsos convincentes. Probablemente haya visto uno de los muchos sitios web de this-X-does-not-exist, que van desde personas hasta gatos y edificios, que generan sus imágenes basadas en GAN.

Los datos sintéticos pueden dar a los jugadores más pequeños la oportunidad de cambiar el rumbo.

Últimamente han ganado terreno otros métodos de producción de datos sintéticos. Los primeros se conocen como modelos de difusión, en los que las IA se entrenan para reconstruir ciertos tipos de datos mientras se agrega más y más ruido (datos que corrompen gradualmente los datos de entrenamiento) a los datos del mundo real. Eventualmente, la IA puede recibir datos aleatorios, que vuelve a trabajar en un formato en el que se entrenó originalmente.

Los datos falsos son como datos reales sin, bueno, realidad

Los datos sintéticos, en cualquier forma en que se produzcan, ofrecen una serie de ventajas muy tangibles sobre el uso de datos del mundo real. En primer lugar, es más fácil recolectar mucho más, porque no tienes que depender de los humanos para crearlo. En segundo lugar, los datos sintéticos están perfectamente etiquetados, por lo que no es necesario depender de centros de datos que requieren mucha mano de obra para etiquetar (a veces incorrectamente) los datos. En tercer lugar, puede proteger la privacidad y los derechos de autor porque los datos son, bueno, sintéticos. Y finalmente, y quizás lo más importante, puede reducir los resultados sesgados.

Dado que la IA desempeña un papel cada vez más importante en la tecnología y la sociedad, las expectativas de datos sintéticos son bastante optimistas. Gartner ha estimado que el 60 % de los datos de entrenamiento serán datos sintéticos para 2024. El analista de mercado Cognilytica ha valorado el mercado de generación de datos sintéticos en 110 millones de dólares en 2021 y 1150 millones de dólares en 2027.

Los datos han sido llamados el activo más valioso en la era digital. La gran tecnología se basó en montañas de datos de usuarios que le dieron una ventaja sobre los competidores más pequeños en el espacio de la IA. Los datos sintéticos pueden dar a los jugadores más pequeños la oportunidad de cambiar el rumbo.

Como era de esperar, la gran pregunta con los datos sintéticos es sobre la llamada fidelidad, o qué tan bien coincide con los datos del mundo real. El jurado aún está deliberando sobre esto, pero la investigación parece mostrar que la combinación de datos sintéticos con datos reales produce resultados estadísticamente sólidos. Este año, los investigadores del MIT y del MIT-IBM AI Watson Lab demostraron que un clasificador de imágenes entrenado previamente con datos sintéticos en combinación con datos reales funcionó tan bien como un clasificador de imágenes entrenado exclusivamente con datos reales.

En general, los semáforos sintéticos y reales parecen estar verdes para el dominio futuro de los datos sintéticos en el entrenamiento de modelos de IA más seguros y amigables con la privacidad, y con eso, un posible futuro de IA más inteligente para nosotros está en el horizonte.