¿Qué significa el enfoque europeo de IA para GPT y DALL-E?

¿Qué significa el enfoque europeo de IA para GPT y DALL-E?

septiembre 19, 2022 0 Por RenzoC


La explosión global de la IA ha reforzado la necesidad de una metodología de sentido común centrada en el ser humano para administrar la propiedad y la privacidad de los datos. El Reglamento General Europeo de Protección de Datos (GDPR) lidera el camino, pero hay más que información de identificación personal (PII) en juego en el mercado moderno.

¿Qué pasa con los datos que generamos como contenido y arte? Ciertamente, no es legal copiar el trabajo de otra persona y luego presentarlo como propio. Pero hay sistemas de IA que intentan tachar tanto contenido generado por humanos como sea posible de la web para generar contenido similar.

¿Puede el RGPD o cualquier otra política centrada en la UE proteger este tipo de contenido? En última instancia, como la mayoría de las cosas en el mundo del aprendizaje automático, se trata de datos.

Confidencialidad vs Propiedad

Saludos humanoides

Suscríbase a nuestro boletín ahora para recibir un resumen semanal de nuestras historias favoritas de IA en su bandeja de entrada.

El objetivo principal del RGPD es proteger a los ciudadanos europeos contra acciones y consecuencias dañinas relacionadas con el mal uso, abuso o explotación de su información privada. No es muy útil para los ciudadanos (u organizaciones) cuando se trata de proteger la propiedad intelectual (PI).

Desafortunadamente, las políticas y regulaciones implementadas para proteger la propiedad intelectual, hasta donde sabemos, no están equipadas para cubrir el raspado y anonimización de datos. Esto hace que sea difícil entender exactamente dónde se aplican las regulaciones cuando se trata de extraer contenido de la web.

Estas técnicas, y los datos que obtienen, se utilizan para crear bases de datos masivas para entrenar grandes modelos de IA, como los sistemas GPT-3 y DALL-E 2 de OpenAI.

La única forma de enseñar a una IA a imitar a los humanos es exponerla a datos generados por humanos. Y cuantos más datos introduzca en un sistema de IA, más robusto tiende a ser su salida.

Funciona así: imagina que haces un dibujo de una flor y lo publicas en un foro en línea para artistas. Usando técnicas de raspado, un equipo de tecnología absorbe su imagen junto con miles de millones de otras para crear un conjunto de datos masivo de obras de arte. La próxima vez que alguien le pida a la IA que genere una imagen de una «flor», existe una posibilidad mayor que cero de que su trabajo aparezca en la interpretación de la indicación por parte de la IA.

Si tal uso sería ético sigue siendo una pregunta abierta.

Datos públicos versus PII

Si bien se podría decir que la supervisión regulatoria del RGPD es importante cuando se trata de proteger la información privada y dar a los europeos la derecho a borrar, aparentemente hace muy poco para proteger el contenido de los arañazos. Sin embargo, esto no significa que el RGPD y otras regulaciones de la UE sean completamente ineficaces en este sentido.

Las personas y las organizaciones deben seguir reglas muy específicas para eliminar la PII, para que no infrinjan la ley, lo que puede resultar bastante costoso.

Por ejemplo, se vuelve casi imposible para Clearview AI, una empresa que construye bases de datos de reconocimiento facial para uso del gobierno por raspado datos de redes sociales, para hacer negocios en Europa. Los organismos de control de la UE de al menos siete países ya impusieron fuertes multas o recomendaron multas por el incumplimiento de la empresa con el RGPD y regulaciones similares.

En el otro lado del espectro, empresas como Google, OpenAI y Meta emplean raspado de datos practica directamente o mediante la compra o el uso de conjuntos de datos recuperados para muchos de sus modelos de IA sin ninguna repercusión. Y, aunque la gran tecnología se ha enfrentado a una buena cantidad de multas en Europa, muy pocas infracciones han implicado el raspado de datos.

¿Por qué no prohibir el raspado?

Rascarse, a primera vista, puede parecer una práctica con demasiado potencial de abuso como para prohibirla por completo. Sin embargo, para muchas organizaciones que dependen del raspado, los datos obtenidos no son necesariamente «contenido» o «PII», sino información que puede servir al público.

Nos hemos puesto en contacto con la agencia de gestión de privacidad de datos del Reino Unido, la Oficina del Comisionado de Información (ICO), para averiguar cómo regularon las técnicas de extracción y los conjuntos de datos de Internet, y para comprender por qué era tan importante no regular en exceso.

Un portavoz de ICO le dijo a TNW:

El uso de la información disponible públicamente puede traer muchos beneficios, desde la investigación hasta el desarrollo de nuevos productos, servicios e innovaciones, incluso en el campo de la IA. Sin embargo, cuando esta información son datos personales, es importante comprender que se aplica la ley de protección de datos. Se da el caso de que las técnicas utilizadas para recolectar los datos involucran scraping u otra cosa.

En otras palabras, se trata más del tipo de datos utilizados que de cómo se recopilan.

Ya sea que esté copiando y pegando imágenes de perfiles de Facebook o utilizando el aprendizaje automático para raspar la web en busca de imágenes etiquetadas, corre el riesgo de violar el RGPD y otras normas de privacidad de la UE si está creando un motor de reconocimiento facial sin el consentimiento de las personas cuyos rostros están en línea. . su base de datos.

Pero, en general, está bien buscar en Internet grandes cantidades de datos, siempre y cuando anonimizarlo o asegúrese de que no haya PII en el conjunto de datos.

Otras áreas grises

Sin embargo, incluso en los casos de uso permitidos, todavía hay áreas grises que se relacionan con la información privada.

GPT-2 y GPT-3, por ejemplo, son conocido por producir ocasionalmente PII en forma de direcciones, números de teléfono y otra información que aparentemente está integrada en su corpus a través de conjuntos de datos de entrenamiento a gran escala.

Aquí, donde es obvio que la compañía detrás de GPT-2 y GPT-3 está tomando medidas para mitigar esto, GDPR y regulaciones similares están haciendo su trabajo.

En pocas palabras, podemos optar por no entrenar grandes modelos de IA o dar a las empresas que los entrenan la capacidad de explorar casos extremos y tratar de mitigar las preocupaciones.

Lo que podría ser necesario es un GDUR, un Reglamento General de Uso de Datos, algo que podría brindar pautas claras sobre cómo el contenido generado por humanos puede usarse legalmente en grandes conjuntos de datos.

Como mínimo, parece que vale la pena tener una conversación sobre si los ciudadanos europeos deberían tener tanto derecho a que el contenido que crean se elimine de los conjuntos de datos como sus selfies e imágenes de perfil. .

Por ahora, en el Reino Unido y el resto de Europa, parece que el derecho a borrar solo se extiende a nuestra PII. Es probable que cualquier cosa que pongamos en línea termine en el conjunto de datos de entrenamiento de alguna IA.