Los algoritmos de aprendizaje de idiomas corren el riesgo de reforzar las desigualdades y la fragmentación social

Los algoritmos de aprendizaje de idiomas corren el riesgo de reforzar las desigualdades y la fragmentación social

abril 27, 2022 0 Por RenzoC

El uso de modelos de lenguaje extenso podría transformar muchas facetas de la vida moderna, incluida la forma en que los formuladores de políticas evalúan el sentimiento público sobre la legislación pendiente, cómo los pacientes evalúan su atención médica y cómo los científicos pueden traducir los hallazgos de la investigación a través de los idiomas.

Sin embargo, una nueva investigación de la Universidad de Michigan encuentra que si bien existe un gran potencial para que estos algoritmos de aprendizaje automático beneficien a la sociedad, probablemente podrían reforzar las desigualdades, gravar el medio ambiente y colocar aún más poder en manos de los gigantes tecnológicos.

Los modelos de lenguaje grande, o LLM, pueden reconocer, resumir, traducir, predecir y generar lenguajes humanos sobre la base de conjuntos de datos basados ​​en texto muy grandes, y es probable que proporcionen la imitación del lenguaje humano generada por computadora más convincente hasta el momento.

Un informe del Proyecto de Evaluación de Tecnología en el programa de Ciencia, Tecnología y Políticas Públicas (STPP) en la Escuela de Políticas Públicas Gerald R. Ford plantea preocupaciones sobre las muchas formas en que los LLM pueden causar resultados profundamente negativos.

El informe, “¿Qué hay en el Chatterbox? Large Language Models, Why They Matter, and What We Should Do About Them, anticipa el cambio social transformador que podrían producir:

  • Debido al panorama de desarrollo concentrado y la naturaleza de los conjuntos de datos LLM, las nuevas tecnologías no representarán adecuadamente a las comunidades marginadas. Es probable que minimicen y tergiversen sistemáticamente estas voces mientras amplían las perspectivas de los que ya son poderosos.
  • El procesamiento LLM ocurre en centros de datos físicos, que requieren cantidades masivas de recursos naturales. La construcción de centros de datos ya está dañando desproporcionadamente a las poblaciones marginadas.
  • Los LLM acelerarán la sed de datos de las empresas tecnológicas, se integrarán rápidamente en la infraestructura de información existente, reorganizarán el trabajo y la experiencia, reforzarán la desigualdad y aumentarán la fragmentación social.

“Nuestro análisis muestra que los LLM podrían empoderar a las comunidades y democratizar el conocimiento, pero en este momento es poco probable que logren este potencial. Los daños pueden mitigarse, pero no sin nuevas reglas y regulaciones sobre cómo se crean y utilizan estas tecnologías”, dijo la directora de STPP, Shobita Parthasarathy, profesora de política pública.

El informe utiliza el método de estudio de caso analógico para analizar el desarrollo y la adopción de LLM, al examinar la historia de tecnologías pasadas similares, en términos de forma, función e impacto, para anticipar las implicaciones de las tecnologías emergentes. STPP fue pionero en este método en informes anteriores sobre tecnologías de reconocimiento facial en escuelas K-12 y dudas sobre las vacunas.

«Las tecnologías se pueden implementar ampliamente y luego las consecuencias negativas pueden tardar años en corregirse. Los LLM presentan muchos de los mismos problemas de equidad, ambientales y de acceso que hemos visto en casos anteriores ”, dijo Johanna Okerlund, becaria postdoctoral de STPP y coautora del informe.

Los LLM son mucho más grandes que sus predecesores de inteligencia artificial, tanto en términos de las cantidades masivas de datos que los desarrolladores usan para entrenarlos como de los millones de patrones de palabras complejos y asociaciones que contienen los modelos. Son más avanzados que los esfuerzos anteriores de procesamiento del lenguaje natural porque pueden completar muchos tipos de tareas sin estar específicamente capacitados para cada una, lo que hace que cualquier LLM sea ampliamente aplicable.

Numerosos factores crean las circunstancias para la inequidad incorporada, según el informe.

«Los LLM requieren enormes recursos en términos de finanzas, infraestructura, personal y recursos computacionales, incluidos 360 000 galones de agua por día y un uso inmenso de electricidad, infraestructura y materiales de tierras raras», dice el informe.

Solo un puñado de empresas tecnológicas pueden permitirse construirlos, y es probable que su construcción suponga una carga desproporcionada para las comunidades ya marginadas. Los autores también dicen que les preocupa «porque es probable que el diseño de LLM distorsione o devalúe las necesidades de las comunidades marginadas… Los LLM en realidad podrían alienarlos aún más de las instituciones sociales».

Los investigadores también señalan que la gran mayoría de los modelos se basan en textos en inglés y, en menor medida, en chino.

“Esto significa que es poco probable que los LLM logren sus objetivos de traducción (incluso desde y hacia el inglés y el chino) y serán menos útiles para aquellos que no dominan el inglés o el chino”, dice el informe.

Un ejemplo de la utilidad del método de estudio de caso analógico es examinar cómo el sesgo racial ya está integrado en muchos dispositivos médicos, incluido el espirómetro, que se utiliza para medir la función pulmonar: «La tecnología considera la raza en su evaluación de la función pulmonar ‘normal’, falsamente asumiendo que las personas negras naturalmente tienen una función pulmonar más baja que sus contrapartes blancas, y haciéndoles más difícil acceder al tratamiento».

«Esperamos escenarios similares en otros dominios, como la justicia penal, la vivienda y la educación, donde es probable que los prejuicios y la discriminación consagrados en textos históricos generen consejos que perpetúen las desigualdades en la asignación de recursos», dice el informe.
“La sed de datos de los LLM pondrá en peligro la privacidad, y los métodos habituales para establecer el consentimiento informado ya no funcionarán.

“Debido a que recopilan enormes cantidades de datos, los LLM probablemente podrán triangular fragmentos de información desconectada sobre individuos, incluido el estado de salud mental u opiniones políticas, para desarrollar una imagen completa y personalizada de personas reales, sus familias o comunidades. En un mundo con LLM, el método habitual para la recopilación ética de datos, el consentimiento informado individual, ya no tiene sentido «y puede pasar a métodos poco éticos de recopilación de datos para diversificar los conjuntos de datos.

Los LLM afectarán a muchos sectores, pero el informe se sumerge profundamente en uno para brindar un ejemplo: cómo influirán en la investigación y la práctica científica. Los autores sugieren que las editoriales académicas, que poseen la mayoría de las publicaciones de investigación, construirán sus propios LLM y los utilizarán para aumentar su poder de monopolio.

Mientras tanto, los investigadores deberán desarrollar protocolos estándar sobre cómo analizar los conocimientos generados por los LLM y cómo citar los resultados para que otros puedan replicar los resultados. Es probable que la investigación científica cambie a encontrar patrones en big data en lugar de establecer relaciones causales. Y los sistemas de evaluación científica que se basan en LLM probablemente no podrán identificar trabajos verdaderamente novedosos, una tarea que ya es bastante difícil para los seres humanos.
Dados estos posibles resultados, los autores sospechan que los científicos llegarán a desconfiar de los LLM.

El informe concluye con recomendaciones de política, que incluyen:

  • Regulación del gobierno de EE. UU. de LLM, incluida una definición clara de lo que constituye un LLM, protocolos de evaluación y aprobación basados ​​​​en contenido y algoritmos, y mecanismos de seguridad, supervisión y quejas.
  • Regulación de apps que utilizan LLMs.
  • Estándares nacionales o internacionales que analizan la diversidad, el rendimiento, la transparencia, la precisión, la seguridad y el sesgo de los conjuntos de datos, así como la protección de los derechos de autor de las invenciones y obras artísticas generadas por LLM.
  • Métodos para garantizar la seguridad y la privacidad personal al implementar LLM, particularmente entre las poblaciones vulnerables.
  • Asesores gubernamentales a tiempo completo en las dimensiones sociales y de equidad de la tecnología, incluido un «Director de derechos humanos en tecnología».
  • Evaluaciones ambientales de nuevos centros de datos que evalúan los impactos en los precios de los servicios públicos locales, las comunidades marginadas locales, los derechos humanos en la minería de minerales y el cambio climático.
  • Evaluar los riesgos para la salud, la seguridad y psicológicos que los LLM y otras formas de inteligencia artificial crean para los trabajadores, por ejemplo, reorientándolos hacia tareas más complejas y a menudo inseguras, y desarrollando una respuesta a la consolidación laboral que probablemente sean los LLM y la automatización en general. crear.
  • Un llamado a la Fundación Nacional de Ciencias para aumentar sustancialmente su financiación para el desarrollo de LLM, con un enfoque en los impactos ambientales, sociales y de equidad de los LLM.

El informe también describe recomendaciones específicas para la comunidad científica y un Código de conducta para desarrolladores.

“Tanto los LLM como los desarrolladores de aplicaciones deben reconocer sus responsabilidades públicas y tratar de maximizar los beneficios de estas tecnologías mientras minimizan los riesgos”, escribieron los autores.

COMENTARIOS: Háganos saber lo que piensa a través de Twitter o Facebook