
El impacto potencialmente adverso de Twitter 2.0 en la comunicación científica y de investigación
diciembre 27, 2022En poco más de un mes después del cambio en el liderazgo de Twitter, ha habido cambios significativos en la plataforma de redes sociales, en su nuevo “Twitter 2.0”. versión. Para los investigadores que utilizan Twitter como fuente principal de datos, incluidos muchos de los científicos informáticos del Instituto de Ciencias de la Información (ISI) de la USC, los efectos podrían ser debilitantes.
Datos por Días con Twitter 1.0
A lo largo de los años, Twitter ha sido extremadamente amigable con los investigadores, brindando y manteniendo una API (interfaz de programación de aplicaciones) robusta específicamente para la investigación académica. La API de Twitter para investigación académica permite a los investigadores con objetivos específicos que están afiliados a una institución académica recopilar conjuntos de datos históricos y en tiempo real de tweets y metadatos relacionados, sin costo alguno. Actualmente, la API de Twitter para investigación académica continúa funcionando y manteniéndose en Twitter 2.0.
Los datos obtenidos de la API proporcionan un medio para observar conversaciones públicas y comprender las opiniones de las personas sobre problemas sociales. Luca Luceri, investigador asociado postdoctoral en ISI, calificó a Twitter como «una plataforma principal para observar la discusión en línea relacionada con temas políticos y sociales». Y Twitter promociona su API para investigación académica como una forma para que «los investigadores académicos utilicen datos de la conversación pública para estudiar temas tan diversos como la conversación en Twitter».
Sin embargo, si las personas continúan desactivando sus cuentas de Twitter, lo que parece ser el caso, la composición de la base de usuarios cambiará, con conjuntos de datos y estudios relacionados afectados proporcionalmente. Esto es especialmente cierto si la base de usuarios evoluciona de una manera que la hace ideológicamente más homogénea y menos diversa.
Según MIT Technology Review, en la primera semana después de su transición, Twitter puede haber perdido un millón de usuarios, lo que se traduce en un aumento del 208 % en las cuentas perdidas. Y también existe la preocupación de que el sitio no pueda funcionar con la misma eficacia debido a la disminución sustancial del tamaño de los equipos de ingeniería. Esto incluye preocupaciones sobre la durabilidad del servicio en el que los investigadores confían para obtener datos, a saber, la API de Twitter. Jason Baumgartner, fundador de Pushshift, una plataforma de recopilación, análisis y archivo de datos de redes sociales, dijo en varias solicitudes API recientes, su equipo también vio un aumento significativo en las tasas de error, en el rango de 25-30%, cuando normalmente ven tasas cerca del 1%. Aunque por ahora esto es anecdótico, deja a los investigadores preguntándose si podrán confiar en los datos de Twitter para futuras investigaciones.
Un ejemplo de cómo podría modificarse significativamente la composición de la base de usuarios de Twitter 2.0 menos regulada es si los grupos marginados abandonan Twitter a un ritmo más alto que la base de usuarios general, por ejemplo, debido al aumento del discurso de odio. Keith Burghardt, un científico informático de ISI que estudia el discurso de odio en línea, dijo: “No es que una red social poco regulada cambie las opiniones de las personas, sino que hace que las personas se expresen mucho más. Así que probablemente verás mucho más contenido que es odioso”. De hecho, un estudio de la Universidad Estatal de Montclair encontró que el discurso de odio en Twitter se disparó en la semana posterior a la adquisición de Twitter.
El tipo de investigación en riesgo
En el Instituto de Ciencias de la Información de la USC, muchos científicos realizan investigaciones utilizando datos obtenidos de la API de Twitter para Investigación Académica.
Katy Felkner, asistente de investigación graduada en ISI, estudia inteligencia artificial y modelos de lenguaje. Usó conjuntos de datos de Twitter para reducir el sesgo anti-queer en la IA entrenando un modelo de lenguaje grande usando tweets escritos por miembros de la comunidad LGBTQ+. Además, descubrió que los tweets de miembros de la comunidad LGBTQ+ eran mejores para mitigar el sesgo que los tweets de fuera de esa comunidad sobre temas LGBTQ+. Presentó su artículo resultante en el taller Queer in AI en la conferencia del Capítulo de América del Norte de la Asociación de Lingüística Computacional (NAACL) en julio de 2022.
Felkner explicó por qué Twitter es tan importante para su trabajo: «Si obtienes datos de las noticias, solo obtienes las historias que se consideran de interés periodístico y algunas perspectivas sobre cada historia, mientras que Twitter está muy democratizado y hay una baja barrera de entrada para un conjunto diverso de participantes. También es muy público, ya que la mayoría de los usuarios tienen sus tweets como públicos. La API de Twitter [for Academic Research] muestras de todos los tweets en la plataforma en un momento determinado. Entonces, cualquiera que haga un tweet en el momento X sobre el tema Y tiene alguna probabilidad de ser incluido en un conjunto de datos al respecto”.
Felkner señaló que, además de todo eso, «es como la última plataforma de redes sociales basada en texto que queda». Facebook tiene texto, pero no hay muchos datos públicos; Instagram está basado en fotos; mientras que TikTok es todo videos. Felkner agregó que «la extracción de datos utilizables de videos e imágenes suele ser difícil y, por lo tanto, prohibitivamente costosa en un entorno de investigación».
Kristina Lerman, científica principal de ISI, se centra en la aplicación de métodos basados en redes y aprendizaje automático a problemas de computación social. Actualmente tiene varios proyectos que utilizan datos de Twitter. En un proyecto, Lerman y su equipo intentan identificar la manipulación social y las campañas de influencia en las redes sociales. Ella explicó: “Estamos usando datos de Twitter para ver cómo los actores maliciosos podrían estar coordinando para afectar la opinión pública de una forma u otra”.
En otros estudios, ella y Burghardt están usando Twitter para identificar los factores que impulsan la desinformación o las actitudes contrarias a la ciencia. Lerman dijo: “Estamos recopilando datos de Twitter para caracterizar la ideología política y cuánta información errónea o contenido anticientífico están tuiteando las personas, para tratar de comprender las raíces de la información errónea y descubrir quién es susceptible a ella”. Esto complementa el trabajo de Burghardt, quien ayudó a desarrollar un método para predecir el sentimiento antivacunas en Twitter, un problema que probablemente empeorará ahora que la política de desinformación de vacunas de Twitter ya no se aplica.
En otro proyecto más, está analizando la identidad de género y cómo las personas responden y hablan con personas de diferentes géneros. Lerman dice: “En Twitter, la gente tiene cierta información de perfil; pueden expresar sus pronombres preferidos. Entonces, a diferencia de otros sitios como Reddit, por ejemplo, donde la información del perfil sobre la identidad del usuario no se revela tanto, confiamos en alguna funcionalidad que es específica de Twitter sobre cómo las personas pueden expresarse y cuánto otros pueden interactuar con ellos. , con base en la expresión de su identidad”.
Dada la naturaleza cambiante de Twitter en este momento, Lerman y su equipo se encuentran en una situación un poco precaria. Ella exclamó: “¡Estábamos discutiendo esta mañana sobre cómo es mejor que nos apresuremos y recopilemos todos los datos!”. Ella dio un ejemplo: “En un proyecto, estamos tratando de entender cómo se comunican las autoridades de COVID. Qué tipo de estrategias de mensajería utilizan y cómo responde la gente a eso. Así que estamos tratando de darnos prisa y recopilar todas las respuestas a las autoridades de COVID mientras podamos”.
Luceri está estudiando cómo se propaga la desinformación en Twitter y qué se puede hacer para evitarlo. “Un proyecto en el que estamos trabajando actualmente está relacionado con la comprensión de cómo los usuarios de Twitter son susceptibles de manera diferente a la desinformación, las teorías de conspiración y los daños en línea en general. En uno de nuestros artículos recientes, tratamos de entender cómo las personas se radicalizan con ciertas conspiraciones, como QAnon”.
El equipo quiere detectar actividades engañosas y no auténticas, pero también ver cómo pueden proteger a los usuarios de ellas. Luceri dijo: “Queremos entender cómo los usuarios de Twitter lidian con las noticias falsas, la desinformación y la teoría de la conspiración, y quiénes son los usuarios más vulnerables”.
Pero no pueden hacer eso sin los datos. Explicó: «La posibilidad de que no tengamos datos, por supuesto, es un problema, porque nuestro trabajo aprovecha los conjuntos de datos de Twitter y también se diseñó para descubrir cosas que podrían ser útiles para Twitter». Luceri ofreció varios detalles sobre el trabajo que está haciendo: “Buscamos revelar la efectividad de las políticas de moderación, mientras observamos el compromiso de los usuarios con el contenido dañino. Nuestros hallazgos pueden informar a los proveedores de redes sociales, reguladores y legisladores para formular estrategias para contrarrestar la circulación de teorías de conspiración e información errónea en las redes sociales. Por ejemplo, entender quiénes son los usuarios más vulnerables podría permitir que Twitter sepa cómo tratar con estos usuarios y probablemente no los exponga a todos estos ataques”.
Impactos más allá de los conjuntos de datos
Jonathan May, líder del equipo de investigación de ISI, estudia y enseña procesamiento de lenguaje natural (NLP), un subcampo de IA que se ocupa de cómo las computadoras entienden el lenguaje humano.
May descubrió que Twitter es útil profesionalmente más allá de los conjuntos de datos: «la conversación internacional sobre la PNL ha tenido lugar en gran medida en Twitter». Hizo referencia a una conversación literal de 2018 que pasa a la historia de Twitter de la PNL: el mega hilo de significado/semántica. Puesta en marcha por Jacob Andreas, profesor asistente del MIT, quien tuiteó sobre la capacidad de los modelos de PNL para comprender el significado, generó un torbellino de debate académico y una discusión significativa en la comunidad de PNL. De hecho, fue un hilo tan notable que se ha escrito y diagramado. May dijo: “Las conversaciones de Twitter tienden a ser abiertas, por lo que las grandes conversaciones abiertas tienen lugar allí”.
En la posible ausencia de Twitter tal como lo conocíamos, May dijo que discusiones como estas podrían encontrar un nuevo hogar. “Hay muchos espacios esencialmente equivalentes. Por ejemplo, Mastodon tiene una naturaleza un poco más descentralizada”. Varios investigadores de ISI mencionaron a Mastodon como una alternativa académica de Twitter. La renombrada publicación Science informó que muchos académicos actualmente tienen sus ojos puestos en Mastodon, una plataforma de redes sociales gratuita y descentralizada que tiene una función de microblogging similar a Twitter.
May continuó: “Creo que cualquier espacio de redes sociales lo suficientemente expresivo podría hacerlo. Es solo una especie de cuestión de llegar a un consenso que evolucionará naturalmente en función de, ¿quién sabe? – lo que sea que permitió que Twitter se convirtiera en Twitter”.