Pasar al contenido principal
Martes, 24 Octubre 2023

Posibles audios creados por IA llegan a las elecciones regionales, ¿qué tan factible es identificarlos?

Por Jhoandry Suárez

En redes sociales circulan grabaciones supuestamente de los candidatos Alejandro Eder y Carlos Fernando Galán. Se sospecha que fueron creados con IA. En este explicador intentamos dar luces sobre este tema, cuyo mayor reto es la falta de herramientas para identificar cuando son audios fakes.

A las elecciones regionales previstas para el 29 de octubre se les sumó un ingrediente de desinformación que ha encendido las alarmas de los candidatos y sus campañas: los posibles audios falsos, de los que se sospecha fueron creados a partir de inteligencia artificial (IA). Esto les ocurrió a los aspirantes a la Alcaldía de Bogotá, Carlos Fernando Galán, y a la de Cali, Alejandro Éder. 

En redes sociales, el fin de semana pasado comenzó a correr la supuesta grabación de una llamada de WhatsApp en la que se escucha al aspirante del Nuevo Liberalismo en la capital de la República decir que se había reunido en la Casa de Nariño con el presidente, Gustavo Petro, y su contrincante de la coalición Pacto Histórico, Gustavo Bolívar. “Funcionó el pago y la inflada de las encuestas. La gente se la creyó. Eso nos va a poner a Bolívar y a mí en segunda vuelta, según el plan”, asevera (1, 2, 3, 4, 5).

El candidato por el Nuevo Liberalismo de inmediato desmintió el audio, asegurando que se había corrido “la línea ética” y se trataba de una simulación con inteligencia artificial “para decir cosas que nunca he dicho”.

 

Una situación similar se presentó con Éder, quien busca llegar a la administración caleña por firmas y coavalado por partidos (Conservador, Cambio Radical, Colombia Renaciente y Nuevo Liberalismo). De él, circuló una grabación en la que supuestamente se muestra a favor de instalar en la capital vallecaucana una “zona piloto de diálogos con el ELN como lo hice en la Habana con las FARC” (1, 2). 

El candidato también desmintió el audio. “No puedo creer lo tramposa que esta gente. Han sacado un audio hecho por Inteligencia Artificial que suena a mi voz, diciendo unas barbaridades de hacer un piloto de paz en Cali que jamás he hecho esta propuesta”, dijo.

A estos audios se le suma otro audio, usado en un video de la campaña de Dannis Rentería, candidato por el Pacto Histórico a la Alcaldía de Cali. Al final aparece una voz muy similar a la del presidente Gustavo Petro que dice: “ahora le toca al pueblo de Cali con Danis Rentería votar y apoyar directamente este proyecto”.

La Silla Vacía publicó que “la junta directiva de la Colombia Humana en Cali sacó un comunicado regañando al candidato por el uso de “una voz simulada”. Y le pide a la campaña que rectifique y aclare que la voz no es la del presidente”. Aunque se indicó que “no hay claridad si la campaña usó a un imitador del presidente o si utilizó una inteligencia artificial”.

 

Ante la aparición de este nuevo elemento desinformador en tiempo electoral, en Colombiacheck elaboramos este explicador que busca dar luces sobre los audios de WhatsApp aparentemente creados por inteligencia artificial. Estos son considerados actualmente el mayor reto en el campo de las desinformaciones generadas con IA por las dificultades para identificarlos.

Este artículo se suma a otros que hemos publicado a raíz de desinformaciones electorales detectadas en formato de audio, como la vez que un comediante imitó la voz del candidato a la Alcaldía de Medellín por Creemos, Federico ‘Fico’ Gutiérrez, para decir que no había ido a un debate por estar en las Fiestas de la Pereza, en Itagüí.

¿Qué identificamos en los audios de Galán y Éder?

Al analizar los presuntos audios de Galán y Éder con ayuda del físico, periodista de datos y magíster en sistemas complejos adaptativos (matemáticas detrás de la IA) Alejandro Lozada, el especialista indicó que en estas grabaciones hay indicios que resultan sospechosos. 

En el caso de Galán, llamó la atención a que se pueden escuchar pausas torpes y las respiraciones en momentos incorrectos. De hecho, si se escucha con detenimiento la supuesta grabación del político bogotano, se puede percibir que casi no hace pausas para respirar y, pese a ello, parece que le falta el aire. 

Sin embargo, Lozada puntualizó que los audios se escuchan muy realistas; aunque agregó que un elemento de contexto a considerar es por qué en el caso de Galán es tan obvio y descriptivo al hablar de una aparente conspiración. “Eso de que ‘la gente se lo creyó’, que hay una conspiración (…) Casi le faltó decir ‘yo Galán soy una mala persona”, sugirió.

Un detalle sobre el audio atribuido al aspirante a la Alcaldía de Bogotá es que surgió de una cuenta de TikTok llamada @jaz.santana2, la cual ya no existe, no sabemos si se debe a que la plataforma la eliminó o porque el propietario la borró.

Igualmente pudimos detectar que el audio circuló en X (antes Twitter), TikTok e Instagram, entre el 21 y 22 de octubre (1, 2, 3, 4, 5). Uno de los primeros usuarios que lo difundió en X fue @Cardonagar87, un usuario antipetrista, que lo publicó el sábado 21 de octubre a las 3:05 p.m. y recibió más de 16.000 visualizaciones, mientras que en TikTok, el mismo día (aunque no se puede establecer la hora, pues la plataforma no lo muestra) fue publicado por el usuario @user8123478597386.

Al candidato por el Nuevo Liberalismo se le ha tratado de presentar en reiteradas oportunidades como el candidato del petrismo desde que está en campaña, incluso, con el supuesto audio de Galán algunos tuiteros hicieron eco de esa narrativa (1, 2, 3, 4, 5).

En cuanto al audio de Eder, llama la atención el ruido de fondo que no permite escuchar muy bien sus palabras. De acuerdo con una guía de nuestros aliados de Newtral, cuando la voz se escucha de mala calidad, esto puede ser indicio de uso de IA. No obstante, es difícil determinar si así fue o se trata de frases extraídas y manipuladas de otras entrevistas o intervenciones del aspirante caleño.

Este audio además fue publicado a las 4:06 p.m. del 20 de octubre de 2023 por la página de Facebook Actualidad Política Valle del Cauca con el mensaje: “Se filtra Audio de Alejandro Eder quiere convertir a cali zona de negociación con el ELN, Cali se respeta señor. 😡”.  Esta página de Facebook ya había publicado desinformaciones contra el candidato, como lo contamos en la verificación ‘Así se movió desinformación acerca de que RCN confirmó alianza entre Jorge Iván Ospina y Alejandro Eder’. 

En la nota contamos que dicha página, (creada en febrero pasado) publicó dicha desinformación con imágenes sacadas de contexto para hablar de una supuesta alianza entre Éder y el alcalde de Cali, Jorge Iván Ospina, y pautó un video en el que aparecen varios montajes de imágenes de Éder y Ospina. El video incluye una canción de salsa choke contra Eder.

También fue publicado, a las 4:05 p.m. de ese mismo día, en la página de Facebook Chismecitos Cali, creada en abril de este año y en el que también se publican ataques contra Eder.

Los deepfakes de audios: cuando una voz dice lo que no dijiste

Lozada nos explicó que los audios creados con IA, también llamados deepfakes de audio, se pueden generar a partir de grabaciones de voz de una persona con herramientas tanto gratuitas como pagas en internet. El problema (y lo alarmante a su vez para expertos y organizaciones) radica en que cada vez se vuelve más sencillo, rápido y accesible la creación de estas producciones.

“Antes tocaba enviar como una muestra de audio a la persona de 20 minutos, media hora, y el resultado sonaba un poco robótico. Ahora, con una muestra de un minuto es suficiente. Entonces se abren mucho las puertas para que cualquier persona que hable en internet pueda ver su voz en uno de estos modelos”, señaló. 

Reconoció que no solo se puede generar un discurso con la voz de la persona, sino también cambiarla y ponerla en otro idioma, con su propio tono y acento. 

Esto ha tenido empleos legítimos, como en el funcionamiento de lectores de pantalla o el reemplazo de actores de voz con su autorización. Pero también se usa con fines perjudiciales, como la simulación del pronunciamiento de un político en temas sensibles, citas falsas de celebridades o falsas canciones de artistas, entre otros. 

Sin embargo, cómo se analizó en la nota del New York Times ‘Obama y conductores de noticieros falsos: cómo los audios de IA invaden TikTok’, “la tecnología utilizada para crear voces de inteligencia artificial ha ganado terreno y una gran aclamación desde que empresas como ElevenLabs lanzaron una serie de nuevas herramientas a fines del año pasado. Desde entonces, las falsificaciones de audio se han convertido con rapidez en una nueva arma en el campo de batalla de la desinformación en línea, la cual amenaza con potenciar la desinformación política antes de las elecciones de 2024, pues les dará a los creadores una forma de poner sus teorías conspirativas en boca de celebridades, presentadores de noticias y políticos”.

En otros de los casos han sido usados en estafas. En la nota ‘Voces clonadas con IA: nueva tecnología para un viejo fraude’, publicada en agosto pasado por nuestros colegas españoles de Newtral, se explica que este 2023 “varios medios han recogido casos de delitos mediante llamadas en las que se utilizó IA para clonar la voz. Dos ‘secuestros’ virtuales en Canadá fueron reportados por el Washington Post; CNN cubrió el terror de una madre en Arizona y El Comercio ha contado hasta 55 casos de estafas en Perú. La Comisión Federal de Comercio de Estados Unidos (FTC) emitió una alerta en marzo y constató que los fraudes de suplantación de personas, que siempre han existido, han aumentado en ese país”. 

Posibles audios fakes entran a la contienda electoral en otros países

El  impacto de los audios generados con inteligencia artificial se han experimentado en varios países durante este año con un repunte del uso de estas grabaciones para ensuciar a políticos. Aquí algunos casos:

- Estados Unidos: En febrero circuló un video con un audio manipulado del presidente de ese país, Joe Biden, haciendo comentarios transfóbicos, lo cual se cree buscaba afectar la imagen del mandatario entre los votantes que apoyan los derechos de los estadounidenses transgénero. 

Más tarde, en octubre, se difundió en TikTok una publicación en la que escuchaba al expresidente Barack Obama, o una voz como la suya, defendiéndose de una teoría de conspiración sobre la muerte repentina de su exchef. “Aunque no puedo comprender la base de las acusaciones formuladas en mi contra”, dice el audio, “insto a todos a recordar la importancia de la unidad, la comprensión y no precipitarse a emitir juicios”.

En ambos casos se dijo que aparentemente fueron manipulaciones con IA. 

- Reino Unido: En este país europeo se viralizó en octubre una grabación de voz supuestamente del líder del Partido Laborista, el opositor Keir Starmer, en la que insulta repetidamente a un empleado. Este audio apareció precisamente en visperas de las elecciones generales británicas pautadas para 2024. 

Aunque no está claro si el contenido es real, generado por IA o fue grabado con un imitador, la organización británica de verificación de datos Full Fact ha dicho que está investigando.

- Eslovaquia: un escándalo se desató cuando se conoció un audio en Facebook presuntamente del líder del partido opositor Eslovaquia Progresista, Michal Šimečka, hablando de sus planes para manipular las elecciones. Nuestros colegas de AFP, pese a que no pudieron confirmar que era falso, determinaron que mostraba signos de manipulación (1, 2).

- Nigeria: en las elecciones nigerianas en febrero de este año, el Partido Democrático Popular (PDP) denunció que circulaba un clip de audio manipulado por IA que vinculaba a su candidato presidencial, Atiku Abubakar, con planes para alterar las votaciones.

¿Se puede detectar en un 100 % un audio creado con IA?

Se debe aclarar en principio que no existe una herramienta confiable para comprobar si un audio proviene de alguna aplicación de inteligencia artificial y en esto coinciden expertos y activistas. 

“Por el momento las herramientas que tenemos para evaluar la autenticidad de los medios digitales (audios y videos) son limitadas y a menudo inexactas”, señala Casey Newton, periodista de tecnología y anfitrión del podcast Hard Fork (The New York Times). 

Sam Gregory, director ejecutivo de Witness, un grupo de derechos humanos que se centra en la tecnología, puntualiza que hasta ahora no hay un estándar compartido para agregar marcas de agua o señales de procedencia de un audio deepfake generado por inteligencia artificial, solo esfuerzos de empresas individuales. “No sirve de nada tener una herramienta para detectar si el contenido es generado por una empresa cuando la misma herramienta daría un falso negativo sobre el audio falso creado por una de las muchas otras herramientas en el mercado”, explica. 

Lozada, especialista en sistemas involucrados en IA, está de acuerdo en que hoy día es difícil determinar mediante alguna aplicación si un audio se generó de forma artificial. A su juicio, la única manera sería que las empresas le pongan algún tipo de firma estadística a los archivos que sea imperceptible para los humanos, pero reconocible para una máquina que ayude a establecer si se originó con IA. 

Esto es precisamente lo que desarrolló la compañía Resemble con “PerTh”, un proceso de marca de agua para sus audios. "Hemos desarrollado una capa adicional de seguridad que utiliza modelos de aprendizaje automático para incrustar paquetes de datos en el contenido de voz que generamos y recuperar dichos datos en un momento posterior. Debido a que los datos son imperceptibles, aunque están estrechamente acoplados a la información del habla, son difíciles de eliminar y proporcionan una forma de verificar si Resemble generó un clip determinado”, indica en su blog. 

Pero, entonces, ¿todo está perdido? ¿No hay forma de encontrar rasgos que me ayuden a decidir si un audio se trata de una simulación de IA? No, hay ciertos indicios para reconocer un audio falso. El portal de verificación Newtral señala los siguientes:

  • Mala calidad del audio. Cuestiónate, ¿por qué no puedes escuchar bien lo que la persona dice?
  • La naturalidad de la voz. Cuando el audio es sintético, en frases largas con pocos signos de puntuación suelen tener más dificultades para decirlas con la misma naturalidad humana. “Dependiendo del contexto, los humanos no entonamos las preguntas de la misma manera, o en frases largas hacemos paradas para coger aire que a menudo los sistemas automáticos no resuelven con la misma naturalidad”, explicó a Newtral Aitor Álvarez, responsable del Grupo de Tecnologías del Habla en Vicomtech,
  • Detalla características: compara el tiempo que duran las vocales en el audio y la fuerza con la que se pronuncian ciertas consonantes, como la “D”, con otra grabación pública de la misma persona a la que se le atribuye.

Lozada también propone hacerse preguntas relacionadas con el contexto como:

  • ¿Lo que la persona dice va acorde con lo que sabes de ella?
  • ¿A quién le conviene este audio?
  • ¿Por qué me llega este audio? (sobre todo, cuestionarse esto si se está en tiempo de elecciones).
  • ¿Esto lo tendrá algún medio? 
  • ¿Lo habrá verificado alguien?

“Más allá de pensar en una herramienta donde uno pone el audio y mira si es falso, hoy toca mirar una serie de indicadores adicionales”, concluye el investigador. 

La IA refuerza la desinformación en Internet

En su reciente informe Freedom on the Net 2023, la organización Freedom House, abocada a temas libertad y democracia, dedicó todo un apartado al efecto de las herramientas inteligencia artificial en una escalada de tácticas de desinformación.  

“Incluso si los deepfakes son obviamente inventados o rápidamente expuestos como tales, aún contribuyen a un espacio de información en decadencia. Pueden socavar la confianza pública en los procesos democráticos, incentivar a activistas y periodistas a autocensurarse y ahogar la información confiable e independiente”, advierte. 

A su juicio, las imágenes generadas por IA que sensacionalizan la indignación por ciertos temas podrían aumentar la polarización y otras tensiones en las sociedades. Incluso, podrían generar violencia contra individuos o comunidades. 

“El impacto de la desinformación generada por la IA se profundizará a medida que la calidad y cantidad de la producción de la tecnología continúe superando la capacidad de los observadores, moderadores o reguladores para detectarla, desacreditarla o eliminarla”, alerta. 

La organización subraya que, así como un número limitado de empresas cuenta con los recursos financieros y computacionales necesarios para desarrollar sistemas de inteligencia artificial utilizando modelos de lenguaje grandes y complejos, pocos gobiernos tienen la capacidad regulatoria y los conocimientos técnicos para diseñar reglas sólidas que controlen el despliegue de la IA generativa.