Los intentos de estafas que usan grabaciones de voz manipuladas, o audio ‘deepfakes‘, empiezan a ser comunes, pero todavía tienen una barrera que sortear para ser verdaderamente eficaces: capturar el tono de la persona que suplantan, pero también sus gestos específicos en el habla.

La compañía de ciberseguridad Nisos ha analizado una muestra de audio ‘deepfake’ enviada a un empleado de una empresa tecnológica como mensaje de voz, que se hacía pasar por una orden del CEO de la misma compañía. En su análisis, han descubierto que la grabación se escuchaba entrecortada y «no era consistente con una grabación de voz humana similar».
De hecho, según explica en su blog oficial, cuando modificaron la velocidad de reproducción a 1.2, detectaron que sonaba como un sistema estándar que traslada el texto a voz y que carecía de ruido de fondo. Cosa que no ocurre en una grabación real de voz humana.
¿Por qué falló?
En este caso, el intento de estafa falló por no ser una manipulación de audio realista; para ello, señalan, se debería haber cogido una muestra de voz de alta calidad con poco o ningún ruido de fondo.
Asimismo, el audio sintéticamente manipulado debe enviarse en un escenario realista -tono de la persona que habla, el ruido de fondo y el motivo de la llamada-. Si no, la potencial víctima puede llamar al interlocutor para contrastar el audio. En este caso, avisan que las técnicas de audio ‘deepfake’ no están todavía lo suficientemente avanzadas como para soportar una conversación larga.
El envío del mensaje de audio, además, debe hacer de tal forma que se evite tener una conversación en persona.
Sigue leyendo: El reto de las estafas mediante audio deepfake: replicar con realismo la voz humana sin olvidar la ingeniería social
[+] Videos de nuestro canal de YouTube