Investigadores del MIT han creado una inteligencia artificial capaz de deducir cómo es el rostro de un individuo a partir de una grabación de su voz. Este algoritmo de aprendizaje automático, llamado Speech2Face, fue entrenado usando millones de clips de audio de más de 100.000 personas, muchas de ellas procedentes de vídeos educativos de YouTube.

Imagen por Radu Bercan vía Shutterstock
Según explican los investigadores, esta máquina inteligente utiliza esa amplia base de datos para determinar el vínculo existente entre las señales vocales y determinados rasgos faciales. Ambas variables vienen determinadas por factores como la edad, el sexo, la estructura ósea de la nariz, la forma de la boca o el tamaño de los labios.
El funcionamiento del algoritmo gira en torno al uso de dos componentes: un codificador y un decodificador. El codificador extrae y guarda el espectrograma de las ondas de audio, reconociendo una serie de características clave en esa lectura. El decodificador, en base a las características mencionadas, genera una imagen del rostro, representado de frente y con gesto neutro. Por supuesto, cuanto más tiempo los algoritmos permanecen escuchando una voz humana, más sencillo será para la inteligencia artificial adivinar el rostro de alguien.
Pero Speech2Face no puede hacer milagros: aunque, al basarse en imágenes, sus representaciones son fotorrealistas, también son demasiado genéricas como para soñar con identificar a una persona específica a partir de escuchar su voz.
[+] Videos de nuestro canal de YouTube