Cómo funciona el sistema que reconstruye el rostro desde la voz

(Por Eduardo Aguirre) Una pregunta recurrente tanto en charlas de café como en ámbitos académicos es ¿hasta dónde pueden llegar los desarrollos tecnológicos tales como machine learning e inteligencia artificial? La respuesta es cada vez más difícil de imaginar. 

Image description
Image description

Es que logros propios del cine y la literatura han abandonado el mundo de la ficción y hoy son realidades tangibles.

Uno de los más recientes y asombrosos ejemplos es Speech2Face, el sistema desarrollado por investigadores del MIT (Massachusetts Institute of Technology) que permite reconstruir el rostro de una persona con solo escuchar algunos segundos de su voz, tal como podés ver en el video que acompaña esta nota.

En la publicación en la cual expusieron los resultados de la investigación los seis responsables afirmaron: ¿Cuánto podemos inferir sobre la apariencia de una persona por la forma en que habla?
En este artículo, estudiamos la tarea de reconstruir una imagen facial de una persona a partir de una breve grabación de su voz hablando. Diseñamos y entrenamos una red neuronal profunda para realizar esta tarea utilizando millones de videos naturales de personas que hablan en sitios como YouTube. Durante la capacitación, nuestro modelo aprende sobre los rostros de las personas y sus correlaciones de voz. Esto le permite producir imágenes que capturan varios atributos físicos de los hablantes, como la edad, el género y la etnia. Esto se hace de manera auto-supervisada, utilizando la co-ocurrencia natural de rostros y habla en videos de Internet, sin la necesidad de modelar los atributos explícitamente. Nuestras reconstrucciones, obtenidas directamente del audio, revelan las correlaciones entre caras y voces. Evaluamos y cuantificamos numéricamente cómo, y de qué manera, nuestras reconstrucciones del audio de Speech2Face se asemejan a las verdaderas imágenes faciales de los altavoces.

Desde luego este tipo de experimentos conllevan un dilema ético al cual los investigadores no le rehúyen. “Aunque se trata de una investigación puramente académica, creemos que es importante discutir explícitamente en el documento un conjunto de consideraciones éticas debido a la posible sensibilidad de la información facial”, sostienen al abrir ese capítulo y añaden que el modelo informático no puede recuperar la verdadera identidad de una persona (es decir, una imagen exacta de su rostro). Esto se debe a que está capacitado para capturar características visuales (relacionadas con la edad, el género, etnia, etc.) que son comunes a muchas personas, y solo en los casos en que existe evidencia lo suficientemente sólida como para conectar esas características visuales con los atributos. Como tal, el modelo solo producirá caras de apariencia promedio, con características visuales que se correlacionan con el habla de entrada. No producirá imágenes de individuos específicos.

Los científicos utilizaron en el momento de la prueba para las reconstrucciones de rostros segmentos de voz de entrada de 3 segundos y 6 segundos respectivamente (en ambos casos usamos el mismo modelo). Como se observa en la imagen que acompaña esta nota, con una mayor duración del habla las caras reconstruidas capturan mejor los atributos faciales. Por cierto, en algunos casos, los resultados obtenidos son realmente asombrosos.

¿Qué más podrán lograr estas tecnologías de redes neuronales? No hay límites a la vista.

El paper completo con los resultados de la experiencia está aquí.

Tu opinión enriquece este artículo:

Los colegios privados ya definieron sus aranceles 2025 (cuánto cuesta ir al La Salle, San Pedro Apóstol, San Patricio y Mark Twain)

(Por Rocío Vexenat) ¿Cuánto cuesta la educación top en Córdoba? Con cuotas que superan el medio millón de pesos, matrículas aparte y servicios adicionales, la educación bilingüe y de alto nivel sigue marcando tendencia en la ciudad. ¿Querés saber cuánto cuesta enviar a tus hijos a los colegios más exclusivos? Te lo cuento todo en esta nota.

Con esta solución te llegan 992,5 dólares de cada 1.000 que tenés en Paypal (cómo funciona LB Finanzas)

La fintech argentina LB Finanzas presentó una nueva solución para que los trabajadores remotos del país puedan recibir pagos del exterior y transferir su dinero a Argentina con el mejor tipo de cambio. Se trata de su servicio de Cuenta Bancaria en Estados Unidos, una opción impulsada por la billetera digital fundada por el economista y emprendedor Santos Barrio en noviembre de 2020.

Grido ya tiene un plan 2040: pasar de 2.000 a 4.000 puntos de venta (por qué el formato Go es tan rentable para los franquiciados)

(Por Julieta Romanazzi) La cadena de heladerías Grido está celebrando sus 25 años de vida, y lo hace con un anuncio que resume su ambición: alcanzar en los próximos 15 años lo que le llevó un cuarto de siglo construir. Sebastián Santiago, director de la compañía, nos revela cuáles son los planes de la empresa para duplicar su capacidad productiva, expandir su red de franquicias y conquistar nuevos mercados, todo mientras un nuevo formato (Grido Go) llega para revolucionar la experiencia del cliente de la tercera heladería más grande del mundo.

Cómo es el proyecto de Blackstone en La Cumbrecita y por qué algunos vecinos se oponen

(Por Diana Lorenzatti) Blackstone es una compañía conocida por comprar grandes desarrollos, hoteles y complejos habitacionales, a menudo transformándolos para maximizar su rentabilidad. Cuenta con un hotel Boutique y un complejo de 182 apartamentos en Villa General Belgrano y ahora, busca desembarcar en La Cumbrecita. Sin embargo, su presencia no está exenta de polémicas, ya que en muchas ocasiones sus inversiones han generado preocupaciones sobre desplazamiento de comunidades, impactos ambientales y encarecimiento del costo de vida.

Depro: el estudio de ingeniería y arquitectura detrás de algunos proyectos de Arcor, Grido y Siglo 21 (gerenciamiento, costos y tecnología BIM)

Desde el gerenciamiento de obras hasta la implementación de tecnología BIM, Depro ofrece soluciones integrales para el desarrollo de proyectos de infraestructura. Cuenta con un equipo especializado y una red de consultoras externas, y desde sus inicios busca garantizar eficiencia, optimización de costos y alto rendimiento en cada etapa del proceso. La innovación, flexibilidad y gestión de calidad definen el ADN de esta empresa que tiene sede en Villa Allende, Córdoba.