Cómo funciona el sistema que reconstruye el rostro desde la voz

(Por Eduardo Aguirre) Una pregunta recurrente tanto en charlas de café como en ámbitos académicos es ¿hasta dónde pueden llegar los desarrollos tecnológicos tales como machine learning e inteligencia artificial? La respuesta es cada vez más difícil de imaginar.

Es que logros propios del cine y la literatura han abandonado el mundo de la ficción y hoy son realidades tangibles.

Uno de los más recientes y asombrosos ejemplos es Speech2Face, el sistema desarrollado por investigadores del MIT (Massachusetts Institute of Technology) que permite reconstruir el rostro de una persona con solo escuchar algunos segundos de su voz, tal como podés ver en el video que acompaña esta nota.

En la publicación en la cual expusieron los resultados de la investigación los seis responsables afirmaron: ¿Cuánto podemos inferir sobre la apariencia de una persona por la forma en que habla?
En este artículo, estudiamos la tarea de reconstruir una imagen facial de una persona a partir de una breve grabación de su voz hablando. Diseñamos y entrenamos una red neuronal profunda para realizar esta tarea utilizando millones de videos naturales de personas que hablan en sitios como YouTube. Durante la capacitación, nuestro modelo aprende sobre los rostros de las personas y sus correlaciones de voz. Esto le permite producir imágenes que capturan varios atributos físicos de los hablantes, como la edad, el género y la etnia. Esto se hace de manera auto-supervisada, utilizando la co-ocurrencia natural de rostros y habla en videos de Internet, sin la necesidad de modelar los atributos explícitamente. Nuestras reconstrucciones, obtenidas directamente del audio, revelan las correlaciones entre caras y voces. Evaluamos y cuantificamos numéricamente cómo, y de qué manera, nuestras reconstrucciones del audio de Speech2Face se asemejan a las verdaderas imágenes faciales de los altavoces.

Desde luego este tipo de experimentos conllevan un dilema ético al cual los investigadores no le rehúyen. “Aunque se trata de una investigación puramente académica, creemos que es importante discutir explícitamente en el documento un conjunto de consideraciones éticas debido a la posible sensibilidad de la información facial”, sostienen al abrir ese capítulo y añaden que el modelo informático no puede recuperar la verdadera identidad de una persona (es decir, una imagen exacta de su rostro). Esto se debe a que está capacitado para capturar características visuales (relacionadas con la edad, el género, etnia, etc.) que son comunes a muchas personas, y solo en los casos en que existe evidencia lo suficientemente sólida como para conectar esas características visuales con los atributos. Como tal, el modelo solo producirá caras de apariencia promedio, con características visuales que se correlacionan con el habla de entrada. No producirá imágenes de individuos específicos.

Los científicos utilizaron en el momento de la prueba para las reconstrucciones de rostros segmentos de voz de entrada de 3 segundos y 6 segundos respectivamente (en ambos casos usamos el mismo modelo). Como se observa en la imagen que acompaña esta nota, con una mayor duración del habla las caras reconstruidas capturan mejor los atributos faciales. Por cierto, en algunos casos, los resultados obtenidos son realmente asombrosos.

¿Qué más podrán lograr estas tecnologías de redes neuronales? No hay límites a la vista.

El paper completo con los resultados de la experiencia está aquí.

Nota Principal

Cuesta como un departamento, se vive como un departamento, pero no es un departamento: así es el lujoso motorhome (cordobés) que arranca de US$ 60.000

(Por Juliana Pino) Si de turismo y aventura se trata, Gibertcar tiene la solución: motorhomes que combinan funcionalidad y lujo. Desde su inicio en 1985, esta empresa familiar se adaptó a las necesidades del mercado ofreciendo modelos personalizados y de serie. Sus precios arrancan en US$ 60.000 y, dependiendo de los accesorios, pueden superar los US$ 80.000.

Enfoque

Córdoba, un paso adelante en la industria textil: llega la Mimaki Tiger 600-1800 TS, la sublimadora más rápida del país (solo hay dos)

(Por Rocío Vexenat) Dxprint es cordobesa y la única empresa de la provincia especializada en la comercialización de equipos de sublimación textil. Acaba de presentar su último “bicho”; la impresora Mimaki Tiger 600-1800 TS, un equipo que cuesta unos 145.000 dólares (más IVA) que puede producir 550 metros cuadrados por hora. Y sí: es la Speedy Gonzalez del mercado argentino.

Enfoque

¿Viajas a Brasil de vacaciones? Estas son las mejores opciones a la hora de pagar (y las peores)

(Por Julieta Romanazzi) Con un aluvión de argentinos planeando vacacionar en Brasil este verano, surge una pregunta clave: ¿cómo pagar de la manera más conveniente y segura en el país vecino?

Plus

Adecco Argentina desarrolló una herramienta gratuita para hacer el CV con IA: así quedó el que hicimos de prueba

(Por GC) CV Maker es la nueva apuesta de Adecco para ayudar a todo aquel que se esté iniciando o necesite actualizar su experiencia en el mundo laboral.

El Cronista

Una petroquímica y una productora de acero construirán un parque eólico en Olavarría

PCR y Acindar anunciaron la construcción de un nuevo parque eólico en la localidad bonaerense de Olavarría. La sociedad entre ambas empresas ya tiene bajo su operación el Parque renovable San Luis Norte

Enfoque

Un arquitecto cordobés dibujó el auto de Colapinto, Williams lo compartió en sus redes y ahora vende las láminas

(Por Josefina Lescano /RdF) El arquitecto y artista Gastón Castellano encontró la manera de fusionar sus dos grandes pasiones: la arquitectura y los autos de carrera. Su ilustración del Williams de Franco Colapinto no solo deslumbró en redes sociales, sino que fue seleccionada por el equipo británico en su sección "Fan Art", marcando un hito para el talento argentino.

Nota Principal

¿Sirven para Córdoba las hipotecas divisibles? (qué son y en qué casos se podría aplicar)

El reciente anuncio del gobierno nacional sobre las hipotecas divisibles despierta expectativas en el sector inmobiliario y financiero, especialmente por su potencial impacto en el acceso a la vivienda y el dinamismo de la construcción. Es un instrumento que permite financiar inmuebles desde el pozo. Pero, ¿es aplicable a Córdoba? ¿Cuáles son sus posibilidades reales?

Nota Principal

Con la industria del juicio vivita y coleando, las ART le dan un ultimátum a la Justicia por los Cuerpos Médicos Forenses (solo Mendoza lo constituyó)

El panorama de los juicios laborales en Argentina es cada vez más alarmante. En octubre, el sistema judicial registró el inicio de 11.851 nuevas demandas por riesgos del trabajo, lo que representa un aumento del 14,3% con respecto al mismo mes del año anterior. En total, durante los primeros 10 meses de 2024 se contabilizaron 105.960 nuevos juicios, y las proyecciones indican que el número superará los 128.000 para fin de año. Esta creciente judicialización pone en jaque a las ART (Aseguradoras de Riesgos del Trabajo), que aseguran a más de 10 millones de trabajadores en el país.

Plus

Renault tendrá su universidad corporativa: qué se podrá estudiar en ReKnow University

Renault Argentina inauguró su universidad corporativa, ReKnow University, con el objetivo de transformar las competencias necesarias para construir la movilidad del futuro. Esta iniciativa no solo llegó a Argentina, sino que también se expandió a Brasil, Colombia y México, tras su lanzamiento en Francia, Turquía e Iberia.

Y además…

Bancor abre el camino: Mastercard Débito ya está disponible en Google Pay

El Banco de la Provincia de Córdoba marca un hito en la banca argentina al ser la primera entidad financiera del país en integrar tarjetas Mastercard Débito a la plataforma Google Pay. Con esta nueva funcionalidad, la tarjeta Cordobesa Débito se suma como método de pago a la billetera virtual, reforzando el liderazgo de Bancor en innovación tecnológica. En la nota te cuento cómo usarla.

Cómo funciona el sistema que reconstruye el rostro desde la voz

Compartir con tus amigos de

Te puede interesar: