Un grupo de investigadores del Conicet trabaja para comprender y esquematizar cómo debería ser un sistema que replique de manera perfecta el habla humana. Están generando conocimientos que luego distintas empresas (de hecho ya están trabajando con algunas) podrán utilizar para generar sistemas que "dialoguen" tal como lo haría una persona.
Uno de los científicos que está aplicando sus conocimientos a este tema es Agustín Gravano quien sintetiza su labor diciendo: “Trabajo para que la computadora hable de manera natural”. Su objetivo es que la computadora pueda no sólo reconocer las palabras, sino además la dinámica de la conversación. Una tarea poco sencilla, si se tiene en cuenta que hablar no es simplemente enlazar una palabra atrás de la otra. Durante una conversación “cambiamos la forma de procesar las palabras mientras hablamos, sin darnos cuenta”, explica y agrega: “A esto tanto actores, locutores, políticos –quienes estudian oratoria- aprenden a manejarlo, estos cambios en la inflexiones de la voz es lo más difícil de replicar”.
Según Gravano las personas modifican la intensidad, el tono y el volumen de acuerdo al tipo de charla. “Si contamos un chiste va a ser de una manera, y si leemos un obituario, va a ser de otra”, cuenta. El desafío pasa por identificar, codificar y enseñar a la computadora las múltiples variantes del diálogo, para que cuando “hable” suene natural. En su tesis, Gravano logró identificar el proceso que da a entender al interlocutor que una persona está por terminar de hablar. A medida que se acerca el final de la última frase la persona baja su tono de voz, se vuelve más rasposa y va perdiendo intensidad. “Se modifica ligeramente la forma de hablar para poder intercambiar turnos en la conversación”, ejemplifica.
Desde Buenos Aires, Agustín nos cuenta que están trabajando en enseñarle a las computadoras a identificar, a partir de un texto, cómo deben leerlo. Parte importante de esta labor consiste en generar cientos de grabaciones en condiciones especiales de acústica en estudios profesionales ya que deben estar carentes de todo sonido ambiental.
Sostiene que los sistemas que comercialmente conocemos (como Siri, por ejemplo) no cumplen con las expectativas que los usuarios tienen al respecto, puesto que éstas son realmente muy altas, “en esto el cine no ayuda mucho”, afirma, refiriéndose a las películas (como Ironman) donde la interacción hombre-máquina mediante el habla es absolutamente natural.
Para determinar el grado de avance de este tipo de investigaciones, Gravano nos cuenta que periódicamente son sometidas al Test de Turing que, como bien se explica en Wikipedia, es una prueba propuesta por Alan Turing para demostrar la existencia de inteligencia en una máquina. Fue expuesto en 1950 en un artículo (Computing machinery and intelligence) para la revista Mind, y sigue siendo uno de los mejores métodos para los defensores de la Inteligencia Artificial. La prueba consiste en un desafío. Se ubica a una persona en una habitación, y a una máquina y a otro ser humano en otras. La primera persona al interactuar con ellos debe descubrir cuál es el ser humano y cuál es la máquina. Cabe señalar que hasta la fecha ningún sistema de reproducción del habla ha logrado sortear con efectividad este test, ni siquiera con textos cortos.
Jorge Gurlekian, investigador independiente de Conicet en el Instituto de Inmunología, Genética y Metabolismo apunta a “entender cómo se produce la comunicación entre los seres humanos, ya sea en la producción y generación de voz como en la parte de percepción y reconocimiento” del discurso, asegura. Para eso estudian la prosodia humana, es decir el conocimiento del acento, entonación y ritmo del diálogo. Tras analizar diferentes patrones y conversaciones, lo transforman en lenguaje matemático y lo programan en una computadora, con el objetivo de que pueda comunicarse verbalmente.
María Eugenia Torres, investigadora independiente del Conicet y directora del Laboratorio de Señales y Dinámicas no Lineales de la Universidad Nacional de Entre Ríos sostiene que “hay cierto tipo de patologías de la voz que no son fácilmente diferenciables”. Torres y su equipo desarrollan técnicas de análisis y procesamiento de señales en la voz. Después, a partir de la información oculta en ella pueden identificarla y clasificarla. “Las posibles aplicaciones van desde el área de seguridad hasta call centers, para identificar si la persona que se está comunicando está atemorizada, miente o en estado de pánico, por ejemplo”, dice Torres.
Investigadores argentinos buscan un Siri perfecto
(Por Eduardo M. Aguirre - @EduAguirre) Una de las múltiples investigaciones sobre las cuales están trabajando los científicos del Conicet, consiste en desentrañar las claves del lenguaje humano y desarrollar sistemas que permitan a las personas ‘hablar’ con las computadoras (algo como el sistema Siri de Apple, pero absolutamente idéntico al habla humana). En qué etapa están estos desarrollos.
Tu opinión enriquece este artículo: