contador gratis Saltar al contenido

Google, un sistema de inteligencia artificial lee los labios mejor que los humanos

septiembre 19, 2020

Los investigadores de la Universidad de Oxford han inventado y ahora perfeccionado un sistema de inteligencia artificial que puede leer los labios mejor que los humanos. La BBC habla de ello, explicando que el sistema se entrenó usando miles de horas de programas de BBC News y fue desarrollado en colaboración con DeepMind, la división británica de Google que se ocupa de la inteligencia artificial.

?Mira, atiende y deletrea?, como se llamaba al sistema, es capaz de observar los labios e interpretar correctamente el 50% de las palabras habladas. Puede parecer un porcentaje bajo, pero con los mismos videos, presentados a expertos en lectura de labios, solo se obtuvieron porcentajes correctos para el 12% de las palabras.

Joon Son Chung, estudiante de doctorado en el Departamento de Ingeniería de la Universidad de Oxford, explica las dificultades de tal empresa. “Palabras como ‘mat’, ‘bat’ y ‘pat’ muestran una forma similar en la boca”. Es el contexto lo que ayuda al sistema, oa un profesional en lectura de labios, a comprender qué es la palabra hablada. “Lo que hace el sistema”, explica Joon, “es aprender a poner las cosas juntas, en este caso asociando la forma en que mueves la boca con los personajes y qué caracteres probablemente se pronunciarán”.

Labial

La BBC proporcionó a los investigadores clips de varios programas de televisión con subtítulos alineados con los movimientos de los labios de los altavoces. Una red neuronal combinó imágenes de vanguardia con reconocimiento de voz para aprender a leer los labios. Después de examinar 118.000 oraciones, el sistema creó un vocabulario de 17.500 palabras; habiendo sido entrenado para entender el lenguaje de las noticias, es bastante bueno asociando la palabra “Primer” con “Primer Ministro” y “Unión” con “Unión Europea”, pero es menos bueno para entender palabras que no se usan en el lenguaje de las noticias. En definitiva, hay trabajo por hacer pero todo es muy prometedor y entre los entusiastas del sistema hay organizaciones que velan por los intereses de los sordos. Sistemas de este tipo podrían usarse para automatizar la creación de subtítulos, útiles no solo para sordos sino también para comprender mejor un discurso de un extranjero o en general favorecer a quienes no pueden entender o escuchar bien el idioma original del programa. (piense, por ejemplo, en entornos ruidosos). El sistema por el momento solo funciona con videos ya grabados, pero Joon Son Chung sugiere que en el futuro también funcionará en vivo, en tiempo real.