Inteligência artificial faz leitura labial com mais precisão que humanos

A DeepMind, empresa de inteligência artificial do Google, e a Universidade de Oxford desenvolveram um sistema capaz de fazer a leitura labial em vídeos e transformá-los em legenda em texto. A pesquisa usou mais de 100 mil frases e cinco mil horas de programas da rede de televisão BBC

Outro estudo feito por ambos também foi divulgado recentemente. Chamado de LipNet, o sistema utilizou cerca de 29 mil vídeos com três segundos de duração cada, e atingiu uma precisão de leitura labial de 93,4%. Foram comparados a precisão de leitura labial entre as pessoas e o mecanismo de inteligência artificial e chegaram à conclusão que a tecnologia está à frente dos humanos.

Durante a pesquisa, foram analisados os lábios de cada pessoa que aparecia falando nos programas da BBC para que o sistema decifrasse o que estava sendo dito, inclusive sentenças com um nível alto de complexidade e velocidade de conversação gravado.

Outro desafio da inteligência artificial foi lidar com áudio e vídeo dessincronizados das gravações. Para fazer a ligação, o mecanismo recebeu algumas associações entre sons e formatos de boca.

Além disso, o estudo comparou a precisão de leitura labial do homem e da inteligência artificial. Conclui-se que a pessoa entendeu apenas 12,4% das palavras sem erros, enquanto a tecnologia teve um desempenho melhor, com 46,8% e erros de pouca relevância.

Por ter alcançado esse resultado satisfatório, o mecanismo superou todos os sistemas criados até hoje, inclusive o LipNet – que utilizou um vocabulário menor e uma gramática sem tanta complexidade.
De acordo com DeepMind e Universidade de Oxford, o sistema estará disponível como um recurso de treinamento.

Comentários pelo Facebook