Pesquisadores da Microsoft publicaram detalhes de uma nova tecnologia de reconhecimento de voz que eles dizem transcrever o discurso de conversação, Tal como um ser humano.”Chegamos a semelhança humana”, disse o cientista chefe da Microsoft Xuedong Huang em um comunicado. “Esta é uma conquista histórica.”
t A taxa de erro de palavra do sistema é relatado ser em torno de 5,9 por cento, o que a Microsoft diz ser “quase igual” para profissionais convidados para trabalhar no discurso de tomada do mesmo corpus de painel de comando de conversas. Ele usa modelos de linguagem neurais que agrupa palavras semelhantes em conjunto, permitindo a generalização eficiente. A Microsoft planeja usar a tecnologia em Cortana, a sua assistente pessoal de voz para o Windows e o Xbox One, bem como software de transcrição de voz para texto.
Embora os resultados sejam impressionantes, está longe de um final para reconhecimento de voz. Microsoft ainda precisa afinar a tecnologia para trabalhar bem com conversas em uma ampla gama de situações da vida real mais desafiadoras e com uma ampla seleção de vozes. E para casos de uso, tais como Cortana, grande parte da dificuldade vem de ensinar a inteligência artificial para entender o significado das palavras e as por em prática, e não apenas ouvi-las com precisão.