Microsoft desenvolve IA que converte texto em áudio com voz de qualquer pessoa

A Microsoft, referência em softwares de alta tecnologia, criou uma IA capaz de converter texto em áudio com qualquer voz. Entenda.

A Microsoft é uma das grandes pioneiras dos avanços tecnológicos em dispositivos como computadores, celulares e tablets, além de ter o principal pacote office do mundo, com Word e Excel.

Agora a empresa de Bill Gates está investindo em tecnologias ainda mais revolucionárias. A nova ferramenta produzida pela empresa é uma Inteligência Artificial que permite converter um texto escrito em qualquer voz.

O primeiro modelo criado foi o text-to-speech (TTS) e, desde então, os estudiosos da área buscam aperfeiçoar a ferramenta. No caso da Microsoft, o nome do programa foi nomeado de VALL-E e é um novo investimento da pioneira.

VALL-E é uma ferramenta de conversação desenvolvida pela Microsoft que usa modelos de linguagem avançada para compreender e responder às perguntas dos usuários. Ela foi projetada para ser usada como assistente virtual, chatbot ou outras aplicações em conversação.

A nova ferramenta do VALL-E permite a IA converter um texto em fala e simular a voz de alguém quando ouve uma amostra de áudio, mesmo que seja apenas três segundos.

Quando a voz é detectada ela é sintetizada para falar qualquer informação solicitada. A IA também aprende os tipos de tons de voz da pessoa.

Entenda como funciona a inteligência artificial da Microsoft

A nova Inteligência Artificial TTS da Microsoft utiliza uma técnica de “síntese de fala por concatenação de símbolos de fala”, que permite combinar fragmentos de compreensão de fala humana para criar novas frases. Isso ajuda a produzir fala sintética que soa mais natural do que as gerações anteriores.

microsoft
Imagem: Reprodução

A empresa de tecnologia nomeou a ferramenta de “modelo de linguagem de codec neural”, inspirada na tecnologia EnCodec da Meta, anunciada em 2022. A tecnologia aprende detalhes sobre a voz cadastrada, como pronúncias e sotaques.

Os testes feitos pela Microsoft com os recursos de síntese de fala do VALL-E foram realizados com uma biblioteca de áudio que foi criada pela Meta, nomeada de LibriLight.

Os idealizadores estão considerando utilizar o VALL-E como conversor de texto em fala de forma moderna, tecnológica e realista.

você pode gostar também