Em um intervalo de poucas semanas, duas plataformas de IA para geração de vozes sintéticas, ElevenLabs, especializada em soluções avançadas de text-to-speech com foco em realismo e expressividade, e a Wondercraft, que oferece ferramentas de produção automatizada de podcasts e conteúdos em áudio, lançaram novos recursos para criar vozes a partir de uma descrição em um prompt.
ElevenLabs
Quem saiu na frente foi a ElevenLabs, lançando o Voice Design v3, uma evolução do seu recurso de criação de vozes personalizadas por texto. A proposta central da nova versão é tornar o processo de geração de vozes mais rápido, simples e eficaz – ideal para criadores, desenvolvedores e empresas.
O novo modelo oferece:
- Geração rápida e direta: Basta descrever a voz desejada em um prompt de texto, e o sistema retorna três opções de voz imediatamente, entre as quais o usuário pode escolher uma para salvar e usar em seus projetos.
- Maior controle e qualidade: A nova versão permite especificar características detalhadas como “qualidade de áudio perfeita” ou até mesmo efeitos como “som de rádio antigo”, e o modelo responde mantendo clareza e expressão.
- Engine de prompting refinado: O motor por trás do recurso agora interpreta descrições sofisticadas – por exemplo, “nova-iorquino de meia-idade com entonação ascendente e leve sorriso na voz” – de maneira clara e sem artefatos.
- Dois modos de criação:
- Realistic Voice Design: para vozes realistas, como narradores ou assistentes virtuais.
- Character Voice Design: para personagens fictícios – elfos, deuses, criaturas fantásticas etc.
O processo de criação é simples e intuitivo. Primeiro, o usuário define um conceito, levando em conta o papel que a voz deverá desempenhar – seja como narrador, personagem animado ou figura de videogame. Em seguida, elabora um prompt detalhando as características desejadas, como idade, sotaque, tom, ritmo e qualidade do áudio. Um exemplo seria: “Qualidade de áudio perfeita. Homem idoso, sotaque escocês marcado, ritmo calmo e voz rouca.” Depois disso, basta clicar em “Generate”, ouvir as três variações criadas e escolher aquela que melhor se adapta ao projeto. A voz selecionada pode ser utilizada imediatamente, tanto pela API quanto no estúdio web.
Além do prompt, o usuário também deve inserir um texto de teste para a voz. Esse texto, além de servir como amostra, cumpre uma função interna adicional: ajudar a refinar a construção da voz por meio da análise de sua intenção e do contexto.
Testamos a plataforma inserindo o seguinte prompt: “Uma comentarista esportiva mulher cheia de energia, narrando apaixonadamente os lances de uma partida de futebol em um ritmo muito acelerado. Sua voz é animada, entusiasmada e totalmente envolvida na ação.”. Além disto, usamos o seguinte texto de teste: “MEU DEUS DO CÉU — QUE GOLAÇO! Ele pega a bola logo após o meio-campo, dribla DOIS defensores como se nem estivessem LÁ e simplesmente ESTOURA no ângulo! O goleiro não teve NENHUMA CHANCE! Isso é CLASSE MUNDIAL do jovem atacante, e a torcida está de PÉ!”. A voz criada como resultado desta interação pode ser ouvida no player a seguir.
Outros exemplos podem ser ouvidos no site da ElevenLabs.
Wondercraft
Agora, foi a vez da Wondercraft lançar o seu Voice Design, o recurso para criar vozes originais a partir de descrições em texto, sem depender de gravações ou clonagem. A proposta também é simples: o usuário escreve como gostaria que a voz soasse – por exemplo, “um chefão da máfia do Leste dos EUA, rouco e imponente” – e, em poucos segundos, o sistema gera opções para escolha. A voz criada fica disponível na biblioteca pessoal, pronta para ser usada em narrativas, podcasts, anúncios ou qualquer outro tipo de produção em áudio.
O funcionamento se apoia na riqueza da descrição. Quanto mais detalhes forem incluídos no prompt, mais fiel será o resultado. É possível indicar tom, sotaque, qualidade vocal e até traços de personalidade, como “formal e preciso”, “casual e provocativo” ou “lento e sonolento”. A ferramenta não foi pensada para imitar celebridades, mas sim para criar vozes novas e expressivas, capazes de transmitir atmosferas específicas. Assim, marcas podem desenvolver vozes que reflitam sua identidade, criadores podem dar vida a personagens únicos e produtores podem gerar variações regionais ou multilíngues de uma mesma narrativa.
Para alcançar os melhores resultados, a Wondercraft recomenda descrições claras e concisas, preferencialmente em uma única frase, sempre incluindo o estado emocional ou a intenção da fala. Em vez de apenas “voz suave”, por exemplo, é mais eficaz escrever “voz suave e acolhedora para contos de ninar”. Como o processo é rápido, experimentar diferentes combinações é a chave para encontrar a entonação ideal.
Um exemplo de uso do Voice Design pode ser visto no site da Wondercraft.
*Informações: ZyDigital