Plataformas de IA lançam recursos para criar novas vozes através de prompts

Em um intervalo de poucas semanas, duas plataformas de IA para geração de vozes sintéticas, ElevenLabs, especializada em soluções avançadas de text-to-speech com foco em realismo e expressividade, e a Wondercraft, que oferece ferramentas de produção automatizada de podcasts e conteúdos em áudio, lançaram novos recursos para criar vozes a partir de uma descrição em um prompt.

ElevenLabs
Quem saiu na frente foi a ElevenLabs, lançando o Voice Design v3, uma evolução do seu recurso de criação de vozes personalizadas por texto. A proposta central da nova versão é tornar o processo de geração de vozes mais rápido, simples e eficaz – ideal para criadores, desenvolvedores e empresas.

O novo modelo oferece:

  • Geração rápida e direta: Basta descrever a voz desejada em um prompt de texto, e o sistema retorna três opções de voz imediatamente, entre as quais o usuário pode escolher uma para salvar e usar em seus projetos.
  • Maior controle e qualidade: A nova versão permite especificar características detalhadas como “qualidade de áudio perfeita” ou até mesmo efeitos como “som de rádio antigo”, e o modelo responde mantendo clareza e expressão.
  • Engine de prompting refinado: O motor por trás do recurso agora interpreta descrições sofisticadas – por exemplo, “nova-iorquino de meia-idade com entonação ascendente e leve sorriso na voz” – de maneira clara e sem artefatos.
  • Dois modos de criação:
    • Realistic Voice Design: para vozes realistas, como narradores ou assistentes virtuais.
    • Character Voice Design: para personagens fictícios – elfos, deuses, criaturas fantásticas etc.

O processo de criação é simples e intuitivo. Primeiro, o usuário define um conceito, levando em conta o papel que a voz deverá desempenhar – seja como narrador, personagem animado ou figura de videogame. Em seguida, elabora um prompt detalhando as características desejadas, como idade, sotaque, tom, ritmo e qualidade do áudio. Um exemplo seria: “Qualidade de áudio perfeita. Homem idoso, sotaque escocês marcado, ritmo calmo e voz rouca.” Depois disso, basta clicar em “Generate”, ouvir as três variações criadas e escolher aquela que melhor se adapta ao projeto. A voz selecionada pode ser utilizada imediatamente, tanto pela API quanto no estúdio web.

Além do prompt, o usuário também deve inserir um texto de teste para a voz. Esse texto, além de servir como amostra, cumpre uma função interna adicional: ajudar a refinar a construção da voz por meio da análise de sua intenção e do contexto.

Testamos a plataforma inserindo o seguinte prompt: “Uma comentarista esportiva mulher cheia de energia, narrando apaixonadamente os lances de uma partida de futebol em um ritmo muito acelerado. Sua voz é animada, entusiasmada e totalmente envolvida na ação.”. Além disto, usamos o seguinte texto de teste: “MEU DEUS DO CÉU — QUE GOLAÇO! Ele pega a bola logo após o meio-campo, dribla DOIS defensores como se nem estivessem LÁ e simplesmente ESTOURA no ângulo! O goleiro não teve NENHUMA CHANCE! Isso é CLASSE MUNDIAL do jovem atacante, e a torcida está de PÉ!”. A voz criada como resultado desta interação pode ser ouvida no player a seguir.

Outros exemplos podem ser ouvidos no site da ElevenLabs.

Wondercraft
Agora, foi a vez da Wondercraft lançar o seu Voice Design, o recurso para criar vozes originais a partir de descrições em texto, sem depender de gravações ou clonagem. A proposta também é simples: o usuário escreve como gostaria que a voz soasse – por exemplo, “um chefão da máfia do Leste dos EUA, rouco e imponente” – e, em poucos segundos, o sistema gera opções para escolha. A voz criada fica disponível na biblioteca pessoal, pronta para ser usada em narrativas, podcasts, anúncios ou qualquer outro tipo de produção em áudio.

O funcionamento se apoia na riqueza da descrição. Quanto mais detalhes forem incluídos no prompt, mais fiel será o resultado. É possível indicar tom, sotaque, qualidade vocal e até traços de personalidade, como “formal e preciso”, “casual e provocativo” ou “lento e sonolento”. A ferramenta não foi pensada para imitar celebridades, mas sim para criar vozes novas e expressivas, capazes de transmitir atmosferas específicas. Assim, marcas podem desenvolver vozes que reflitam sua identidade, criadores podem dar vida a personagens únicos e produtores podem gerar variações regionais ou multilíngues de uma mesma narrativa.

Para alcançar os melhores resultados, a Wondercraft recomenda descrições claras e concisas, preferencialmente em uma única frase, sempre incluindo o estado emocional ou a intenção da fala. Em vez de apenas “voz suave”, por exemplo, é mais eficaz escrever “voz suave e acolhedora para contos de ninar”. Como o processo é rápido, experimentar diferentes combinações é a chave para encontrar a entonação ideal.

Um exemplo de uso do Voice Design pode ser visto no site da Wondercraft.

*Informações: ZyDigital

Deixe uma resposta