• Logo Picasso IA
    Logo Picasso IA
  • Início
  • IA Imagem
    Nano Banana 2
  • IA Vídeo
    Veo 3.1 Lite
  • IA Chat
    Gemini 3 Pro
  • Editar Imagens
  • Melhorar Imagem
  • Remover Fundo
  • Texto para Fala
  • Efeitos
  • AI Toolkit
    NEW
  • Gerações
  • Faturamento
  • Suporte
  • Conta
Vídeos Ilimitados JÁ DISPONÍVEIS · Nano Banana 2 E GPT Image 2.0 ILIMITADOS ATÉ 25 de junhoMelhorar
  1. Coleção
  2. Texto para Fala
  3. Realtime Tts 2

Explore vozes para sua necessidade

ASMR

ASMR

Japonês
Sussurro
Mulher Sussurrante

Mulher Sussurrante

Sussurro
Relaxamento
Robô Sortudo

Robô Sortudo

Robótico
Criativo
Pirata Furioso

Pirata Furioso

Personagem
Criativo

Ferramentas de Áudio

Áudio Original
Clonado
Resultado

Clone Sua Voz

Experimente a magia vocal instantânea com apenas 10 segundos de áudio!

Começar Agora
Capitão Pirata
Capitão Pirata
Goblin Ganancioso
Goblin Ganancioso
Bela Sulista
Bela Sulista

Design de Voz

Crie Qualquer Voz Que Você Imaginar - A Partir de Uma Simples Descrição de Texto

Começar Agora

Narrações com IA em Linguagem Natural com Realtime TTS 2

Realtime TTS 2 é um modelo de texto para fala criado para criadores que querem mais do que uma leitura robótica do roteiro. Ele permite que você direcione a performance em inglês simples, adicionando indicações de tom e emoção em qualquer parte do texto, para que a saída soe como uma voz de ator profissional, e não como um leitor de IA padrão. Quer você esteja produzindo intros de podcast, narração de vídeo ou áudio dublado para um público multilíngue, o modelo processa tudo em tempo real, sem atraso perceptível. O sistema de orientação por linguagem natural é o que o diferencia: escreva uma instrução como [say excitedly] ou [whisper in a hushed style] antes de qualquer frase, e o modelo ajusta a entrega de acordo. Tags não verbais embutidas permitem inserir risadas, suspiros, tosses ou sons naturais de respiração no meio da frase para tornar o áudio menos sintético. O modelo também oferece suporte a mais de 100 idiomas com detecção automática de idioma, para que roteiros multilíngues sejam tratados sem trocar configurações manualmente. Realtime TTS 2 se encaixa naturalmente em qualquer fluxo de trabalho de produção de áudio ou vídeo. Cole seu roteiro no campo de texto, escolha uma voz, selecione o formato de saída (MP3, WAV, FLAC ou OGG) e baixe um arquivo limpo em segundos. Se a primeira tentativa não estiver certa, altere uma instrução de tom ou ajuste a configuração de temperatura e gere novamente.

Oficial

Inworld

23.7k execuções

Realtime Tts 2

2026-05-04

Uso comercial

Narrações com IA em Linguagem Natural com Realtime TTS 2

Índice

  • Visão geral
  • Como funciona
  • Perguntas frequentes
  • Custo de Créditos
  • Recursos
  • Casos de uso
Obtenha Nano Banana Pro

Visão geral

Realtime TTS 2 converte texto escrito em fala com som natural e a profundidade expressiva que os geradores de voz genéricos não conseguem alcançar. Se você já ouviu uma narração e percebeu imediatamente que ela foi feita por máquina, este modelo trata desse problema diretamente. Ele suporta mais de 100 idiomas, aceita pistas de emoção entre colchetes dentro do texto (como [say excitedly] ou [whisper softly]) e entrega áudio com baixa latência, tornando-o prático para aplicações ao vivo e iteração rápida. No Picasso IA, você pode executá-lo diretamente no navegador sem instalar nada.

Como funciona

  • Digite ou cole seu texto na caixa de entrada, com até 2.000 caracteres por solicitação.
  • Adicione instruções opcionais embutidas entre colchetes antes da frase que deseja moldar, como [say sadly] ou [laugh], para orientar o tom da entrega e sons não verbais.
  • Escolha seu idioma no menu suspenso ou deixe em detecção automática se o texto estiver em um único idioma reconhecível.
  • Selecione uma voz predefinida (Ashley, Dennis, Alex ou Darlene) ou insira um ID de voz personalizado, se você tiver um configurado.
  • Ajuste a taxa de fala, a temperatura e o formato de saída (MP3, WAV, OGG ou FLAC) e clique em gerar para receber seu arquivo de áudio.

Perguntas frequentes

Preciso de habilidades de programação ou conhecimento técnico para usar isto? Não, basta abrir Realtime TTS 2 no Picasso IA, ajustar as configurações que quiser e clicar em gerar.

É gratuito para testar? Sim, você pode executar Realtime TTS 2 no Picasso IA sem uma assinatura paga para começar. Verifique os detalhes do plano atual na página de preços para limites de geração.

Quanto tempo leva para obter resultados? O modelo foi criado para latência em tempo real, então a maioria dos textos curtos a médios retorna áudio em poucos segundos. Entradas mais longas, próximas ao limite de 2.000 caracteres, podem levar um pouco mais dependendo da carga do servidor.

Quais formatos de saída são suportados? Você pode baixar seu áudio como MP3, WAV, OGG Opus ou FLAC. MP3 é o padrão e funciona em quase todas as plataformas. FLAC é a melhor opção se você precisar de qualidade sem perdas para uso profissional ou em estúdio.

Posso controlar como a voz soa? Sim. Use instruções entre colchetes no texto, como [whisper] ou [say excitedly], para orientar a emoção e o estilo de entrega. Aumentar o controle deslizante de temperatura adiciona mais variação expressiva; reduzi-lo mantém o tom consistente e neutro. O controle de taxa de fala permite desacelerar ou acelerar a entrega de forma independente do tom.

Quais idiomas ele suporta? O modelo lida com 15 idiomas de produção, incluindo inglês, espanhol, francês, alemão, chinês, japonês, coreano, árabe e hindi, entre outros. Definir o idioma como automático permite que o modelo o detecte sozinho, o que funciona bem para textos de um único idioma escritos de forma clara.

Onde posso usar o áudio que ele produz? Os arquivos de saída são limpos e prontos para serem inseridos em qualquer projeto. Locais comuns incluem vídeos de redes sociais, edições de podcast, interfaces de aplicativo, módulos de e-learning e demonstrações de atendimento ao cliente. O áudio não contém marcas d'água incorporadas.

Custo de Créditos

Cada geração consome 1 crédito

1 crédito

ou 5 créditos para 5 gerações

Recursos

Tudo o que este modelo pode fazer por você

Controle de tom em linguagem natural

Escreva instruções de estilo em inglês simples no próprio texto para moldar como cada linha é entregue.

Suporte a mais de 100 idiomas

Gere fala em mais de 100 idiomas, incluindo árabe, chinês, hindi e japonês, com detecção automática de idioma.

Geração em tempo real

O áudio é produzido rápido o suficiente para aplicações ao vivo ou quase ao vivo, sem atrasos de buffer.

Inserção de sons não verbais

Coloque tags embutidas para adicionar risadas autênticas, suspiros, tosses ou sons de respiração em qualquer parte do áudio.

Quatro formatos de exportação

Baixe seu áudio como MP3, WAV, FLAC ou OGG para se adequar a qualquer plataforma ou fluxo de edição.

Taxa de fala ajustável

Acelere ou desacelere a entrega com um simples multiplicador para corresponder ao ritmo do seu vídeo ou apresentação.

Controle de temperatura

Aumente ou reduza a expressividade para obter uma leitura consistente ou uma performance mais dinâmica e variada.

Vozes predefinidas e personalizadas

Escolha entre perfis de voz integrados ou forneça um ID de voz clonado personalizado para uma saída sob medida.

Casos de uso

Grave narrações para vídeos do YouTube ou de redes sociais colando seu roteiro e envolvendo frases com instruções de tom como [say calmly] ou [say with urgency]

Gere a mesma narração em outro idioma escrevendo o texto traduzido e selecionando o idioma de destino nas configurações

Crie intros de podcast e narração de episódios com uma voz de IA consistente que combine com o tom do seu programa em todos os episódios

Adicione sons não verbais como risadas, suspiros ou pigarros a uma gravação inserindo tags de áudio embutidas diretamente no texto

Produza áudio dublado para conteúdo de vídeo multilíngue sem contratar um ator de voz separado para cada idioma

Converta artigos longos ou postagens de blog em arquivos de áudio para download em formato MP3 ou WAV para ouvintes que preferem áudio

Prototipe diálogos de assistente de voz com taxa de fala ajustável e expressividade variada antes de definir a voz final do produto

Mudar Categoria

Efeitos

Texto para Imagem

Texto para Vídeo

Modelos de Linguagem Extensos

Texto para Fala

Super Resolução

Sincronização Labial

Geração de Música com IA

Edição de Vídeo

Fala para Texto

Melhorar Vídeos com IA

Remover Fundos