• Logo Picasso IA
    Logo Picasso IA
  • Início
  • IA Imagem
    Nano Banana 2
  • IA Vídeo
    Veo 3.1 Lite
  • IA Chat
    Gemini 3 Pro
  • Editar Imagens
  • Melhorar Imagem
  • Remover Fundo
  • Texto para Fala
  • Efeitos
  • AI Toolkit
    NEW
  • Gerações
  • Faturamento
  • Suporte
  • Conta
Vídeos Ilimitados JÁ DISPONÍVEIS · Nano Banana 2 E GPT Image 2.0 ILIMITADOS ATÉ 25 de junhoMelhorar
  1. Coleção
  2. Texto para Fala
  3. Realtime Tts 1.5 Mini

Explore vozes para sua necessidade

ASMR

ASMR

Japonês
Sussurro
Mulher Sussurrante

Mulher Sussurrante

Sussurro
Relaxamento
Robô Sortudo

Robô Sortudo

Robótico
Criativo
Pirata Furioso

Pirata Furioso

Personagem
Criativo

Ferramentas de Áudio

Áudio Original
Clonado
Resultado

Clone Sua Voz

Experimente a magia vocal instantânea com apenas 10 segundos de áudio!

Começar Agora
Capitão Pirata
Capitão Pirata
Goblin Ganancioso
Goblin Ganancioso
Bela Sulista
Bela Sulista

Design de Voz

Crie Qualquer Voz Que Você Imaginar - A Partir de Uma Simples Descrição de Texto

Começar Agora

Realtime TTS 1.5 Mini: Síntese de voz com IA em 120 ms

Realtime TTS 1.5 Mini converte texto escrito em áudio falado em aproximadamente 120 milissegundos, tornando-o uma das opções de texto para fala mais rápidas disponíveis. Se você já esperou vários segundos para o áudio ser gerado antes de uma demonstração, uma interação com cliente ou um teste de produto ao vivo, este modelo reduz essa espera a uma fração de segundo. Ele funciona em 15 idiomas, então uma única configuração lida com conteúdo multilíngue sem precisar alternar entre várias ferramentas. Você pode moldar a saída de várias maneiras. Tags de emoção como [happy] ou [sad] alteram o tom do locutor sem nenhuma etapa extra de processamento. Tags de quebra SSML permitem controlar onde as pausas ocorrem, fornecendo o ritmo necessário para narração ou diálogo. O modelo aceita taxas de amostragem de 8 kHz a 48 kHz e gera áudio em MP3, WAV, OGG Opus ou FLAC, para que o arquivo se adapte a qualquer plataforma ou pipeline que o receba. Uma configuração de temperatura controla o quão expressiva ou consistente a entrega soa entre execuções repetidas. Para apps com voz, bots telefônicos interativos, narração de cursos online ou qualquer projeto em que a latência de áudio seja uma restrição real, este modelo se encaixa sem exigir uma grande mudança de infraestrutura. Insira seu texto, escolha uma voz e um idioma, e receba um arquivo de áudio pronto para uso em menos de um segundo.

Oficial

Inworld

89.6k execuções

Realtime Tts 1.5 Mini

2026-03-10

Uso comercial

Realtime TTS 1.5 Mini: Síntese de voz com IA em 120 ms

Índice

  • Visão geral
  • Como funciona
  • Perguntas frequentes
  • Custo de Créditos
  • Recursos
  • Casos de uso
Obtenha Nano Banana Pro

Visão geral

Realtime TTS 1.5 Mini converte texto escrito em fala com som natural em aproximadamente 120 milissegundos, tornando-o um dos modelos de síntese mais rápidos disponíveis para aplicações ao vivo. Se você está criando um bot de suporte ao cliente, um assistente de leitura ou uma interface de voz que precisa responder em tempo real, esperar dois ou três segundos para o áudio ser renderizado é um impeditivo. Picasso IA hospeda este modelo para que você possa testá-lo diretamente no navegador, sem necessidade de configuração de API. Ele cobre 15 idiomas nativamente, então um único modelo atende projetos multilíngues sem trocar de ferramenta.

Como funciona

  • Digite ou cole seu texto no campo de entrada, até 2.000 caracteres por solicitação
  • Escolha uma voz predefinida da biblioteca ou forneça um ID de voz clonada personalizado
  • Defina a velocidade de fala e a temperatura para controlar a velocidade e a expressividade, e escolha o formato de saída (MP3, WAV, OGG, FLAC)
  • Selecione a taxa de amostragem que se encaixa no seu ambiente-alvo, de 8 kHz para telefonia até 48 kHz para áudio de alta fidelidade
  • Clique em gerar e receba seu arquivo de áudio em menos de um segundo na maioria das entradas

Perguntas frequentes

Preciso de habilidades de programação ou conhecimento técnico para usar isto? Não, basta abrir Realtime TTS 1.5 Mini no Picasso IA, ajustar as configurações desejadas e clicar em gerar.

É gratuito para testar? Picasso IA permite que você execute o modelo sem criar uma conta ou inserir dados de pagamento. Você pode gerar áudio e ouvi-lo diretamente no navegador antes de baixar qualquer coisa.

Quanto tempo leva para obter resultados? O modelo busca cerca de 120 milissegundos do input ao áudio. Na prática, a maioria dos textos curtos a médios é renderizada em bem menos de um segundo, mesmo em uma conexão padrão à internet.

Quais formatos de saída são suportados? Você pode baixar seu áudio como MP3, WAV, OGG Opus ou FLAC. MP3 é o padrão e funciona em praticamente qualquer ambiente. Escolha FLAC ou WAV se precisar de áudio sem perdas para edição de pós-produção.

Posso controlar o tom e a velocidade da voz? Sim. A configuração de temperatura ajusta o quão expressiva ou neutra a voz soa. O multiplicador de velocidade de fala permite acelerar ou desacelerar a entrega sem alterar o tom. Você também pode inserir tags de quebra e marcadores de emoção diretamente no seu texto para moldar pausas e tom em momentos específicos.

Quais idiomas o modelo suporta? O modelo cobre 15 idiomas, então você pode sintetizar fala em vários locais usando o mesmo fluxo de trabalho sem mudar para um modelo diferente para cada idioma.

O que acontece se eu não ficar satisfeito com o resultado? Tente ajustar o controle deslizante de temperatura para um nível diferente de expressividade, ou mude para outra voz da biblioteca predefinida. Pequenas mudanças na formulação do texto de origem também podem afetar de forma perceptível o quão natural a saída soa.

Custo de Créditos

Cada geração consome 1 crédito

1 crédito

ou 5 créditos para 5 gerações

Recursos

Tudo o que este modelo pode fazer por você

~120ms latency

Retorna áudio rápido o suficiente para aplicações de voz ao vivo e pipelines em tempo real.

15-language support

Produza fala em quinze idiomas diferentes a partir de uma única chamada de API.

Emotion markup

Insira [happy], [sad] ou tags semelhantes para alterar o tom emocional do locutor.

Flexible audio formats

Baixe a saída em MP3, WAV, OGG Opus ou FLAC para se adequar a qualquer plataforma.

Custom voices

Use nomes predefinidos como Ashley ou Dennis, ou forneça seu próprio ID de voz clonada.

SSML pause control

Coloque pausas com som natural em qualquer lugar do texto com tags de tempo de pausa.

Adjustable sample rate

Escolha entre 8 kHz e 48 kHz para equilibrar o tamanho do arquivo e a fidelidade do áudio.

Text normalization

Expande números, datas e abreviações automaticamente antes da síntese.

Casos de uso

Gere instruções narradas para um passo a passo de aplicativo móvel em menos de um segundo por frase

Produza anúncios de produtos multilíngues em até 15 idiomas a partir de um único modelo de texto

Crie respostas de atendimento ao cliente com voz para um chatbot que precisa entregar respostas em tempo real

Adicione narração com marcação de emoção a um roteiro de vídeo inserindo marcadores [happy] ou [sad] no texto

Crie uma prévia de audiolivro convertendo um capítulo de amostra para MP3 ou WAV com ritmo natural

Insira pausas cronometradas em introduções de podcast usando tags de quebra SSML para um resultado roteirizado e polido

Teste diferentes vozes de locutor no mesmo roteiro para escolher o tom que combina com sua marca antes do lançamento

Mudar Categoria

Efeitos

Texto para Imagem

Texto para Vídeo

Modelos de Linguagem Extensos

Texto para Fala

Super Resolução

Sincronização Labial

Geração de Música com IA

Edição de Vídeo

Fala para Texto

Melhorar Vídeos com IA

Remover Fundos