Scribe v2: IA de fala para texto em 90+ idiomas

Scribe v2 converte áudio falado em texto escrito, lidando com tudo, desde um rápido memorando de voz até uma gravação de conferência de 10 horas. Se você já passou horas digitando manualmente entrevistas ou anotações de reunião, este modelo reduz esse trabalho para segundos. Ele lê MP3, WAV, M4A, arquivos de vídeo e uma dúzia de outros formatos, então você não precisa converter nada antes de começar. O modelo suporta mais de 90 idiomas e pode detectar automaticamente qual está sendo falado, tornando-o prático para gravações multilíngues. Ele separa até 32 falantes distintos e rotula cada palavra de acordo com quem a disse, para que transcrições de entrevistas em grupo ou painéis de discussão permaneçam organizadas. Você também pode inserir uma lista de nomes de produtos ou termos técnicos para orientar o modelo para a grafia correta quando a qualidade do áudio não é perfeita. Jornalistas, pesquisadores, editores de podcast e equipes de suporte ao cliente usam ferramentas de fala para texto como o primeiro passo em seu fluxo de trabalho de edição. Scribe v2 se encaixa naturalmente nesse ponto de entrada: envie seu arquivo, receba uma transcrição limpa de volta e siga diretamente para edição, tradução ou legendagem. Arquivos de até 3 GB são suportados, então filmes completos ou episódios longos de podcast não são problema.

Oficial

Elevenlabs

15.7k execuções

Scribe V2

2026-05-05

Uso comercial

Scribe v2: IA de fala para texto em 90+ idiomas

Visão geral

Scribe v2 converte áudio falado em texto preciso em mais de 90 idiomas, entregando resultados rápido o suficiente para se encaixar em um fluxo de trabalho de edição real. O problema que ele resolve é o tempo: transcrever manualmente uma entrevista de uma hora leva de três a quatro horas, mesmo para alguém que digita rápido, e a saída ainda precisa de correção pesada. Scribe v2 faz o mesmo trabalho em minutos, produzindo uma transcrição estruturada com rótulos de falantes, carimbos de data e hora por palavra e tags inline para sons de fundo como aplausos ou risadas. No Picasso IA, todo o processo leva apenas alguns cliques, sem necessidade de código.

Como funciona

Envie seu arquivo de áudio ou vídeo. Os formatos suportados incluem MP3, WAV, M4A, FLAC, MP4, MOV, MKV e muitos outros. São aceitos arquivos de até 3 GB e 10 horas de duração.
Defina o idioma se souber qual é, ou deixe a detecção no modo automático. Especificar um idioma melhora a precisão em gravações com ruído ou sotaque forte.
Ative a diarização de falantes se a gravação tiver várias vozes. Insira o número de falantes que você espera para que o modelo possa separá-los corretamente.
Adicione termos-chave para quaisquer nomes de produtos, substantivos próprios ou frases técnicas que precisem aparecer corretamente no texto final. São aceitos até 1.000 termos.
Execute o modelo. Sua transcrição volta com carimbos de data e hora, um rótulo de falante em cada palavra ou segmento e tags de eventos de áudio onde quer que ocorram sons não vocais.

Perguntas frequentes

Preciso de habilidades de programação ou conhecimento técnico para usar isto? Não, basta abrir Scribe v2 no Picasso IA, ajustar as configurações desejadas e clicar em gerar.

É gratuito para experimentar? Sim, você pode executar Scribe v2 sem uma assinatura paga para começar. Verifique a página de preços atual para detalhes de créditos e opções de planos.

Quanto tempo leva para obter os resultados? Um clipe de 10 minutos normalmente fica pronto em menos de um minuto. Uma hora inteira de áudio geralmente leva de dois a três minutos. A duração do arquivo e o ruído de fundo afetam o tempo de processamento.

Quais formatos de arquivo ele suporta? Scribe v2 aceita MP3, WAV, M4A, FLAC, OGG, OPUS, WebM, AAC, MP4, MOV, MKV, AVI e vários outros formatos comuns de áudio e vídeo. O limite por arquivo é de 3 GB e 10 horas.

Ele consegue diferenciar falantes distintos em uma conversa? Sim. Ative a diarização de falantes antes de executar e cada palavra na transcrição será marcada com um speaker ID. O modelo lida com até 32 falantes distintos em uma única gravação.

E se o modelo transcrever um nome ou termo incorretamente? Adicione-o ao campo de termos-chave antes de gerar. Você pode listar até 1.000 termos, cada um com até 50 caracteres, e o modelo dará mais peso a essas palavras durante a transcrição.

Onde posso usar as transcrições que eu gerar? A saída é texto simples, sem marcas d'água ou restrições. Cole-a em um documento, envie-a para um editor de legendas ou use-a conforme o seu projeto exigir.

Custo de Créditos

Cada geração consome 1 crédito

1 crédito

ou 5 créditos para 5 gerações

Recursos

Tudo o que este modelo pode fazer por você

Suporte a 90+ idiomas

Transcreva áudio em mais de 90 idiomas, com detecção automática de idioma para gravações mistas ou desconhecidas.

Diarização de falantes

Identifique e rotule até 32 falantes individuais, atribuindo uma etiqueta de falante a cada palavra na saída.

Carimbos de data e hora por palavra

Obtenha horários exatos de início e fim de cada palavra, prontos para sincronizar com legendas de vídeo ou captions.

Marcação de eventos de áudio

Sinalize sons não vocais como risadas, aplausos ou passos diretamente na transcrição.

Bias de termos personalizados

Forneça uma lista de até 1000 grafias preferidas para que o modelo favoreça a forma correta de nomes de marcas e jargões.

Suporte a arquivos grandes

Envie arquivos de áudio ou vídeo de até 3 GB e 10 horas sem dividi-los ou compactá-los primeiro.

Modo de transcrição limpa

Remova palavras de preenchimento, falsas partidas e disfluências para produzir uma saída polida e legível.

Ampla compatibilidade de formatos

Aceita MP3, WAV, M4A, FLAC, OGG, MP4, MOV, MKV e muitos outros formatos de áudio e vídeo.

Casos de uso

Transcreva uma entrevista gravada em um documento de texto com carimbo de data e hora, com as palavras de cada falante rotuladas separadamente

Converta um episódio de podcast em uma transcrição escrita para posts de blog, notas do episódio ou reaproveitamento em artigos

Detecte e marque automaticamente sons não vocais como aplausos ou risadas em gravações de eventos

Transcreva gravações de reuniões multilíngues e deixe o modelo identificar o idioma automaticamente

Gere transcrições limpas e legíveis removendo palavras de preenchimento como 'um' e 'ah' da saída

Oriente a transcrição para nomes específicos de produtos ou jargão técnico fornecendo uma lista personalizada de termos preferidos

Extraia carimbos de data e hora por palavra de um arquivo de vídeo para sincronizar legendas ou closed captions

Transcreva uma aula ou sessão de conferência gravada de 10 horas a partir de um único envio de arquivo

Mudar Categoria

Efeitos

Texto para Imagem

Texto para Vídeo

Modelos de Linguagem Extensos

Texto para Fala

Super Resolução

Sincronização Labial

Geração de Música com IA

Edição de Vídeo

Fala para Texto

Melhorar Vídeos com IA

Remover Fundos