Granite Speech 4.1 2B: Fala para Texto em 6 Idiomas

Granite Speech 4.1 2B é um modelo compacto de reconhecimento de fala criado para pessoas que precisam de transcrição precisa em vários idiomas sem infraestrutura complexa. Seja você um podcaster trabalhando com convidados internacionais, um pesquisador lidando com entrevistas multilíngues ou um desenvolvedor criando um app com recursos de voz, ele converte o áudio falado diretamente em texto que você pode usar imediatamente. O modelo lida com reconhecimento automático de fala em seis idiomas: inglês, francês, alemão, espanhol, português e japonês. Além da transcrição, ele oferece suporte à tradução de fala bidirecional, convertendo conteúdo falado de um idioma em texto escrito em outro em uma única etapa. Com apenas 2 bilhões de parâmetros, ele funciona com eficiência e retorna resultados sem os atrasos típicos de modelos de fala maiores. Você pode fornecer um único clipe curto ou uma gravação mais longa, e ele retorna texto limpo pronto para colar em documentos, arquivos de legenda ou bancos de dados. Ele se encaixa naturalmente em fluxos de produção de conteúdo, pipelines multilíngues de atendimento ao cliente e projetos de transcrição. Envie uma amostra de áudio agora mesmo e tenha sua transcrição em segundos.

Oficial

Ibm Granite

9 execuções

Granite Speech 4.1 2b

2026-04-27

Uso comercial

Granite Speech 4.1 2B: Fala para Texto em 6 Idiomas

Visão geral

Granite Speech 4.1 2B transforma áudio falado em texto escrito preciso em seis idiomas, resolvendo um problema que paralisa muitos criadores e profissionais: obter uma transcrição confiável sem gastar horas em trabalho manual. Seja você um jornalista trabalhando com entrevistas gravadas, um criador de conteúdo extraindo citações de um episódio de podcast ou um analista revisando gravações de reuniões, este modelo faz a conversão rapidamente. Você envia seu áudio no Picasso IA e recebe uma transcrição limpa e legível em segundos, ou uma tradução se precisar do conteúdo em outro idioma. Ele cobre inglês, francês, alemão, espanhol, português e japonês, com tradução bidirecional entre esses idiomas integrada.

Como funciona

Envie seu arquivo de áudio em um dos seis idiomas suportados ou faça upload de uma gravação do seu dispositivo
Opcionalmente, escreva um prompt curto ou uma instrução de sistema para moldar a saída, por exemplo, solicitando um formato específico ou pedindo uma tradução para um idioma de destino
Ajuste configurações como temperature ou limites de tokens se quiser mais controle sobre o comprimento e a consistência da saída
Clique em gerar e receba uma transcrição em texto simples em segundos, ajustada ao comprimento da gravação
Copie o resultado do painel de saída e cole-o em seu documento, arquivo de legenda, relatório ou qualquer outra ferramenta do seu fluxo de trabalho

Perguntas frequentes

Preciso de habilidades de programação ou conhecimento técnico para usar isso? Não, basta abrir Granite Speech 4.1 2B no Picasso IA, ajustar as configurações desejadas e clicar em gerar.

É gratuito para testar? Sim, você pode executar Granite Speech 4.1 2B sem nenhum compromisso inicial. Verifique a página da sua conta para obter os detalhes atuais de créditos ou plano.

Quais idiomas o modelo suporta? O modelo cobre inglês, francês, alemão, espanhol, português e japonês. Ele pode transcrever fala em qualquer um desses idiomas e traduzir conteúdo de áudio entre eles em ambas as direções.

Quanto tempo leva para obter uma transcrição? A maioria dos clipes de áudio retorna um resultado em poucos segundos. Gravações mais longas demoram um pouco mais, dependendo da duração do arquivo e da clareza do áudio.

O que o modelo retorna? O modelo retorna texto simples. Você pode copiá-lo diretamente do painel de resultados e inseri-lo em qualquer documento, e-mail, editor de legendas ou ferramenta de publicação.

Posso pedir para o modelo traduzir em vez de apenas transcrever? Sim. Use os campos de prompt ou system prompt para especificar o idioma de destino. Por exemplo, escrever "Translate this audio to English" retornará o conteúdo nesse idioma em vez do original.

E se a transcrição tiver erros? Tente reduzir a configuração de temperature para uma saída mais consistente e certifique-se de que a gravação esteja o mais clara possível. Fornecer um breve prompt de contexto sobre o tema ou o locutor também pode ajudar o modelo a produzir resultados mais precisos.

Custo de Créditos

Cada geração consome 1 crédito

1 crédito

ou 5 créditos para 5 gerações

Recursos

Tudo o que este modelo pode fazer por você

ASR multilíngue

Reconhece fala em inglês, francês, alemão, espanhol, português e japonês pronto para uso.

Tradução bidirecional

Converte áudio falado em um idioma em texto escrito em outro sem uma etapa separada.

Modelo compacto de 2B

Retorna transcrições precisas mais rápido do que modelos maiores devido à sua menor contagem de parâmetros.

Streaming em tempo real

Gera texto à medida que cria a saída, para que você receba resultados parciais antes que o áudio termine de ser processado.

Reprodutibilidade baseada em seed

Defina um valor de seed para reproduzir uma saída de transcrição idêntica em várias execuções.

Controles de amostragem

Ajuste os valores de temperature, top-k e top-p para refinar a precisão da saída para seu áudio específico.

Modos de entrada flexíveis

Aceita áudio junto com mensagens no estilo de chat ou prompts padrão de completion para diferentes estilos de integração.

Casos de uso

Transcrever um episódio de podcast ou entrevista gravado em uma transcrição escrita que você possa editar e publicar

Converter uma nota de voz gravada em espanhol ou francês em um documento de texto em inglês em uma única etapa

Gerar texto a partir de uma gravação em japonês para arquivamento, tradução ou revisão

Transcrever chamadas de atendimento ao cliente em vários idiomas para análise de qualidade e conformidade

Extrair conteúdo falado de uma gravação de reunião e colá-lo diretamente em notas ou um resumo

Criar um recurso de entrada por voz em um app conectando dados de áudio à saída de transcrição do modelo

Criar legendas para um vídeo multilíngue enviando a faixa de áudio e recebendo o texto de volta

Mudar Categoria

Efeitos

Texto para Imagem

Texto para Vídeo

Modelos de Linguagem Extensos

Texto para Fala

Super Resolução

Sincronização Labial

Geração de Música com IA

Edição de Vídeo

Fala para Texto

Melhorar Vídeos com IA

Remover Fundos