Granite Speech 4.1 2B: Voz a texto en 6 idiomas

Granite Speech 4.1 2B es un modelo compacto de reconocimiento de voz diseñado para personas que necesitan transcripciones precisas en varios idiomas sin una infraestructura compleja. Tanto si eres un podcaster que trabaja con invitados internacionales, un investigador que maneja entrevistas multilingües o un desarrollador que construye una aplicación con entrada de voz, convierte el audio hablado directamente en texto que puedes usar de inmediato. El modelo gestiona el reconocimiento automático del habla en seis idiomas: inglés, francés, alemán, español, portugués y japonés. Más allá de la transcripción, admite la traducción de voz bidireccional, convirtiendo contenido hablado de un idioma a texto escrito en otro en un solo paso. Con solo 2 mil millones de parámetros, funciona de manera eficiente y devuelve resultados sin los retrasos típicos de los modelos de voz más grandes. Puedes cargar un clip corto o una grabación más larga, y devuelve texto limpio listo para pegar en documentos, archivos de subtítulos o bases de datos. Encaja de forma natural en flujos de trabajo de producción de contenido, canales de atención al cliente multilingües y proyectos de transcripción. Pruébalo ahora con una muestra de audio y ten tu transcripción en segundos.

Oficial

Ibm Granite

9 ejecuciones

Granite Speech 4.1 2b

2026-04-27

Uso comercial

Granite Speech 4.1 2B: Voz a texto en 6 idiomas

Descripción general

Granite Speech 4.1 2B convierte audio hablado en texto escrito preciso en seis idiomas, resolviendo un problema que frena a muchos creadores y profesionales: obtener una transcripción fiable sin invertir horas en trabajo manual. Ya seas un periodista que trabaja con entrevistas grabadas, un creador de contenido que extrae citas de un episodio de podcast o un analista que revisa grabaciones de reuniones, este modelo gestiona la conversión rápidamente. Subes tu audio en Picasso IA y recibes una transcripción limpia y legible en cuestión de segundos, o una traducción si necesitas el contenido en otro idioma. Cubre inglés, francés, alemán, español, portugués y japonés, con traducción bidireccional entre esos idiomas integrada.

Cómo funciona

Sube tu archivo de audio en uno de los seis idiomas compatibles, o carga una grabación desde tu dispositivo
Opcionalmente, escribe un prompt breve o una instrucción del sistema para dar forma a la salida, por ejemplo solicitando un formato específico o pidiendo una traducción a un idioma de destino
Ajusta configuraciones como temperature o los límites de tokens si quieres un control más preciso sobre la longitud y la coherencia de la salida
Pulsa generar y recibe una transcripción en texto plano en cuestión de segundos, adaptada a la duración de la grabación
Copia el resultado del panel de salida y pégalo en tu documento, archivo de subtítulos, informe o cualquier otra herramienta de tu flujo de trabajo

Preguntas frecuentes

¿Necesito habilidades de programación o conocimientos técnicos para usar esto? No, solo abre Granite Speech 4.1 2B en Picasso IA, ajusta la configuración que quieras y pulsa generar.

¿Es gratis probarlo? Sí, puedes ejecutar Granite Speech 4.1 2B sin ningún compromiso inicial. Consulta la página de tu cuenta para ver los detalles actuales de crédito o del plan.

¿Qué idiomas admite el modelo? El modelo cubre inglés, francés, alemán, español, portugués y japonés. Puede transcribir voz en cualquiera de esos idiomas y traducir contenido de audio entre ellos en ambas direcciones.

¿Cuánto tarda en obtenerse una transcripción? La mayoría de los clips de audio devuelven un resultado en cuestión de segundos. Las grabaciones más largas tardan un poco más según la duración del archivo y la claridad del audio.

¿Qué devuelve el modelo? El modelo devuelve texto plano. Puedes copiarlo directamente del panel de resultados y pegarlo en cualquier documento, correo electrónico, editor de subtítulos o herramienta de publicación.

¿Puedo pedirle al modelo que traduzca en lugar de solo transcribir? Sí. Usa los campos prompt o system prompt para especificar tu idioma de destino. Por ejemplo, escribir "Traduce este audio al inglés" devolverá el contenido en ese idioma en lugar del original.

¿Qué pasa si la transcripción tiene errores? Prueba a bajar la configuración de temperature para obtener una salida más coherente y asegúrate de que la grabación sea lo más clara posible. Proporcionar un prompt breve de contexto sobre el tema o el hablante también puede ayudar al modelo a producir resultados más precisos.

Costo de Créditos

Cada generación consume 1 crédito

1 crédito

o 5 créditos para 5 generaciones

Características

Todo lo que este modelo puede hacer por ti

ASR multilingüe

Reconoce voz en inglés, francés, alemán, español, portugués y japonés desde el primer momento.

Traducción bidireccional

Convierte audio hablado en un idioma a texto escrito en otro sin un paso adicional.

Modelo compacto de 2B

Devuelve transcripciones precisas más rápido que modelos más grandes gracias a su menor cantidad de parámetros.

Transmisión en tiempo real

Genera texto a medida que lo produce, para que obtengas resultados parciales antes de que termine de procesarse todo el audio.

Reproducibilidad basada en seed

Establece un valor de seed para reproducir una salida de transcripción idéntica en varias ejecuciones.

Controles de muestreo

Ajusta los valores de temperature, top-k y top-p para afinar la precisión de la salida según tu audio específico.

Modos de entrada flexibles

Acepta audio junto con mensajes estilo chat o prompts de completado estándar para distintos estilos de integración.

Casos de uso

Transcribe un episodio de podcast o entrevista grabado en una transcripción escrita que puedas editar y publicar

Convierte una nota de voz grabada en español o francés en un documento de texto en inglés en un solo paso

Genera texto a partir de una grabación de audio en japonés para archivarla, traducirla o revisarla

Transcribe llamadas de atención al cliente en varios idiomas para analizarlas en cuanto a calidad y cumplimiento

Extrae el contenido hablado de una grabación de reunión y pégalo directamente en notas o un resumen

Integra una función de entrada por voz en una aplicación conectando datos de audio con la salida de transcripción del modelo

Crea subtítulos para un video multilingüe alimentando la pista de audio y recibiendo el texto de vuelta

Cambiar Categoría

Efectos

Texto a Imagen

Texto a Video

Modelos de Lenguaje Extensos

Texto a Voz

Super Resolución

Sincronización Labial

Generación de Música con IA

Edición de Video

Voz a Texto

Mejorar Videos con IA

Eliminar Fondos