Transcribe audio a texto con Granite Speech 3.3 8B

Granite Speech 3.3 8B es un modelo de voz compacto creado para dos tareas precisas: convertir audio hablado en texto escrito y traducir voz de un idioma a texto escrito en otro. Si trabajas con entrevistas grabadas, podcasts, conferencias o audio multilingüe, obtener transcripciones limpias manualmente lleva horas. Este modelo lo reduce a segundos. El modelo produce transcripciones legibles y precisas en una variedad de condiciones de audio sin que necesites un preprocesamiento especial. Admite tanto el reconocimiento automático del habla como la traducción de voz en un solo flujo de trabajo, por lo que no necesitas herramientas separadas para cada paso. Los controles de muestreo como temperature, top-k y top-p te permiten ajustar cómo se presenta el resultado cuando la precisión importa. Lleva el resultado directamente a un flujo de contenido, sistema de notas o herramienta de informes como texto plano listo para editar o almacenar. Granite Speech 3.3 8B en Picasso IA encaja dondequiera que el audio ralentice tu flujo de trabajo, y tarda menos de un minuto en generar tu primera transcripción.

Oficial

Ibm Granite

19.3k ejecuciones

Granite Speech 3.3 8b

2025-07-15

Uso comercial

Transcribe audio a texto con Granite Speech 3.3 8B

Descripción general

Granite Speech 3.3 8B es un modelo compacto de reconocimiento de voz que convierte audio hablado en texto preciso y legible sin necesidad de programar ni de configuración técnica. Maneja tanto tareas de transcripción como de traducción, lo que lo hace útil para una amplia gama de contenido de audio. En Picasso IA, subes tu audio, ajustas algunos parámetros opcionales y obtienes una salida de texto limpia en segundos. Ya sea que estés transcribiendo una llamada con un cliente, añadiendo subtítulos a un video o extrayendo notas de una reunión grabada, el modelo hace el trabajo de conversión por ti.

Cómo funciona

Sube uno o más archivos de audio desde tu dispositivo, como una entrevista grabada, un episodio de podcast o una nota de voz.
Añade un prompt opcional o system prompt para darle contexto al modelo, como roles de los hablantes, un tema específico o un formato de salida preferido.
Configura tu límite de tokens y la temperatura si deseas controlar cuánta cantidad de texto se genera y qué tan fielmente sigue la salida al audio.
El modelo procesa el habla, identifica palabras y frases, y devuelve una transcripción de texto de lo que se dijo.
Revisa el resultado en el panel de resultados y luego cópialo directamente en tu documento, archivo de subtítulos o herramienta de flujo de trabajo.

Preguntas frecuentes

¿Necesito habilidades de programación o conocimientos técnicos para usar esto? No, solo abre Granite Speech 3.3 8B en Picasso IA, ajusta la configuración que quieras y pulsa generar.

¿Es gratis probarlo? Sí, puedes ejecutar Granite Speech 3.3 8B sin ingresar datos de pago para comenzar. El uso de créditos depende del plan en el que estés.

¿Cuánto tarda en dar resultados? La mayoría de los clips de audio cortos devuelven una transcripción en unos pocos segundos. Las grabaciones más largas tardan un poco más, pero el diseño de parámetros 8B mantiene el procesamiento rápido.

¿Qué formatos de salida son compatibles? El modelo devuelve texto plano. Puedes copiar la transcripción y pegarla en cualquier editor de documentos, herramienta de subtítulos o aplicación de notas que ya uses.

¿Puedo personalizar el estilo de salida? Sí. Un system prompt o user prompt te permite especificar el tono, el formato o el enfoque. La temperatura y la configuración de tokens te dan control adicional sobre cómo se lee el texto.

¿Qué idiomas admite? El modelo está diseñado para el reconocimiento automático del habla y la traducción en una variedad de idiomas hablados. Para obtener mejores resultados, usa audio claro con el mínimo ruido de fondo posible.

¿Qué pasa si no estoy satisfecho con el resultado? Ajusta tu prompt o cambia la configuración de temperatura y vuelve a ejecutar el modelo. Como cada generación es rápida, normalmente solo se necesitan un par de intentos para obtener una transcripción útil.

Costo de Créditos

Cada generación consume 1 crédito

1 crédito

o 5 créditos para 5 generaciones

Características

Todo lo que este modelo puede hacer por ti

Transcripción precisa

Convierte palabras habladas en texto limpio y legible con alta precisión en distintos acentos y condiciones de grabación.

Traducción de voz

Procesa audio en un idioma y genera texto escrito en otro, eliminando un paso de traducción separado.

Tamaño de modelo compacto

El diseño de parámetros 8B funciona de manera eficiente sin la latencia de modelos de voz mucho más grandes.

Entrada de audio flexible

Acepta múltiples archivos de audio en una sola ejecución, lo que te permite procesar varias grabaciones a la vez.

Controles de muestreo

Ajusta temperature, top-k y top-p para afinar qué tan determinista o variada es la salida de la transcripción.

Prompts personalizados

Añade un system prompt o user prompt para guiar el estilo de la transcripción, la puntuación o el formato de salida.

Compatibilidad con secuencias de parada

Define tokens específicos para detener la generación antes, dándote un control más preciso sobre la longitud de la salida.

Casos de uso

Transcribe una entrevista grabada a un documento de texto subiendo el archivo de audio directamente

Convierte episodios de podcast en guiones legibles para notas del programa o subtítulos cerrados

Traduce audio hablado de un idioma extranjero a texto escrito en tu idioma de destino

Genera subtítulos para un video de formación transcribiendo el contenido hablado a un archivo de texto

Convierte notas de voz de una reunión en un resumen escrito que puedas compartir con tu equipo

Transcribe llamadas de atención al cliente a registros de texto para revisión interna y controles de calidad

Convierte grabaciones de clases en notas de texto que los estudiantes puedan leer, buscar y anotar

Cambiar Categoría

Efectos

Texto a Imagen

Texto a Video

Modelos de Lenguaje Extensos

Texto a Voz

Super Resolución

Sincronización Labial

Generación de Música con IA

Edición de Video

Voz a Texto

Mejorar Videos con IA

Eliminar Fondos