Scribe v2: IA de voz a texto para más de 90 idiomas

Scribe v2 convierte audio hablado en texto escrito, manejando desde una nota de voz rápida hasta una grabación de conferencia de 10 horas. Si alguna vez has pasado horas escribiendo manualmente entrevistas o notas de reuniones, este modelo reduce ese trabajo a segundos. Lee archivos MP3, WAV, M4A, archivos de video y una docena de otros formatos, así que no necesitas convertir nada antes de empezar. El modelo admite más de 90 idiomas y puede detectar automáticamente cuál se está hablando, lo que lo hace práctico para grabaciones multilingües. Separa hasta 32 hablantes distintos y etiqueta cada palabra según quién la dijo, de modo que las transcripciones de entrevistas grupales o mesas redondas se mantengan organizadas. También puedes proporcionar una lista de nombres de productos o términos técnicos para guiar al modelo hacia la ortografía correcta cuando la calidad del audio es imperfecta. Periodistas, investigadores, editores de pódcasts y equipos de atención al cliente utilizan herramientas de voz a texto como primer paso en su flujo de trabajo de edición. Scribe v2 encaja de forma natural en ese punto de entrada: sube tu archivo, recibe una transcripción limpia y pasa directamente a la edición, traducción o subtitulado. Se admiten archivos de hasta 3 GB, así que las películas completas o los episodios largos de pódcast no son un problema.

Oficial

Elevenlabs

15.7k ejecuciones

Scribe V2

2026-05-05

Uso comercial

Scribe v2: IA de voz a texto para más de 90 idiomas

Descripción general

Scribe v2 convierte audio hablado en texto preciso en más de 90 idiomas, devolviendo resultados lo suficientemente rápido como para encajar en un flujo de trabajo de edición real. El problema que resuelve es el tiempo: transcribir a mano una entrevista de una hora lleva de tres a cuatro horas incluso para una persona que escribe rápido, y el resultado aún necesita mucha corrección. Scribe v2 hace el mismo trabajo en minutos, produciendo una transcripción estructurada con etiquetas de hablante, marcas de tiempo a nivel de palabra y etiquetas en línea para sonidos de fondo como aplausos o risas. En Picasso IA, todo el proceso se realiza con unos pocos clics, sin necesidad de código.

Cómo funciona

Sube tu archivo de audio o video. Los formatos compatibles incluyen MP3, WAV, M4A, FLAC, MP4, MOV, MKV y muchos otros. Se aceptan archivos de hasta 3 GB y 10 horas de duración.
Establece el idioma si lo sabes, o deja la detección en automático. Especificar un idioma mejora la precisión en grabaciones ruidosas o con mucho acento.
Activa la diarización de hablantes si tu grabación tiene varias voces. Introduce el número de hablantes que esperas para que el modelo pueda separarlos correctamente.
Añade términos clave para cualquier nombre de producto, nombre propio o frase técnica que deba aparecer correctamente en el texto final. Se aceptan hasta 1.000 términos.
Ejecuta el modelo. Tu transcripción vuelve con marcas de tiempo, una etiqueta de hablante en cada palabra o segmento y etiquetas de eventos de audio dondequiera que ocurran sonidos no verbales.

Preguntas frecuentes

¿Necesito habilidades de programación o conocimientos técnicos para usar esto? No, solo abre Scribe v2 en Picasso IA, ajusta la configuración que quieras y pulsa generar.

¿Es gratis probarlo? Sí, puedes ejecutar Scribe v2 sin una suscripción de pago para comenzar. Consulta la página de precios actual para obtener detalles sobre créditos y opciones de plan.

¿Cuánto tarda en obtener resultados? Un clip de 10 minutos normalmente vuelve en menos de un minuto. Una hora completa de audio suele tardar de dos a tres minutos. La duración del archivo y el ruido de fondo afectan el tiempo de procesamiento.

¿Qué formatos de archivo admite? Scribe v2 acepta MP3, WAV, M4A, FLAC, OGG, OPUS, WebM, AAC, MP4, MOV, MKV, AVI y varios otros formatos comunes de audio y video. El límite por archivo es de 3 GB y 10 horas.

¿Puede distinguir diferentes hablantes en una conversación? Sí. Activa la diarización de hablantes antes de ejecutar y cada palabra de la transcripción se etiqueta con un identificador de hablante. El modelo maneja hasta 32 hablantes distintos en una sola grabación.

¿Qué pasa si el modelo transcribe mal un nombre o término? Agrégalo al campo de términos clave antes de generar. Puedes listar hasta 1.000 términos, cada uno de hasta 50 caracteres, y el modelo ponderará esas palabras más fuertemente durante la transcripción.

¿Dónde puedo usar las transcripciones que genero? La salida es texto plano sin marcas de agua ni restricciones. Pégala en un documento, introdúcela en un editor de subtítulos o úsala como requiera tu proyecto.

Costo de Créditos

Cada generación consume 1 crédito

1 crédito

o 5 créditos para 5 generaciones

Características

Todo lo que este modelo puede hacer por ti

Compatibilidad con más de 90 idiomas

Transcribe audio en más de 90 idiomas, con detección automática del idioma para grabaciones mixtas o desconocidas.

Diarización de hablantes

Identifica y etiqueta hasta 32 hablantes individuales, asignando a cada palabra una etiqueta de hablante en la salida.

Marcas de tiempo a nivel de palabra

Obtén tiempos de inicio y fin precisos para cada palabra, listos para sincronizar con subtítulos o leyendas de video.

Etiquetado de eventos de audio

Marca sonidos no verbales como risas, aplausos o pasos directamente dentro de la transcripción.

Sesgo de términos personalizados

Proporciona una lista de hasta 1000 grafías preferidas para que el modelo favorezca la forma correcta de nombres de marca y jerga técnica.

Compatibilidad con archivos grandes

Sube archivos de audio o video de hasta 3 GB y 10 horas sin necesidad de dividirlos ni comprimirlos primero.

Modo de transcripción limpia

Elimina muletillas, falsos comienzos y disfluencias para producir una salida pulida y legible.

Amplia compatibilidad de formatos

Acepta MP3, WAV, M4A, FLAC, OGG, MP4, MOV, MKV y muchos otros formatos de audio y video.

Casos de uso

Transcribe una entrevista grabada en un documento de texto con marcas de tiempo, con las palabras de cada hablante etiquetadas por separado

Convierte un episodio de pódcast en una transcripción escrita para publicaciones de blog, notas del programa o reutilización en artículos

Detecta y etiqueta automáticamente sonidos no verbales como aplausos o risas en grabaciones de eventos

Transcribe grabaciones de reuniones multilingües y permite que el modelo identifique el idioma automáticamente

Genera transcripciones limpias y legibles eliminando muletillas como 'um' y 'uh' de la salida

Inclina la transcripción hacia nombres de productos o jerga técnica específicos proporcionando una lista personalizada de términos preferidos

Extrae marcas de tiempo a nivel de palabra de un archivo de video para sincronizar subtítulos o subtítulos cerrados

Transcribe una clase o sesión de conferencia grabada de 10 horas desde una sola carga de archivo

Cambiar Categoría

Efectos

Texto a Imagen

Texto a Video

Modelos de Lenguaje Extensos

Texto a Voz

Super Resolución

Sincronización Labial

Generación de Música con IA

Edición de Video

Voz a Texto

Mejorar Videos con IA

Eliminar Fondos