Scribe v2 convierte audio hablado en texto escrito, manejando desde una nota de voz rápida hasta una grabación de conferencia de 10 horas. Si alguna vez has pasado horas escribiendo manualmente entrevistas o notas de reuniones, este modelo reduce ese trabajo a segundos. Lee archivos MP3, WAV, M4A, archivos de video y una docena de otros formatos, así que no necesitas convertir nada antes de empezar. El modelo admite más de 90 idiomas y puede detectar automáticamente cuál se está hablando, lo que lo hace práctico para grabaciones multilingües. Separa hasta 32 hablantes distintos y etiqueta cada palabra según quién la dijo, de modo que las transcripciones de entrevistas grupales o mesas redondas se mantengan organizadas. También puedes proporcionar una lista de nombres de productos o términos técnicos para guiar al modelo hacia la ortografía correcta cuando la calidad del audio es imperfecta. Periodistas, investigadores, editores de pódcasts y equipos de atención al cliente utilizan herramientas de voz a texto como primer paso en su flujo de trabajo de edición. Scribe v2 encaja de forma natural en ese punto de entrada: sube tu archivo, recibe una transcripción limpia y pasa directamente a la edición, traducción o subtitulado. Se admiten archivos de hasta 3 GB, así que las películas completas o los episodios largos de pódcast no son un problema.
Scribe v2 convierte audio hablado en texto preciso en más de 90 idiomas, devolviendo resultados lo suficientemente rápido como para encajar en un flujo de trabajo de edición real. El problema que resuelve es el tiempo: transcribir a mano una entrevista de una hora lleva de tres a cuatro horas incluso para una persona que escribe rápido, y el resultado aún necesita mucha corrección. Scribe v2 hace el mismo trabajo en minutos, produciendo una transcripción estructurada con etiquetas de hablante, marcas de tiempo a nivel de palabra y etiquetas en línea para sonidos de fondo como aplausos o risas. En Picasso IA, todo el proceso se realiza con unos pocos clics, sin necesidad de código.
¿Necesito habilidades de programación o conocimientos técnicos para usar esto? No, solo abre Scribe v2 en Picasso IA, ajusta la configuración que quieras y pulsa generar.
¿Es gratis probarlo? Sí, puedes ejecutar Scribe v2 sin una suscripción de pago para comenzar. Consulta la página de precios actual para obtener detalles sobre créditos y opciones de plan.
¿Cuánto tarda en obtener resultados? Un clip de 10 minutos normalmente vuelve en menos de un minuto. Una hora completa de audio suele tardar de dos a tres minutos. La duración del archivo y el ruido de fondo afectan el tiempo de procesamiento.
¿Qué formatos de archivo admite? Scribe v2 acepta MP3, WAV, M4A, FLAC, OGG, OPUS, WebM, AAC, MP4, MOV, MKV, AVI y varios otros formatos comunes de audio y video. El límite por archivo es de 3 GB y 10 horas.
¿Puede distinguir diferentes hablantes en una conversación? Sí. Activa la diarización de hablantes antes de ejecutar y cada palabra de la transcripción se etiqueta con un identificador de hablante. El modelo maneja hasta 32 hablantes distintos en una sola grabación.
¿Qué pasa si el modelo transcribe mal un nombre o término? Agrégalo al campo de términos clave antes de generar. Puedes listar hasta 1.000 términos, cada uno de hasta 50 caracteres, y el modelo ponderará esas palabras más fuertemente durante la transcripción.
¿Dónde puedo usar las transcripciones que genero? La salida es texto plano sin marcas de agua ni restricciones. Pégala en un documento, introdúcela en un editor de subtítulos o úsala como requiera tu proyecto.
Todo lo que este modelo puede hacer por ti
Transcribe audio en más de 90 idiomas, con detección automática del idioma para grabaciones mixtas o desconocidas.
Identifica y etiqueta hasta 32 hablantes individuales, asignando a cada palabra una etiqueta de hablante en la salida.
Obtén tiempos de inicio y fin precisos para cada palabra, listos para sincronizar con subtítulos o leyendas de video.
Marca sonidos no verbales como risas, aplausos o pasos directamente dentro de la transcripción.
Proporciona una lista de hasta 1000 grafías preferidas para que el modelo favorezca la forma correcta de nombres de marca y jerga técnica.
Sube archivos de audio o video de hasta 3 GB y 10 horas sin necesidad de dividirlos ni comprimirlos primero.
Elimina muletillas, falsos comienzos y disfluencias para producir una salida pulida y legible.
Acepta MP3, WAV, M4A, FLAC, OGG, MP4, MOV, MKV y muchos otros formatos de audio y video.