Scribe v2 : conversion de la parole en texte par IA pour plus de 90 langues

Scribe v2 convertit l'audio parlé en texte écrit, en prenant en charge tout, d'une courte note vocale à un enregistrement de conférence de 10 heures. Si vous avez déjà passé des heures à saisir manuellement des interviews ou des notes de réunion, ce modèle réduit ce travail à quelques secondes. Il lit les fichiers MP3, WAV, M4A, les fichiers vidéo et une douzaine d'autres formats, donc vous n'avez rien à convertir avant de commencer. Le modèle prend en charge plus de 90 langues et peut détecter automatiquement laquelle est parlée, ce qui le rend pratique pour les enregistrements multilingues. Il sépare jusqu'à 32 locuteurs distincts et attribue à chaque mot la personne qui l'a dit, afin que les transcriptions d'entretiens de groupe ou de tables rondes restent organisées. Vous pouvez également fournir une liste de noms de produits ou de termes techniques pour orienter le modèle vers la bonne orthographe lorsque la qualité audio est imparfaite. Les journalistes, chercheurs, monteurs de podcasts et équipes de support client utilisent tous les outils de conversion de la parole en texte comme première étape de leur flux de travail d'édition. Scribe v2 s'intègre naturellement à ce point d'entrée : déposez votre fichier, récupérez une transcription propre, puis passez directement à l'édition, à la traduction ou au sous-titrage. Les fichiers jusqu'à 3 Go sont pris en charge, donc les films longs ou les épisodes de podcast de longue durée ne posent aucun problème.

Officiel

Elevenlabs

15.7k exécutions

Scribe V2

2026-05-05

Usage commercial

Scribe v2 : conversion de la parole en texte par IA pour plus de 90 langues

Présentation

Scribe v2 convertit l'audio parlé en texte précis dans plus de 90 langues, en renvoyant des résultats suffisamment rapides pour s'intégrer dans un véritable flux de travail d'édition. Le problème qu'il résout est celui du temps : transcrire à la main une interview d'une heure prend trois à quatre heures même pour un dactylographe rapide, et le résultat nécessite encore de lourdes corrections. Scribe v2 fait le même travail en quelques minutes, produisant une transcription structurée avec des étiquettes de locuteur, des horodatages au niveau du mot et des balises intégrées pour les sons de fond comme les applaudissements ou les rires. Sur Picasso IA, tout le processus se fait en quelques clics, sans code requis.

Comment ça marche

Téléversez votre fichier audio ou vidéo. Les formats pris en charge incluent MP3, WAV, M4A, FLAC, MP4, MOV, MKV et bien d'autres. Les fichiers jusqu'à 3 Go et 10 heures sont acceptés.
Définissez la langue si vous la connaissez, ou laissez la détection sur automatique. Spécifier une langue améliore la précision sur les enregistrements bruités ou fortement accentués.
Activez la diarisation des locuteurs si votre enregistrement comporte plusieurs voix. Indiquez le nombre de locuteurs attendus afin que le modèle puisse les séparer proprement.
Ajoutez des termes clés pour tout nom de produit, nom propre ou expression technique qui doit apparaître correctement dans le texte final. Jusqu'à 1 000 termes sont acceptés.
Exécutez le modèle. Votre transcription revient avec des horodatages, une étiquette de locuteur sur chaque mot ou segment, et des balises d'événements audio partout où des sons non vocaux se produisent.

Questions fréquemment posées

Ai-je besoin de compétences en programmation ou de connaissances techniques pour utiliser cela ? Non, ouvrez simplement Scribe v2 sur Picasso IA, ajustez les paramètres souhaités et lancez la génération.

Est-ce gratuit à essayer ? Oui, vous pouvez exécuter Scribe v2 sans abonnement payant pour commencer. Consultez la page de tarification actuelle pour les détails sur les crédits et les options de forfait.

Combien de temps faut-il pour obtenir les résultats ? Un clip de 10 minutes revient généralement en moins d'une minute. Une heure complète d'audio prend habituellement deux à trois minutes. La durée du fichier et le bruit de fond influencent tous deux le temps de traitement.

Quels formats de fichiers prend-il en charge ? Scribe v2 accepte MP3, WAV, M4A, FLAC, OGG, OPUS, WebM, AAC, MP4, MOV, MKV, AVI et plusieurs autres formats audio et vidéo courants. La limite par fichier est de 3 Go et 10 heures.

Peut-il distinguer différents locuteurs dans une conversation ? Oui. Activez la diarisation des locuteurs avant l'exécution et chaque mot de la transcription est étiqueté avec un identifiant de locuteur. Le modèle gère jusqu'à 32 locuteurs distincts dans un seul enregistrement.

Que faire si le modèle transcrit mal un nom ou un terme ? Ajoutez-le au champ des termes clés avant de générer. Vous pouvez lister jusqu'à 1 000 termes, chacun pouvant contenir jusqu'à 50 caractères, et le modèle pondérera ces mots plus fortement pendant la transcription.

Où puis-je utiliser les transcriptions que je génère ? Le résultat est du texte brut sans filigrane ni restriction. Collez-le dans un document, importez-le dans un éditeur de sous-titres ou utilisez-le comme votre projet l'exige.

Coût des Crédits

Chaque génération consomme 1 crédit

1 crédit

ou 5 crédits pour 5 générations

Fonctionnalités

Tout ce que ce modèle peut faire pour vous

Prise en charge de plus de 90 langues

Transcrivez l'audio dans plus de 90 langues, avec détection automatique de la langue pour les enregistrements mixtes ou inconnus.

Diarisation des locuteurs

Identifiez et étiquetez jusqu'à 32 locuteurs individuels, en donnant à chaque mot une balise de locuteur dans le résultat.

Horodatages au niveau du mot

Obtenez des heures de début et de fin précises pour chaque mot, prêtes à être synchronisées avec des sous-titres vidéo ou des légendes.

Marquage des événements audio

Signalez directement dans la transcription les sons non vocaux comme les rires, les applaudissements ou les pas.

Biaisement personnalisé des termes

Fournissez une liste jusqu'à 1000 orthographes préférées afin que le modèle privilégie la forme correcte des noms de marque et du jargon.

Prise en charge des gros fichiers

Téléversez des fichiers audio ou vidéo jusqu'à 3 Go et 10 heures sans les fractionner ni les compresser au préalable.

Mode de transcription propre

Supprimez les mots de remplissage, les faux départs et les disfluences pour produire un résultat soigné et lisible.

Large compatibilité des formats

Prend en charge MP3, WAV, M4A, FLAC, OGG, MP4, MOV, MKV et de nombreux autres formats audio et vidéo.

Cas d'utilisation

Transcrire une interview enregistrée en un document texte horodaté, avec les paroles de chaque locuteur étiquetées séparément

Convertir un épisode de podcast en transcription écrite pour des articles de blog, des notes d'émission ou une réutilisation en articles

Détecter et étiqueter automatiquement les sons non vocaux comme les applaudissements ou les rires dans les enregistrements d'événements

Transcrire des enregistrements de réunions multilingues et laisser le modèle identifier automatiquement la langue

Générer des transcriptions propres et lisibles en supprimant les mots de remplissage comme 'um' et 'uh' du résultat

Orienter la transcription vers des noms de produits ou un jargon technique spécifiques en fournissant une liste personnalisée de termes privilégiés

Extraire des horodatages au niveau du mot à partir d'un fichier vidéo pour synchroniser des sous-titres ou des légendes codées

Transcrire une conférence enregistrée ou une session de conférence de 10 heures à partir d'un seul téléversement de fichier

Changer de Catégorie

Effets

Texte en image

Texte en vidéo

Grands Modèles de Langage

Texte en parole

Super résolution

Synchronisation labiale

Génération de musique IA

Édition vidéo

Parole en texte

Amélioration vidéo IA

Suppression d'arrière-plan