Scribe v2 convertit l'audio parlé en texte écrit, en prenant en charge tout, d'une courte note vocale à un enregistrement de conférence de 10 heures. Si vous avez déjà passé des heures à saisir manuellement des interviews ou des notes de réunion, ce modèle réduit ce travail à quelques secondes. Il lit les fichiers MP3, WAV, M4A, les fichiers vidéo et une douzaine d'autres formats, donc vous n'avez rien à convertir avant de commencer. Le modèle prend en charge plus de 90 langues et peut détecter automatiquement laquelle est parlée, ce qui le rend pratique pour les enregistrements multilingues. Il sépare jusqu'à 32 locuteurs distincts et attribue à chaque mot la personne qui l'a dit, afin que les transcriptions d'entretiens de groupe ou de tables rondes restent organisées. Vous pouvez également fournir une liste de noms de produits ou de termes techniques pour orienter le modèle vers la bonne orthographe lorsque la qualité audio est imparfaite. Les journalistes, chercheurs, monteurs de podcasts et équipes de support client utilisent tous les outils de conversion de la parole en texte comme première étape de leur flux de travail d'édition. Scribe v2 s'intègre naturellement à ce point d'entrée : déposez votre fichier, récupérez une transcription propre, puis passez directement à l'édition, à la traduction ou au sous-titrage. Les fichiers jusqu'à 3 Go sont pris en charge, donc les films longs ou les épisodes de podcast de longue durée ne posent aucun problème.
Scribe v2 convertit l'audio parlé en texte précis dans plus de 90 langues, en renvoyant des résultats suffisamment rapides pour s'intégrer dans un véritable flux de travail d'édition. Le problème qu'il résout est celui du temps : transcrire à la main une interview d'une heure prend trois à quatre heures même pour un dactylographe rapide, et le résultat nécessite encore de lourdes corrections. Scribe v2 fait le même travail en quelques minutes, produisant une transcription structurée avec des étiquettes de locuteur, des horodatages au niveau du mot et des balises intégrées pour les sons de fond comme les applaudissements ou les rires. Sur Picasso IA, tout le processus se fait en quelques clics, sans code requis.
Ai-je besoin de compétences en programmation ou de connaissances techniques pour utiliser cela ? Non, ouvrez simplement Scribe v2 sur Picasso IA, ajustez les paramètres souhaités et lancez la génération.
Est-ce gratuit à essayer ? Oui, vous pouvez exécuter Scribe v2 sans abonnement payant pour commencer. Consultez la page de tarification actuelle pour les détails sur les crédits et les options de forfait.
Combien de temps faut-il pour obtenir les résultats ? Un clip de 10 minutes revient généralement en moins d'une minute. Une heure complète d'audio prend habituellement deux à trois minutes. La durée du fichier et le bruit de fond influencent tous deux le temps de traitement.
Quels formats de fichiers prend-il en charge ? Scribe v2 accepte MP3, WAV, M4A, FLAC, OGG, OPUS, WebM, AAC, MP4, MOV, MKV, AVI et plusieurs autres formats audio et vidéo courants. La limite par fichier est de 3 Go et 10 heures.
Peut-il distinguer différents locuteurs dans une conversation ? Oui. Activez la diarisation des locuteurs avant l'exécution et chaque mot de la transcription est étiqueté avec un identifiant de locuteur. Le modèle gère jusqu'à 32 locuteurs distincts dans un seul enregistrement.
Que faire si le modèle transcrit mal un nom ou un terme ? Ajoutez-le au champ des termes clés avant de générer. Vous pouvez lister jusqu'à 1 000 termes, chacun pouvant contenir jusqu'à 50 caractères, et le modèle pondérera ces mots plus fortement pendant la transcription.
Où puis-je utiliser les transcriptions que je génère ? Le résultat est du texte brut sans filigrane ni restriction. Collez-le dans un document, importez-le dans un éditeur de sous-titres ou utilisez-le comme votre projet l'exige.
Tout ce que ce modèle peut faire pour vous
Transcrivez l'audio dans plus de 90 langues, avec détection automatique de la langue pour les enregistrements mixtes ou inconnus.
Identifiez et étiquetez jusqu'à 32 locuteurs individuels, en donnant à chaque mot une balise de locuteur dans le résultat.
Obtenez des heures de début et de fin précises pour chaque mot, prêtes à être synchronisées avec des sous-titres vidéo ou des légendes.
Signalez directement dans la transcription les sons non vocaux comme les rires, les applaudissements ou les pas.
Fournissez une liste jusqu'à 1000 orthographes préférées afin que le modèle privilégie la forme correcte des noms de marque et du jargon.
Téléversez des fichiers audio ou vidéo jusqu'à 3 Go et 10 heures sans les fractionner ni les compresser au préalable.
Supprimez les mots de remplissage, les faux départs et les disfluences pour produire un résultat soigné et lisible.
Prend en charge MP3, WAV, M4A, FLAC, OGG, MP4, MOV, MKV et de nombreux autres formats audio et vidéo.