Transcrire l’audio en texte avec Granite Speech 3.3 8B

Granite Speech 3.3 8B est un modèle vocal compact conçu pour deux tâches précises : convertir un audio parlé en texte écrit et traduire la parole d’une langue vers un texte écrit dans une autre. Si vous travaillez avec des interviews enregistrées, des podcasts, des conférences ou de l’audio multilingue, obtenir des transcriptions propres manuellement prend des heures. Ce modèle réduit cela à quelques secondes. Le modèle produit des transcriptions lisibles et précises sur une gamme de conditions audio, sans prétraitement spécial de votre part. Il prend en charge à la fois la reconnaissance vocale automatique et la traduction vocale dans un seul flux de travail, vous n’avez donc pas besoin d’outils séparés pour chaque étape. Des contrôles d’échantillonnage comme temperature, top-k et top-p vous permettent d’affiner la manière dont le résultat se lit lorsque la précision compte. Intégrez directement le résultat dans une chaîne de contenu, un système de prise de notes ou un outil de rapport sous forme de texte brut prêt à être modifié ou stocké. Granite Speech 3.3 8B sur Picasso IA s’adapte partout où l’audio ralentit votre flux de travail, et il faut moins d’une minute pour obtenir votre première transcription.

Officiel

Ibm Granite

19.3k exécutions

Granite Speech 3.3 8b

2025-07-15

Usage commercial

Transcrire l’audio en texte avec Granite Speech 3.3 8B

Aperçu

Granite Speech 3.3 8B est un modèle compact de reconnaissance vocale qui convertit un audio parlé en texte précis et lisible sans aucun codage ni configuration technique. Il gère à la fois les tâches de transcription et de traduction, ce qui le rend utile pour un large éventail de contenus audio. Sur Picasso IA, vous téléversez votre audio, ajustez quelques paramètres facultatifs et obtenez en quelques secondes un résultat texte propre. Que vous transcriviez un appel client, ajoutiez des sous-titres à une vidéo ou extrayiez des notes d’une réunion enregistrée, le modèle effectue la conversion pour vous.

Comment ça fonctionne

Téléversez un ou plusieurs fichiers audio depuis votre appareil, comme une interview enregistrée, un épisode de podcast ou une note vocale.
Ajoutez un prompt facultatif ou un prompt système pour donner du contexte au modèle, comme les rôles des intervenants, le sujet à privilégier ou le format de sortie souhaité.
Définissez votre limite de jetons et la température si vous souhaitez contrôler la quantité de texte générée et la précision avec laquelle la sortie suit l’audio.
Le modèle traite la parole, identifie les mots et les phrases, puis renvoie une transcription textuelle de ce qui a été dit.
Examinez le résultat dans le panneau des résultats, puis copiez-le directement dans votre document, votre fichier de sous-titres ou votre outil de travail.

Questions fréquemment posées

Ai-je besoin de compétences en programmation ou de connaissances techniques pour l’utiliser ? Non, ouvrez simplement Granite Speech 3.3 8B sur Picasso IA, ajustez les paramètres souhaités et lancez la génération.

Est-ce gratuit à essayer ? Oui, vous pouvez exécuter Granite Speech 3.3 8B sans saisir de détails de paiement pour commencer. L’utilisation des crédits dépend du forfait auquel vous avez souscrit.

Combien de temps faut-il pour obtenir des résultats ? La plupart des courts extraits audio renvoient une transcription en quelques secondes. Les enregistrements plus longs prennent un peu plus de temps, mais la conception à 8B paramètres maintient un traitement rapide.

Quels formats de sortie sont pris en charge ? Le modèle renvoie du texte brut. Vous pouvez copier la transcription et la coller dans n’importe quel éditeur de document, outil de sous-titrage ou application de prise de notes que vous utilisez déjà.

Puis-je personnaliser le style de sortie ? Oui. Un prompt système ou un prompt utilisateur vous permet de préciser le ton, le format ou le focus. Les réglages de température et de jetons vous donnent un contrôle supplémentaire sur la lecture du texte.

Quelles langues prend-il en charge ? Le modèle est conçu pour la reconnaissance vocale automatique et la traduction dans un large éventail de langues parlées. Pour de meilleurs résultats, utilisez un audio clair avec un bruit de fond minimal.

Que se passe-t-il si le résultat ne me satisfait pas ? Ajustez votre prompt ou modifiez le réglage de température, puis relancez le modèle. Comme chaque génération est rapide, il faut généralement seulement quelques essais pour obtenir une transcription utilisable.

Coût des Crédits

Chaque génération consomme 1 crédit

1 crédit

ou 5 crédits pour 5 générations

Fonctionnalités

Tout ce que ce modèle peut faire pour vous

Transcription précise

Convertit les mots parlés en texte propre et lisible avec une grande précision dans différents accents et conditions d’enregistrement.

Traduction vocale

Traite l’audio dans une langue et produit un texte écrit dans une autre, supprimant ainsi une étape de traduction séparée.

Taille compacte du modèle

La conception à 8B paramètres fonctionne efficacement sans la latence des modèles vocaux beaucoup plus grands.

Entrée audio flexible

Accepte plusieurs fichiers audio dans une seule exécution, ce qui vous permet de traiter plusieurs enregistrements à la fois.

Contrôles d’échantillonnage

Ajustez temperature, top-k et top-p pour régler le caractère déterministe ou varié du résultat de transcription.

Prompt personnalisé

Ajoutez un prompt système ou un prompt utilisateur pour guider le style de transcription, la ponctuation ou le format de sortie.

Prise en charge des séquences d’arrêt

Définissez des jetons spécifiques pour arrêter la génération plus tôt, ce qui vous donne un contrôle plus précis sur la longueur de la sortie.

Cas d'utilisation

Transcrire une interview enregistrée en document texte en téléversant directement le fichier audio

Convertir des épisodes de podcast en scripts lisibles pour les notes d’émission ou les sous-titres

Traduire un audio parlé d’une langue étrangère en texte écrit dans votre langue cible

Générer des sous-titres pour une vidéo de formation en transcrivant le contenu parlé dans un fichier texte

Transformer des notes vocales d’une réunion en résumé écrit que vous pouvez partager avec votre équipe

Transcrire des appels du support client en journaux texte pour examen interne et contrôles qualité

Convertir des enregistrements de cours en notes textuelles que les étudiants peuvent lire, rechercher et annoter

Changer de Catégorie

Effets

Texte en image

Texte en vidéo

Grands Modèles de Langage

Texte en parole

Super résolution

Synchronisation labiale

Génération de musique IA

Édition vidéo

Parole en texte

Amélioration vidéo IA

Suppression d'arrière-plan