Granite Speech 4.1 2B: Speech to Text dans 6 langues

Granite Speech 4.1 2B est un modèle compact de reconnaissance vocale conçu pour les personnes qui ont besoin d’une transcription précise dans plusieurs langues sans infrastructure complexe. Que vous soyez podcasteur travaillant avec des invités internationaux, chercheur gérant des entretiens multilingues ou développeur créant une application vocale, il convertit directement l’audio parlé en texte que vous pouvez utiliser immédiatement. Le modèle gère la reconnaissance vocale automatique dans छह langues : anglais, français, allemand, espagnol, portugais et japonais. Au-delà de la transcription, il prend en charge la traduction vocale bidirectionnelle, convertissant un contenu parlé d’une langue en texte écrit dans une autre en une seule étape. Avec seulement 2 milliards de paramètres, il fonctionne efficacement et renvoie des résultats sans les délais typiques des modèles vocaux plus grands. Vous pouvez lui fournir un court clip ou un enregistrement plus long, et il renvoie un texte propre, prêt à être collé dans des documents, des fichiers de sous-titres ou des bases de données. Il s’intègre naturellement dans les flux de production de contenu, les pipelines de service client multilingue et les projets de transcription. Donnez-lui un échantillon audio dès maintenant et obtenez votre transcription en quelques secondes.

Officiel

Ibm Granite

9 exécutions

Granite Speech 4.1 2b

2026-04-27

Usage commercial

Granite Speech 4.1 2B: Speech to Text dans 6 langues

Vue d'ensemble

Granite Speech 4.1 2B transforme l'audio parlé en texte écrit précis dans six langues, résolvant un problème qui bloque de nombreux créateurs et professionnels : obtenir une transcription fiable sans passer des heures à faire du travail manuel. Que vous soyez journaliste travaillant sur des entretiens enregistrés, créateur de contenu extrayant des citations d'un épisode de podcast ou analyste examinant des enregistrements de réunions, ce modèle gère la conversion rapidement. Vous téléversez votre audio sur Picasso IA et recevez une transcription propre et lisible en quelques secondes, ou une traduction si vous avez besoin du contenu dans une autre langue. Il couvre l'anglais, le français, l'allemand, l'espagnol, le portugais et le japonais, avec une traduction bidirectionnelle intégrée entre ces langues.

Comment ça fonctionne

Téléversez votre fichier audio dans l'une des six langues prises en charge, ou importez un enregistrement depuis votre appareil
Rédigez éventuellement un court prompt ou une instruction système pour façonner la sortie, par exemple en demandant un format spécifique ou une traduction vers une langue cible
Ajustez des paramètres comme la temperature ou les limites de jetons si vous souhaitez un contrôle plus strict de la longueur et de la cohérence de la sortie
Lancez la génération et recevez une transcription en texte brut en quelques secondes, adaptée à la durée de l'enregistrement
Copiez le résultat depuis le panneau de sortie et collez-le dans votre document, fichier de sous-titres, rapport ou tout autre outil de votre flux de travail

Foire aux questions

Ai-je besoin de compétences en programmation ou de connaissances techniques pour utiliser cela ? Non, ouvrez simplement Granite Speech 4.1 2B sur Picasso IA, ajustez les paramètres souhaités et lancez la génération.

Est-ce gratuit à essayer ? Oui, vous pouvez exécuter Granite Speech 4.1 2B sans engagement initial. Consultez la page de votre compte pour connaître le crédit ou les détails du forfait actuels.

Quelles langues le modèle prend-il en charge ? Le modèle couvre l'anglais, le français, l'allemand, l'espagnol, le portugais et le japonais. Il peut transcrire la parole dans chacune de ces langues et traduire le contenu audio entre elles dans les deux sens.

Combien de temps faut-il pour obtenir une transcription ? La plupart des clips audio renvoient un résultat en quelques secondes. Les enregistrements plus longs prennent un peu plus de temps selon la durée du fichier et la clarté audio.

Que renvoie le modèle ? Le modèle renvoie du texte brut. Vous pouvez le copier directement depuis le panneau de résultats et le déposer dans n'importe quel document, e-mail, éditeur de sous-titres ou outil de publication.

Puis-je demander au modèle de traduire au lieu de simplement transcrire ? Oui. Utilisez les champs de prompt ou de prompt système pour préciser votre langue cible. Par exemple, écrire "Translate this audio to English" renverra le contenu dans cette langue plutôt que dans la langue d'origine.

Que faire si la transcription contient des erreurs ? Essayez de baisser le paramètre temperature pour une sortie plus cohérente, et assurez-vous que l'enregistrement est aussi clair que possible. Fournir un court prompt de contexte sur le sujet ou le locuteur peut également aider le modèle à produire des résultats plus précis.

Coût des Crédits

Chaque génération consomme 1 crédit

1 crédit

ou 5 crédits pour 5 générations

Fonctionnalités

Tout ce que ce modèle peut faire pour vous

ASR multilingue

Reconnaît la parole en anglais, français, allemand, espagnol, portugais et japonais dès le départ.

Traduction bidirectionnelle

Convertit un audio parlé dans une langue en texte écrit dans une autre sans étape séparée.

Modèle compact de 2B

Renvoie des transcriptions précises plus rapidement que les modèles plus grands grâce à son nombre réduit de paramètres.

Diffusion en temps réel

Produit du texte au fur et à mesure de la génération, afin que vous obteniez des résultats partiels avant la fin du traitement complet de l’audio.

Reproductibilité basée sur une graine

Définissez une valeur de graine pour reproduire une sortie de transcription identique sur plusieurs exécutions.

Contrôles d’échantillonnage

Ajustez les valeurs de temperature, top-k et top-p pour affiner la précision de sortie pour votre audio spécifique.

Modes d’entrée flexibles

Accepte l’audio avec des messages de type chat ou des prompts de complétion standard pour différents styles d’intégration.

Cas d'utilisation

Transcrire un épisode de podcast ou un entretien enregistré en une transcription écrite que vous pouvez modifier et publier

Convertir une note vocale enregistrée en espagnol ou en français en un document texte en anglais en une seule étape

Générer du texte à partir d’un enregistrement audio japonais pour l’archivage, la traduction ou la révision

Transcrire des appels du service client dans plusieurs langues pour les analyser en termes de qualité et de conformité

Extraire le contenu parlé d’un enregistrement de réunion et le coller directement dans des notes ou un résumé

Ajouter une fonctionnalité de saisie vocale dans une application en connectant les données audio à la sortie de transcription du modèle

Créer des sous-titres pour une vidéo multilingue en fournissant la piste audio et en récupérant le texte en retour

Changer de Catégorie

Effets

Texte en image

Texte en vidéo

Grands Modèles de Langage

Texte en parole

Super résolution

Synchronisation labiale

Génération de musique IA

Édition vidéo

Parole en texte

Amélioration vidéo IA

Suppression d'arrière-plan