Granite Speech 4.1 2B est un modèle compact de reconnaissance vocale conçu pour les personnes qui ont besoin d’une transcription précise dans plusieurs langues sans infrastructure complexe. Que vous soyez podcasteur travaillant avec des invités internationaux, chercheur gérant des entretiens multilingues ou développeur créant une application vocale, il convertit directement l’audio parlé en texte que vous pouvez utiliser immédiatement. Le modèle gère la reconnaissance vocale automatique dans छह langues : anglais, français, allemand, espagnol, portugais et japonais. Au-delà de la transcription, il prend en charge la traduction vocale bidirectionnelle, convertissant un contenu parlé d’une langue en texte écrit dans une autre en une seule étape. Avec seulement 2 milliards de paramètres, il fonctionne efficacement et renvoie des résultats sans les délais typiques des modèles vocaux plus grands. Vous pouvez lui fournir un court clip ou un enregistrement plus long, et il renvoie un texte propre, prêt à être collé dans des documents, des fichiers de sous-titres ou des bases de données. Il s’intègre naturellement dans les flux de production de contenu, les pipelines de service client multilingue et les projets de transcription. Donnez-lui un échantillon audio dès maintenant et obtenez votre transcription en quelques secondes.
Granite Speech 4.1 2B transforme l'audio parlé en texte écrit précis dans six langues, résolvant un problème qui bloque de nombreux créateurs et professionnels : obtenir une transcription fiable sans passer des heures à faire du travail manuel. Que vous soyez journaliste travaillant sur des entretiens enregistrés, créateur de contenu extrayant des citations d'un épisode de podcast ou analyste examinant des enregistrements de réunions, ce modèle gère la conversion rapidement. Vous téléversez votre audio sur Picasso IA et recevez une transcription propre et lisible en quelques secondes, ou une traduction si vous avez besoin du contenu dans une autre langue. Il couvre l'anglais, le français, l'allemand, l'espagnol, le portugais et le japonais, avec une traduction bidirectionnelle intégrée entre ces langues.
Ai-je besoin de compétences en programmation ou de connaissances techniques pour utiliser cela ? Non, ouvrez simplement Granite Speech 4.1 2B sur Picasso IA, ajustez les paramètres souhaités et lancez la génération.
Est-ce gratuit à essayer ? Oui, vous pouvez exécuter Granite Speech 4.1 2B sans engagement initial. Consultez la page de votre compte pour connaître le crédit ou les détails du forfait actuels.
Quelles langues le modèle prend-il en charge ? Le modèle couvre l'anglais, le français, l'allemand, l'espagnol, le portugais et le japonais. Il peut transcrire la parole dans chacune de ces langues et traduire le contenu audio entre elles dans les deux sens.
Combien de temps faut-il pour obtenir une transcription ? La plupart des clips audio renvoient un résultat en quelques secondes. Les enregistrements plus longs prennent un peu plus de temps selon la durée du fichier et la clarté audio.
Que renvoie le modèle ? Le modèle renvoie du texte brut. Vous pouvez le copier directement depuis le panneau de résultats et le déposer dans n'importe quel document, e-mail, éditeur de sous-titres ou outil de publication.
Puis-je demander au modèle de traduire au lieu de simplement transcrire ? Oui. Utilisez les champs de prompt ou de prompt système pour préciser votre langue cible. Par exemple, écrire "Translate this audio to English" renverra le contenu dans cette langue plutôt que dans la langue d'origine.
Que faire si la transcription contient des erreurs ? Essayez de baisser le paramètre temperature pour une sortie plus cohérente, et assurez-vous que l'enregistrement est aussi clair que possible. Fournir un court prompt de contexte sur le sujet ou le locuteur peut également aider le modèle à produire des résultats plus précis.
Tout ce que ce modèle peut faire pour vous
Reconnaît la parole en anglais, français, allemand, espagnol, portugais et japonais dès le départ.
Convertit un audio parlé dans une langue en texte écrit dans une autre sans étape séparée.
Renvoie des transcriptions précises plus rapidement que les modèles plus grands grâce à son nombre réduit de paramètres.
Produit du texte au fur et à mesure de la génération, afin que vous obteniez des résultats partiels avant la fin du traitement complet de l’audio.
Définissez une valeur de graine pour reproduire une sortie de transcription identique sur plusieurs exécutions.
Ajustez les valeurs de temperature, top-k et top-p pour affiner la précision de sortie pour votre audio spécifique.
Accepte l’audio avec des messages de type chat ou des prompts de complétion standard pour différents styles d’intégration.