• Picasso IA लोगो
    Logo Picasso IA
  • होम
  • AI इमेज
    Nano Banana 2
  • AI वीडियो
    Veo 3.1 Lite
  • AI चैट
    Gemini 3 Pro
  • इमेज एडिट करें
  • इमेज सुधारें
  • बैकग्राउंड हटाएं
  • टेक्स्ट टू स्पीच
  • इफ़ेक्ट्स
    NEW
  • पीढ़ियाँ
  • बिलिंग
  • सहायता
  • खाता
  1. संग्रह
  2. स्पीच टू टेक्स्ट
  3. Granite Speech 4.1 2b

Granite Speech 4.1 2B: 6 भाषाओं में भाषण से पाठ

Granite Speech 4.1 2B एक कॉम्पैक्ट स्पीच रिकग्निशन मॉडल है, जो उन लोगों के लिए बनाया गया है जिन्हें जटिल अवसंरचना के बिना कई भाषाओं में सटीक ट्रांसक्रिप्शन की आवश्यकता होती है। चाहे आप अंतरराष्ट्रीय मेहमानों के साथ काम करने वाले पॉडकास्टर हों, बहुभाषी साक्षात्कारों को संभालने वाले शोधकर्ता हों, या वॉयस-सक्षम ऐप बना रहे डेवलपर हों, यह बोले गए ऑडियो को सीधे ऐसे पाठ में बदल देता है जिसे आप तुरंत उपयोग कर सकते हैं। यह मॉडल छह भाषाओं में स्वचालित भाषण पहचान को संभालता है: अंग्रेज़ी, फ़्रेंच, जर्मन, स्पेनिश, पुर्तगाली और जापानी। ट्रांसक्रिप्शन के अलावा, यह द्विदिश भाषण अनुवाद का समर्थन करता है, जो बोले गए कंटेंट को एक भाषा से दूसरी भाषा के लिखित पाठ में एक ही चरण में बदल देता है। सिर्फ 2 अरब पैरामीटर के साथ, यह कुशलता से चलता है और बड़े स्पीच मॉडल्स की सामान्य देरी के बिना परिणाम देता है। आप इसे एक छोटी क्लिप या लंबी रिकॉर्डिंग दे सकते हैं, और यह साफ़ पाठ लौटाता है जिसे दस्तावेज़ों, सबटाइटल फ़ाइलों या डेटाबेस में तुरंत चिपकाया जा सकता है। यह कंटेंट उत्पादन वर्कफ़्लोज़, बहुभाषी ग्राहक सेवा पाइपलाइनों और ट्रांसक्रिप्शन प्रोजेक्ट्स में स्वाभाविक रूप से फिट बैठता है। अभी इसे एक ऑडियो सैंपल दें और कुछ ही सेकंड में अपना ट्रांसक्रिप्ट प्राप्त करें।

आधिकारिक

Ibm Granite

9 रन

Granite Speech 4.1 2b

2026-04-27

व्यावसायिक उपयोग

Granite Speech 4.1 2B: 6 भाषाओं में भाषण से पाठ

विषय-सूची

  • अवलोकन
  • यह कैसे काम करता है
  • अक्सर पूछे जाने वाले प्रश्न
  • क्रेडिट लागत
  • विशेषताएँ
  • उपयोग के मामले
Nano Banana Pro प्राप्त करें

अवलोकन

Granite Speech 4.1 2B बोले गए ऑडियो को छह भाषाओं में सटीक लिखित पाठ में बदलता है, जिससे एक ऐसी समस्या हल होती है जो कई रचनाकारों और पेशेवरों को रोक देती है: घंटों मैनुअल काम किए बिना भरोसेमंद ट्रांसक्रिप्ट प्राप्त करना। चाहे आप रिकॉर्ड किए गए इंटरव्यू पर काम करने वाले पत्रकार हों, पॉडकास्ट एपिसोड से उद्धरण निकालने वाले कंटेंट क्रिएटर हों, या मीटिंग रिकॉर्डिंग की समीक्षा करने वाले विश्लेषक हों, यह मॉडल रूपांतरण को तेज़ी से संभालता है। आप अपना ऑडियो Picasso IA पर अपलोड करते हैं और कुछ ही सेकंड में एक साफ़, पढ़ने योग्य ट्रांसक्रिप्ट प्राप्त करते हैं, या यदि आपको कंटेंट किसी अलग भाषा में चाहिए तो अनुवाद भी मिलता है। यह अंग्रेज़ी, फ़्रेंच, जर्मन, स्पेनिश, पुर्तगाली और जापानी को कवर करता है, और इन भाषाओं के बीच द्विदिश अनुवाद अंतर्निहित है।

यह कैसे काम करता है

  • अपनी ऑडियो फ़ाइल छह समर्थित भाषाओं में से किसी एक में अपलोड करें, या अपने डिवाइस से कोई रिकॉर्डिंग पास करें
  • वैकल्पिक रूप से आउटपुट को आकार देने के लिए एक छोटा prompt या system instruction लिखें, जैसे किसी विशिष्ट प्रारूप का अनुरोध करना या किसी target language में अनुवाद माँगना
  • यदि आप आउटपुट की लंबाई और स्थिरता पर अधिक नियंत्रण चाहते हैं, तो temperature या token limits जैसी सेटिंग्स समायोजित करें
  • generate पर क्लिक करें और रिकॉर्डिंग की लंबाई के अनुसार कुछ ही सेकंड में plain-text transcript प्राप्त करें
  • परिणाम को output panel से कॉपी करें और उसे अपने दस्तावेज़, subtitle file, report, या अपने workflow के किसी अन्य टूल में चिपकाएँ

अक्सर पूछे जाने वाले प्रश्न

क्या इसे उपयोग करने के लिए मुझे programming skills या technical knowledge की आवश्यकता है? नहीं, बस Picasso IA पर Granite Speech 4.1 2B खोलें, अपनी पसंद की settings समायोजित करें, और generate पर क्लिक करें।

क्या इसे आज़माना मुफ़्त है? हाँ, आप बिना किसी अग्रिम प्रतिबद्धता के Granite Speech 4.1 2B चला सकते हैं। वर्तमान credit या plan details के लिए अपने account page की जाँच करें।

मॉडल किन भाषाओं का समर्थन करता है? मॉडल अंग्रेज़ी, फ़्रेंच, जर्मन, स्पेनिश, पुर्तगाली और जापानी को कवर करता है। यह इन भाषाओं में किसी भी भाषा के भीतर भाषण का ट्रांसक्रिप्शन कर सकता है और इनके बीच दोनों दिशाओं में ऑडियो कंटेंट का अनुवाद कर सकता है।

ट्रांसक्रिप्ट प्राप्त करने में कितना समय लगता है? अधिकांश ऑडियो क्लिप्स कुछ ही सेकंड में परिणाम लौटाते हैं। लंबी रिकॉर्डिंग्स को फ़ाइल की लंबाई और ऑडियो स्पष्टता के आधार पर थोड़ा अधिक समय लगता है।

मॉडल क्या लौटाता है? मॉडल plain text लौटाता है। आप इसे सीधे results panel से कॉपी करके किसी भी दस्तावेज़, ईमेल, subtitle editor, या publishing tool में डाल सकते हैं।

क्या मैं मॉडल से सिर्फ transcribe करने के बजाय अनुवाद करने के लिए कह सकता हूँ? हाँ। अपना target language निर्दिष्ट करने के लिए prompt या system prompt फ़ील्ड का उपयोग करें। उदाहरण के लिए, "इस ऑडियो का English में अनुवाद करें" लिखने पर कंटेंट मूल के बजाय उसी भाषा में वापस मिलेगा।

अगर ट्रांसक्रिप्ट में गलतियाँ हों तो क्या होगा? अधिक सुसंगत आउटपुट के लिए temperature setting कम करने का प्रयास करें, और सुनिश्चित करें कि रिकॉर्डिंग यथासंभव स्पष्ट हो। विषय या वक्ता के बारे में एक छोटा context prompt देने से भी मॉडल को अधिक सटीक परिणाम देने में मदद मिल सकती है।

क्रेडिट लागत

प्रत्येक जेनरेशन 1 क्रेडिट का उपयोग करता है

1 क्रेडिट

या 5 क्रेडिट्स 5 जेनेरेशन के लिए

विशेषताएँ

यह मॉडल आपके लिए क्या कर सकता है

बहुभाषी ASR

अंग्रेज़ी, फ़्रेंच, जर्मन, स्पेनिश, पुर्तगाली और जापानी में भाषण को तुरंत पहचानता है।

द्विदिश अनुवाद

एक भाषा के बोले गए ऑडियो को बिना अलग चरण के दूसरी भाषा के लिखित पाठ में बदलता है।

कॉम्पैक्ट 2B मॉडल

अपने छोटे पैरामीटर गणना के कारण बड़े मॉडलों की तुलना में अधिक तेज़ी से सटीक ट्रांसक्रिप्शन लौटाता है।

रीयल-टाइम स्ट्रीमिंग

जैसे-जैसे पाठ जनरेट होता है, वैसे-वैसे आउटपुट देता है, ताकि पूरी ऑडियो प्रोसेसिंग समाप्त होने से पहले ही आपको आंशिक परिणाम मिल जाएँ।

सीड-आधारित पुनरुत्पादकता

कई रन में एक जैसा ट्रांसक्रिप्शन आउटपुट पाने के लिए एक सीड मान सेट करें।

सैंपलिंग नियंत्रण

अपनी विशिष्ट ऑडियो के लिए आउटपुट सटीकता को अनुकूलित करने हेतु temperature, top-k, और top-p मान समायोजित करें।

लचीले इनपुट मोड

विभिन्न इंटीग्रेशन शैलियों के लिए ऑडियो के साथ चैट-शैली संदेश या मानक completion prompts स्वीकार करता है।

उपयोग के मामले

रिकॉर्ड किए गए पॉडकास्ट एपिसोड या इंटरव्यू को एक लिखित ट्रांसक्रिप्ट में बदलें जिसे आप संपादित और प्रकाशित कर सकें

स्पेनिश या फ़्रेंच में रिकॉर्ड किए गए वॉइस मेमो को एक ही चरण में अंग्रेज़ी टेक्स्ट दस्तावेज़ में बदलें

संग्रहण, अनुवाद या समीक्षा के लिए एक जापानी ऑडियो रिकॉर्डिंग से पाठ जनरेट करें

गुणवत्ता और अनुपालन विश्लेषण के लिए कई भाषाओं में ग्राहक सेवा कॉल्स को ट्रांसक्राइब करें

मीटिंग रिकॉर्डिंग से बोले गए कंटेंट को निकालें और उसे सीधे नोट्स या सारांश में चिपकाएँ

ऑडियो डेटा को मॉडल के ट्रांसक्रिप्शन आउटपुट से जोड़कर ऐप में वॉयस इनपुट फीचर बनाएँ

ऑडियो ट्रैक को फीड करके और पाठ वापस प्राप्त करके बहुभाषी वीडियो के लिए सबटाइटल बनाएँ

श्रेणी बदलें

इफेक्ट्स

टेक्स्ट से इमेज

टेक्स्ट से इमेज

टेक्स्ट से वीडियो

बड़े भाषा मॉडल

बड़े भाषा मॉडल

टेक्स्ट से स्पीच

टेक्स्ट से स्पीच

सुपर रेजोल्यूशन

सुपर रेजोल्यूशन

लिपसिंक

AI संगीत निर्माण

AI संगीत निर्माण

वीडियो संपादन

स्पीच से टेक्स्ट

स्पीच से टेक्स्ट

AI वीडियो एन्हांस

AI वीडियो एन्हांस

बैकग्राउंड हटाएँ

बैकग्राउंड हटाएँ