Granite Speech 4.1 2B एक कॉम्पैक्ट स्पीच रिकग्निशन मॉडल है, जो उन लोगों के लिए बनाया गया है जिन्हें जटिल अवसंरचना के बिना कई भाषाओं में सटीक ट्रांसक्रिप्शन की आवश्यकता होती है। चाहे आप अंतरराष्ट्रीय मेहमानों के साथ काम करने वाले पॉडकास्टर हों, बहुभाषी साक्षात्कारों को संभालने वाले शोधकर्ता हों, या वॉयस-सक्षम ऐप बना रहे डेवलपर हों, यह बोले गए ऑडियो को सीधे ऐसे पाठ में बदल देता है जिसे आप तुरंत उपयोग कर सकते हैं। यह मॉडल छह भाषाओं में स्वचालित भाषण पहचान को संभालता है: अंग्रेज़ी, फ़्रेंच, जर्मन, स्पेनिश, पुर्तगाली और जापानी। ट्रांसक्रिप्शन के अलावा, यह द्विदिश भाषण अनुवाद का समर्थन करता है, जो बोले गए कंटेंट को एक भाषा से दूसरी भाषा के लिखित पाठ में एक ही चरण में बदल देता है। सिर्फ 2 अरब पैरामीटर के साथ, यह कुशलता से चलता है और बड़े स्पीच मॉडल्स की सामान्य देरी के बिना परिणाम देता है। आप इसे एक छोटी क्लिप या लंबी रिकॉर्डिंग दे सकते हैं, और यह साफ़ पाठ लौटाता है जिसे दस्तावेज़ों, सबटाइटल फ़ाइलों या डेटाबेस में तुरंत चिपकाया जा सकता है। यह कंटेंट उत्पादन वर्कफ़्लोज़, बहुभाषी ग्राहक सेवा पाइपलाइनों और ट्रांसक्रिप्शन प्रोजेक्ट्स में स्वाभाविक रूप से फिट बैठता है। अभी इसे एक ऑडियो सैंपल दें और कुछ ही सेकंड में अपना ट्रांसक्रिप्ट प्राप्त करें।
Granite Speech 4.1 2B बोले गए ऑडियो को छह भाषाओं में सटीक लिखित पाठ में बदलता है, जिससे एक ऐसी समस्या हल होती है जो कई रचनाकारों और पेशेवरों को रोक देती है: घंटों मैनुअल काम किए बिना भरोसेमंद ट्रांसक्रिप्ट प्राप्त करना। चाहे आप रिकॉर्ड किए गए इंटरव्यू पर काम करने वाले पत्रकार हों, पॉडकास्ट एपिसोड से उद्धरण निकालने वाले कंटेंट क्रिएटर हों, या मीटिंग रिकॉर्डिंग की समीक्षा करने वाले विश्लेषक हों, यह मॉडल रूपांतरण को तेज़ी से संभालता है। आप अपना ऑडियो Picasso IA पर अपलोड करते हैं और कुछ ही सेकंड में एक साफ़, पढ़ने योग्य ट्रांसक्रिप्ट प्राप्त करते हैं, या यदि आपको कंटेंट किसी अलग भाषा में चाहिए तो अनुवाद भी मिलता है। यह अंग्रेज़ी, फ़्रेंच, जर्मन, स्पेनिश, पुर्तगाली और जापानी को कवर करता है, और इन भाषाओं के बीच द्विदिश अनुवाद अंतर्निहित है।
क्या इसे उपयोग करने के लिए मुझे programming skills या technical knowledge की आवश्यकता है? नहीं, बस Picasso IA पर Granite Speech 4.1 2B खोलें, अपनी पसंद की settings समायोजित करें, और generate पर क्लिक करें।
क्या इसे आज़माना मुफ़्त है? हाँ, आप बिना किसी अग्रिम प्रतिबद्धता के Granite Speech 4.1 2B चला सकते हैं। वर्तमान credit या plan details के लिए अपने account page की जाँच करें।
मॉडल किन भाषाओं का समर्थन करता है? मॉडल अंग्रेज़ी, फ़्रेंच, जर्मन, स्पेनिश, पुर्तगाली और जापानी को कवर करता है। यह इन भाषाओं में किसी भी भाषा के भीतर भाषण का ट्रांसक्रिप्शन कर सकता है और इनके बीच दोनों दिशाओं में ऑडियो कंटेंट का अनुवाद कर सकता है।
ट्रांसक्रिप्ट प्राप्त करने में कितना समय लगता है? अधिकांश ऑडियो क्लिप्स कुछ ही सेकंड में परिणाम लौटाते हैं। लंबी रिकॉर्डिंग्स को फ़ाइल की लंबाई और ऑडियो स्पष्टता के आधार पर थोड़ा अधिक समय लगता है।
मॉडल क्या लौटाता है? मॉडल plain text लौटाता है। आप इसे सीधे results panel से कॉपी करके किसी भी दस्तावेज़, ईमेल, subtitle editor, या publishing tool में डाल सकते हैं।
क्या मैं मॉडल से सिर्फ transcribe करने के बजाय अनुवाद करने के लिए कह सकता हूँ? हाँ। अपना target language निर्दिष्ट करने के लिए prompt या system prompt फ़ील्ड का उपयोग करें। उदाहरण के लिए, "इस ऑडियो का English में अनुवाद करें" लिखने पर कंटेंट मूल के बजाय उसी भाषा में वापस मिलेगा।
अगर ट्रांसक्रिप्ट में गलतियाँ हों तो क्या होगा? अधिक सुसंगत आउटपुट के लिए temperature setting कम करने का प्रयास करें, और सुनिश्चित करें कि रिकॉर्डिंग यथासंभव स्पष्ट हो। विषय या वक्ता के बारे में एक छोटा context prompt देने से भी मॉडल को अधिक सटीक परिणाम देने में मदद मिल सकती है।
यह मॉडल आपके लिए क्या कर सकता है
अंग्रेज़ी, फ़्रेंच, जर्मन, स्पेनिश, पुर्तगाली और जापानी में भाषण को तुरंत पहचानता है।
एक भाषा के बोले गए ऑडियो को बिना अलग चरण के दूसरी भाषा के लिखित पाठ में बदलता है।
अपने छोटे पैरामीटर गणना के कारण बड़े मॉडलों की तुलना में अधिक तेज़ी से सटीक ट्रांसक्रिप्शन लौटाता है।
जैसे-जैसे पाठ जनरेट होता है, वैसे-वैसे आउटपुट देता है, ताकि पूरी ऑडियो प्रोसेसिंग समाप्त होने से पहले ही आपको आंशिक परिणाम मिल जाएँ।
कई रन में एक जैसा ट्रांसक्रिप्शन आउटपुट पाने के लिए एक सीड मान सेट करें।
अपनी विशिष्ट ऑडियो के लिए आउटपुट सटीकता को अनुकूलित करने हेतु temperature, top-k, और top-p मान समायोजित करें।
विभिन्न इंटीग्रेशन शैलियों के लिए ऑडियो के साथ चैट-शैली संदेश या मानक completion prompts स्वीकार करता है।