Granite Speech 3.3 8B के साथ ऑडियो को टेक्स्ट में ट्रांसक्राइब करें

Granite Speech 3.3 8B एक कॉम्पैक्ट स्पीच मॉडल है, जिसे दो सटीक कार्यों के लिए बनाया गया है: बोली गई ऑडियो को लिखित टेक्स्ट में बदलना और एक भाषा में बोली गई स्पीच को दूसरी भाषा में लिखित टेक्स्ट में अनुवाद करना। यदि आप रिकॉर्ड किए गए इंटरव्यू, पॉडकास्ट, लेक्चर, या बहुभाषी ऑडियो के साथ काम करते हैं, तो साफ़ ट्रांसक्रिप्ट हाथ से तैयार करने में घंटों लगते हैं। यह मॉडल उस काम को सेकंडों में बदल देता है। मॉडल विभिन्न ऑडियो स्थितियों में बिना आपके किसी विशेष पूर्व-प्रसंस्करण के पठनीय, सटीक ट्रांसक्रिप्ट बनाता है। यह एक ही वर्कफ़्लो में स्वचालित स्पीच पहचान और स्पीच अनुवाद दोनों का समर्थन करता है, इसलिए हर चरण के लिए अलग-अलग टूल की आवश्यकता नहीं होती। temperature, top-k, और top-p जैसे सैंपलिंग नियंत्रण आपको आउटपुट के रूप को सूक्ष्म रूप से समायोजित करने देते हैं, जब सटीकता महत्वपूर्ण हो। आउटपुट को सीधे कंटेंट पाइपलाइन, नोट-टेकिंग सिस्टम, या रिपोर्टिंग टूल में साधारण टेक्स्ट के रूप में डालें, जो संपादन या संग्रह के लिए तैयार हो। Picasso IA पर Granite Speech 3.3 8B हर जगह फिट बैठता है जहाँ ऑडियो आपके वर्कफ़्लो को धीमा करता है, और अपना पहला ट्रांसक्रिप्ट पाने में एक मिनट से भी कम समय लगता है।

आधिकारिक

Ibm Granite

19.3k रन

Granite Speech 3.3 8b

2025-07-15

व्यावसायिक उपयोग

Granite Speech 3.3 8B के साथ ऑडियो को टेक्स्ट में ट्रांसक्राइब करें

अवलोकन

Granite Speech 3.3 8B एक कॉम्पैक्ट स्पीच रिकग्निशन मॉडल है जो बोली गई ऑडियो को बिना किसी कोडिंग या तकनीकी सेटअप के सटीक, पठनीय टेक्स्ट में बदलता है। यह ट्रांसक्रिप्शन और अनुवाद दोनों कार्यों को संभालता है, जिससे यह ऑडियो सामग्री की एक विस्तृत श्रृंखला के लिए उपयोगी बनता है। Picasso IA पर, आप अपनी ऑडियो अपलोड करते हैं, कुछ वैकल्पिक सेटिंग्स समायोजित करते हैं, और सेकंडों में साफ़ टेक्स्ट आउटपुट प्राप्त करते हैं। चाहे आप किसी क्लाइंट कॉल को ट्रांसक्राइब कर रहे हों, वीडियो के लिए कैप्शन बना रहे हों, या रिकॉर्ड की गई मीटिंग से नोट्स निकाल रहे हों, मॉडल आपके लिए रूपांतरण का काम करता है।

यह कैसे काम करता है

अपने डिवाइस से एक या अधिक ऑडियो फ़ाइलें अपलोड करें, जैसे रिकॉर्ड किया गया इंटरव्यू, पॉडकास्ट एपिसोड, या वॉइस मेमो।
मॉडल को संदर्भ देने के लिए एक वैकल्पिक प्रॉम्प्ट या system prompt जोड़ें, जैसे स्पीकर भूमिकाएँ, विषय फोकस, या पसंदीदा आउटपुट फ़ॉर्मेट।
यदि आप नियंत्रित करना चाहते हैं कि कितना टेक्स्ट जनरेट हो और आउटपुट ऑडियो का कितना निकटता से पालन करे, तो अपना टोकन लिमिट और temperature सेट करें।
मॉडल स्पीच को प्रोसेस करता है, शब्दों और वाक्यांशों की पहचान करता है, और जो कहा गया था उसका टेक्स्ट ट्रांसक्रिप्ट लौटाता है।
परिणाम पैनल में आउटपुट की समीक्षा करें, फिर इसे सीधे अपने दस्तावेज़, सबटाइटल फ़ाइल, या वर्कफ़्लो टूल में कॉपी करें।

अक्सर पूछे जाने वाले प्रश्न

क्या इसे उपयोग करने के लिए मुझे प्रोग्रामिंग कौशल या तकनीकी ज्ञान की आवश्यकता है? नहीं, बस Picasso IA पर Granite Speech 3.3 8B खोलें, अपनी इच्छित सेटिंग्स समायोजित करें, और जनरेट पर क्लिक करें।

क्या इसे आज़माना मुफ़्त है? हाँ, आप शुरुआत करने के लिए भुगतान विवरण दर्ज किए बिना Granite Speech 3.3 8B चला सकते हैं। क्रेडिट उपयोग आपके प्लान पर निर्भर करता है।

परिणाम प्राप्त करने में कितना समय लगता है? अधिकांश छोटे ऑडियो क्लिप कुछ सेकंड में एक ट्रांसक्रिप्ट लौटाते हैं। लंबी रिकॉर्डिंग में थोड़ा अधिक समय लगता है, लेकिन 8B पैरामीटर डिज़ाइन प्रोसेसिंग को तेज़ रखता है।

कौन से आउटपुट फ़ॉर्मेट समर्थित हैं? मॉडल साधारण टेक्स्ट लौटाता है। आप ट्रांसक्रिप्ट को कॉपी करके किसी भी दस्तावेज़ संपादक, कैप्शनिंग टूल, या नोट-टेकिंग ऐप में पेस्ट कर सकते हैं, जिसे आप पहले से उपयोग करते हैं।

क्या मैं आउटपुट शैली को अनुकूलित कर सकता हूँ? हाँ। system prompt या user prompt आपको टोन, फ़ॉर्मेट, या फोकस निर्दिष्ट करने देता है। temperature और टोकन सेटिंग्स आपको टेक्स्ट के रूप पर अतिरिक्त नियंत्रण देती हैं।

यह किन भाषाओं का समर्थन करता है? मॉडल को स्वचालित स्पीच रिकग्निशन और बोली गई भाषाओं की एक विस्तृत श्रृंखला में अनुवाद के लिए बनाया गया है। सर्वोत्तम परिणामों के लिए, कम बैकग्राउंड शोर वाली साफ़ ऑडियो का उपयोग करें।

यदि मैं परिणाम से संतुष्ट न हूँ तो क्या होगा? अपना प्रॉम्प्ट समायोजित करें या temperature सेटिंग बदलें और मॉडल को फिर से चलाएँ। क्योंकि हर जनरेशन तेज़ होती है, आमतौर पर उपयोगी ट्रांसक्रिप्ट पाने के लिए केवल कुछ ही प्रयास लगते हैं।

क्रेडिट लागत

प्रत्येक जेनरेशन 1 क्रेडिट का उपयोग करता है

1 क्रेडिट

या 5 क्रेडिट्स 5 जेनेरेशन के लिए

विशेषताएँ

यह मॉडल आपके लिए क्या कर सकता है

सटीक ट्रांसक्रिप्शन

उच्च सटीकता के साथ उच्चारणों और रिकॉर्डिंग स्थितियों में बोली गई शब्दों को साफ़, पठनीय टेक्स्ट में बदलता है।

स्पीच अनुवाद

एक भाषा में ऑडियो को प्रोसेस करता है और दूसरी भाषा में लिखित टेक्स्ट आउटपुट करता है, जिससे अलग अनुवाद चरण की आवश्यकता समाप्त हो जाती है।

कॉम्पैक्ट मॉडल आकार

8B पैरामीटर डिज़ाइन बहुत बड़े स्पीच मॉडलों की तुलना में कम विलंबता के साथ कुशलतापूर्वक चलता है।

लचीला ऑडियो इनपुट

एक ही रन में कई ऑडियो फ़ाइलें स्वीकार करता है, जिससे आप एक साथ कई रिकॉर्डिंग प्रोसेस कर सकते हैं।

सैंपलिंग नियंत्रण

ट्रांसक्रिप्ट आउटपुट कितना निर्धारक या विविध है, इसे ट्यून करने के लिए temperature, top-k, और top-p समायोजित करें।

कस्टम प्रॉम्प्टिंग

ट्रांसक्रिप्शन शैली, विराम चिह्न, या आउटपुट फ़ॉर्मेटिंग को निर्देशित करने के लिए system prompt या user prompt जोड़ें।

स्टॉप सीक्वेंस समर्थन

जनरेशन को जल्दी रोकने के लिए विशिष्ट टोकन परिभाषित करें, जिससे आपको आउटपुट लंबाई पर अधिक सटीक नियंत्रण मिलता है।

उपयोग के मामले

ऑडियो फ़ाइल सीधे अपलोड करके रिकॉर्ड किए गए इंटरव्यू को टेक्स्ट दस्तावेज़ में ट्रांसक्राइब करें

पॉडकास्ट एपिसोड को शो नोट्स या क्लोज़्ड कैप्शंस के लिए पठनीय स्क्रिप्ट में बदलें

किसी विदेशी भाषा की बोली गई ऑडियो को अपनी लक्ष्य भाषा में लिखित टेक्स्ट में अनुवाद करें

बोली गई सामग्री को टेक्स्ट फ़ाइल में ट्रांसक्राइब करके प्रशिक्षण वीडियो के लिए सबटाइटल जनरेट करें

मीटिंग के वॉइस मेमो को एक लिखित सारांश में बदलें, जिसे आप अपनी टीम के साथ साझा कर सकें

आंतरिक समीक्षा और गुणवत्ता जाँच के लिए ग्राहक सहायता कॉल को टेक्स्ट लॉग में ट्रांसक्राइब करें

लेक्चर रिकॉर्डिंग को टेक्स्ट नोट्स में बदलें जिन्हें छात्र पढ़, खोज और एनोटेट कर सकें

श्रेणी बदलें

इफेक्ट्स

टेक्स्ट से इमेज

टेक्स्ट से वीडियो

बड़े भाषा मॉडल

टेक्स्ट से स्पीच

सुपर रेजोल्यूशन

लिपसिंक

AI संगीत निर्माण

वीडियो संपादन

स्पीच से टेक्स्ट

AI वीडियो एन्हांस

बैकग्राउंड हटाएँ