Scribe v2: 90+ भाषाओं के लिए AI Speech to Text

Scribe v2 बोले गए ऑडियो को लिखित टेक्स्ट में बदलता है, जिसमें एक त्वरित वॉइस मेमो से लेकर 10 घंटे की कॉन्फ़्रेंस रिकॉर्डिंग तक सब कुछ संभाला जाता है। यदि आपने कभी इंटरव्यू या मीटिंग नोट्स को मैन्युअल रूप से टाइप करने में घंटे बिताए हैं, तो यह मॉडल उस काम को सेकंडों में बदल देता है। यह MP3, WAV, M4A, वीडियो फ़ाइलें, और दर्जनों अन्य फ़ॉर्मैट पढ़ता है, इसलिए शुरू करने से पहले आपको कुछ भी कन्वर्ट करने की ज़रूरत नहीं पड़ती। यह मॉडल 90 से अधिक भाषाओं का समर्थन करता है और स्वचालित रूप से पहचान सकता है कि कौन-सी भाषा बोली जा रही है, जिससे यह बहुभाषी रिकॉर्डिंग के लिए व्यावहारिक बनता है। यह 32 तक अलग-अलग स्पीकरों को अलग करता है और हर शब्द को इस आधार पर लेबल करता है कि उसे किसने कहा, ताकि ग्रुप इंटरव्यू या पैनल चर्चाओं के ट्रांसक्रिप्ट व्यवस्थित रहें। आप उत्पाद नामों या तकनीकी शब्दों की एक सूची भी दे सकते हैं ताकि ऑडियो गुणवत्ता खराब होने पर मॉडल सही वर्तनी की ओर निर्देशित हो सके। पत्रकार, शोधकर्ता, पॉडकास्ट संपादक, और ग्राहक सहायता टीमें सभी अपने संपादन कार्यप्रवाह में पहले कदम के रूप में speech-to-text टूल्स का उपयोग करती हैं। Scribe v2 उस शुरुआती बिंदु पर स्वाभाविक रूप से फिट बैठता है: अपनी फ़ाइल डालें, एक साफ़ ट्रांसक्रिप्ट वापस पाएं, और सीधे संपादन, अनुवाद, या उपशीर्षक बनाने में आगे बढ़ें। 3 GB तक की फ़ाइलें समर्थित हैं, इसलिए पूरी लंबाई की फ़िल्में या लंबे पॉडकास्ट एपिसोड कोई समस्या नहीं हैं।

आधिकारिक

Elevenlabs

15.7k रन

Scribe V2

2026-05-05

व्यावसायिक उपयोग

Scribe v2: 90+ भाषाओं के लिए AI Speech to Text

अवलोकन

Scribe v2 बोले गए ऑडियो को 90 से अधिक भाषाओं में सटीक टेक्स्ट में बदलता है, और ऐसे तेज़ परिणाम देता है जो वास्तविक संपादन कार्यप्रवाह में फिट हो सकें। यह जिस समस्या का समाधान करता है वह है समय: एक घंटे लंबे इंटरव्यू को हाथ से ट्रांसक्राइब करने में एक तेज़ टाइपिस्ट को भी तीन से चार घंटे लगते हैं, और आउटपुट को फिर भी भारी सुधार की आवश्यकता होती है। Scribe v2 यही काम मिनटों में करता है, स्पीकर लेबल, शब्द-स्तरीय टाइमस्टैम्प, और तालियों या हँसी जैसी पृष्ठभूमि ध्वनियों के लिए इनलाइन टैग्स के साथ एक संरचित ट्रांसक्रिप्ट तैयार करता है। Picasso IA पर, पूरी प्रक्रिया बस कुछ क्लिक की है, कोई कोड आवश्यक नहीं।

यह कैसे काम करता है

अपनी ऑडियो या वीडियो फ़ाइल अपलोड करें। समर्थित फ़ॉर्मैट में MP3, WAV, M4A, FLAC, MP4, MOV, MKV, और कई अन्य शामिल हैं। 3 GB तक और 10 घंटे लंबी फ़ाइलें स्वीकार की जाती हैं।
यदि आपको भाषा पता है तो उसे सेट करें, या पहचान को स्वचालित पर छोड़ दें। भाषा निर्दिष्ट करने से शोरयुक्त या बहुत अधिक उच्चारण वाली रिकॉर्डिंग में सटीकता बेहतर होती है।
यदि आपकी रिकॉर्डिंग में कई आवाज़ें हैं, तो speaker diarization चालू करें। जितने स्पीकर आप अपेक्षित हैं, उनकी संख्या दर्ज करें ताकि मॉडल उन्हें साफ़-साफ़ अलग कर सके।
अंतिम टेक्स्ट में सही रूप से दिखाई देने के लिए किसी भी उत्पाद नाम, उचित संज्ञा, या तकनीकी वाक्यांश के keyterms जोड़ें। 1,000 तक terms स्वीकार किए जाते हैं।
मॉडल चलाएँ। आपका ट्रांसक्रिप्ट टाइमस्टैम्प, प्रत्येक शब्द या सेगमेंट पर स्पीकर लेबल, और जहाँ भी गैर-भाषण ध्वनियाँ होती हैं वहाँ audio event tags के साथ वापस आता है।

अक्सर पूछे जाने वाले प्रश्न

क्या इसे उपयोग करने के लिए मुझे प्रोग्रामिंग कौशल या तकनीकी ज्ञान चाहिए? नहीं, बस Picasso IA पर Scribe v2 खोलें, अपनी इच्छित सेटिंग्स समायोजित करें, और generate दबाएँ।

क्या इसे आज़माना मुफ़्त है? हाँ, शुरू करने के लिए आप Scribe v2 को बिना paid subscription के चला सकते हैं। credit details और plan options के लिए वर्तमान pricing page देखें।

परिणाम मिलने में कितना समय लगता है? 10 मिनट की क्लिप आमतौर पर एक मिनट से भी कम में वापस आ जाती है। एक घंटे का पूरा ऑडियो आमतौर पर दो से तीन मिनट लेता है। फ़ाइल की लंबाई और पृष्ठभूमि शोर दोनों processing time को प्रभावित करते हैं।

यह किन फ़ाइल फ़ॉर्मैट्स को सपोर्ट करता है? Scribe v2 MP3, WAV, M4A, FLAC, OGG, OPUS, WebM, AAC, MP4, MOV, MKV, AVI, और कई अन्य सामान्य ऑडियो और वीडियो फ़ॉर्मैट्स स्वीकार करता है। प्रति फ़ाइल सीमा 3 GB और 10 घंटे है।

क्या यह बातचीत में अलग-अलग स्पीकरों को अलग बता सकता है? हाँ। चलाने से पहले speaker diarization सक्षम करें और ट्रांसक्रिप्ट में हर शब्द को speaker ID के साथ टैग किया जाता है। मॉडल एक ही रिकॉर्डिंग में 32 तक अलग स्पीकरों को संभालता है।

यदि मॉडल किसी नाम या शब्द को गलत ट्रांसक्राइब करे तो क्या होगा? जनरेट करने से पहले उसे keyterms फ़ील्ड में जोड़ें। आप 1,000 तक terms सूचीबद्ध कर सकते हैं, प्रत्येक 50 characters तक, और ट्रांसक्रिप्शन के दौरान मॉडल उन शब्दों को अधिक महत्व देगा।

मैं अपने द्वारा जनरेट किए गए ट्रांसक्रिप्ट कहाँ उपयोग कर सकता हूँ? आउटपुट बिना watermark या restrictions के plain text होता है। इसे किसी दस्तावेज़ में पेस्ट करें, subtitle editor में डालें, या अपने प्रोजेक्ट की आवश्यकता के अनुसार जैसे चाहें उपयोग करें।

क्रेडिट लागत

प्रत्येक जेनरेशन 1 क्रेडिट का उपयोग करता है

1 क्रेडिट

या 5 क्रेडिट्स 5 जेनेरेशन के लिए

विशेषताएँ

यह मॉडल आपके लिए क्या कर सकता है

90+ भाषा समर्थन

90 से अधिक भाषाओं में ऑडियो ट्रांसक्राइब करें, मिश्रित या अज्ञात रिकॉर्डिंग के लिए स्वचालित भाषा पहचान के साथ।

स्पीकर डायराइज़ेशन

32 तक व्यक्तिगत स्पीकरों की पहचान करें और उन्हें लेबल करें, जिससे आउटपुट में हर शब्द को स्पीकर टैग मिलता है।

शब्द-स्तरीय टाइमस्टैम्प

हर शब्द के लिए सटीक आरंभ और समाप्ति समय प्राप्त करें, जो वीडियो सबटाइटल या कैप्शन के साथ सिंक करने के लिए तैयार हैं।

ऑडियो इवेंट टैगिंग

हँसी, तालियाँ, या कदमों की आवाज़ जैसे गैर-भाषण ध्वनियों को सीधे ट्रांसक्रिप्ट में चिह्नित करें।

कस्टम टर्म बायसिंग

1000 तक पसंदीदा वर्तनी की सूची दें ताकि मॉडल ब्रांड नामों और तकनीकी शब्दावली के सही रूप को प्राथमिकता दे।

बड़ी फ़ाइलों का समर्थन

ऑडियो या वीडियो फ़ाइलें 3 GB और 10 घंटे तक अपलोड करें, उन्हें पहले विभाजित या संपीड़ित किए बिना।

साफ़ ट्रांसक्रिप्ट मोड

फिलर शब्द, अधूरे आरंभ, और असंबद्धताओं को हटाकर एक परिष्कृत, पढ़ने योग्य आउटपुट तैयार करें।

व्यापक फ़ॉर्मैट संगतता

MP3, WAV, M4A, FLAC, OGG, MP4, MOV, MKV, और कई अन्य ऑडियो व वीडियो फ़ॉर्मैट स्वीकार करता है।

उपयोग के मामले

एक रिकॉर्ड किए गए इंटरव्यू को टाइमस्टैम्प वाले टेक्स्ट दस्तावेज़ में ट्रांसक्राइब करें, जिसमें हर स्पीकर के शब्द अलग-अलग लेबल किए गए हों

एक पॉडकास्ट एपिसोड को ब्लॉग पोस्ट, शो नोट्स, या लेखों में पुन: उपयोग के लिए लिखित ट्रांसक्रिप्ट में बदलें

इवेंट रिकॉर्डिंग में तालियों या हँसी जैसी गैर-भाषण ध्वनियों को स्वचालित रूप से पहचानें और टैग करें

बहुभाषी मीटिंग रिकॉर्डिंग को ट्रांसक्राइब करें और मॉडल को भाषा स्वतः पहचानने दें

'um' और 'uh' जैसे फिलर शब्दों को आउटपुट से हटाकर साफ़, पढ़ने योग्य ट्रांसक्रिप्ट बनाएं

कस्टम पसंदीदा शब्दों की सूची प्रदान करके ट्रांसक्रिप्शन को विशिष्ट उत्पाद नामों या तकनीकी शब्दजाल की ओर झुकाएँ

उपशीर्षकों या बंद कैप्शनों को सिंक करने के लिए वीडियो फ़ाइल से शब्द-स्तरीय टाइमस्टैम्प निकालें

एक ही फ़ाइल अपलोड से 10 घंटे की रिकॉर्ड की गई लेक्चर या कॉन्फ़्रेंस सत्र को ट्रांसक्राइब करें

श्रेणी बदलें

इफेक्ट्स

टेक्स्ट से इमेज

टेक्स्ट से वीडियो

बड़े भाषा मॉडल

टेक्स्ट से स्पीच

सुपर रेजोल्यूशन

लिपसिंक

AI संगीत निर्माण

वीडियो संपादन

स्पीच से टेक्स्ट

AI वीडियो एन्हांस

बैकग्राउंड हटाएँ