Chatterbox Turbo लिखे गए पाठ को स्वाभाविक सुनाई देने वाली बोली में ऐसी गति से बदलता है जो आपको तेज़ और अच्छा में से किसी एक को चुनने के लिए मजबूर नहीं करती। अगर आपने सिर्फ़ यह पता चलने के लिए मिनटों तक वॉइसओवर रेंडर का इंतज़ार किया है कि वह सपाट सुनाई देता है, तो यह मॉडल इसी समस्या को ठीक करने के लिए बनाया गया था। यह प्रति रन 500 अक्षरों तक संभालता है और इतने तेज़ी से परिणाम लौटाता है कि यह वास्तविक प्रोडक्शन रिदम में फिट हो सके। आपको चुनने के लिए 20 पहले से बनी आवाज़ें मिलती हैं, जिनमें से हर एक का अलग चरित्र है जो विभिन्न प्रकार की सामग्री के साथ काम करता है। अधिक नियंत्रण के लिए, पाँच सेकंड से लंबी एक संदर्भ ऑडियो क्लिप डालें और मॉडल प्रीसेट का उपयोग करने के बजाय उस आवाज़ की नकल करता है। आप [chuckle], [sigh], और [gasp] सहित पारीभाषिक संकेतों को सीधे अपने स्क्रिप्ट में भी एम्बेड कर सकते हैं, ताकि प्रस्तुति कही जा रही बात के स्वर से मेल खाए और हर चीज़ को एक ही सपाट रजिस्टर में न पढ़े। अपनी स्क्रिप्ट पेस्ट करें, एक आवाज़ चुनें या संदर्भ क्लिप अपलोड करें, और जनरेट दबाएँ। आउटपुट पॉडकास्ट इंट्रो, एक्सप्लेनर वीडियो, प्रोडक्ट डेमो, या किसी भी ऐसे प्रोजेक्ट में डालने के लिए तैयार है जिसे लंबे इंतज़ार के बिना बोली गई ऑडियो की ज़रूरत हो।
Chatterbox Turbo एक टेक्स्ट-टू-स्पीच मॉडल है, जो उन उपयोगकर्ताओं के लिए बनाया गया है जिन्हें बिना लंबे इंतज़ार के साफ़, स्वाभाविक सुनाई देने वाला ऑडियो चाहिए। अधिकांश TTS टूल गति के बदले गुणवत्ता या इसके विपरीत समझौता करते हैं; यह वाला उस समझौते को पूरी तरह छोड़ देता है। Picasso IA पर, आप अपना टेक्स्ट टाइप करते हैं, 20 पहले से बनी आवाज़ों में से चुनते हैं, और कुछ ही सेकंड में तैयार ऑडियो क्लिप प्राप्त करते हैं। यह कंटेंट क्रिएटर्स, शिक्षकों, डेवलपर्स, और किसी भी ऐसे व्यक्ति के लिए उपयुक्त है जिसे बिना कोड की एक भी लाइन छुए, जल्दी से बोली गई ऑडियो चाहिए।
क्या इसे उपयोग करने के लिए मुझे प्रोग्रामिंग कौशल या तकनीकी ज्ञान चाहिए? नहीं, बस Picasso IA पर Chatterbox Turbo खोलें, अपनी इच्छित सेटिंग्स समायोजित करें, और generate दबाएँ।
क्या इसे आज़माना मुफ़्त है? हाँ। आप बिना किसी अग्रिम प्रतिबद्धता के मॉडल चला सकते हैं। वर्तमान क्रेडिट विवरण और उपयोग सीमाओं के लिए अपना खाता पृष्ठ देखें।
परिणाम पाने में कितना समय लगता है? अधिकांश छोटी क्लिप्स के लिए, कुछ सेकंड ही पर्याप्त होते हैं। लंबे टेक्स्ट या आवाज़ की नकल के अनुरोध में थोड़ा अधिक समय लग सकता है, लेकिन turbo डिज़ाइन सभी मामलों में प्रतीक्षा को छोटा रखता है।
क्या मैं अपनी आवाज़ की नकल कर सकता हूँ? हाँ। कम से कम 5 सेकंड की एक संदर्भ ऑडियो फ़ाइल अपलोड करें और मॉडल उस आवाज़ में बोली गई सामग्री संश्लेषित करेगा। लंबी, साफ़ रिकॉर्डिंग अधिक सटीक मिलान देती है।
टेक्स्ट इनपुट में वे कोष्ठक वाले टैग क्या हैं? वे पारीभाषिक मार्कर हैं। अपने टेक्स्ट के किसी विशिष्ट बिंदु पर [chuckle], [sigh], [cough], या इसी तरह के टैग रखने से मॉडल को वहाँ वह ध्वनि डालने का निर्देश मिलता है। ये यथार्थवाद की एक परत जोड़ते हैं जिसकी साधारण TTS में आमतौर पर कमी होती है।
मैं मॉडल कितनी बार चला सकता हूँ? अपने उपलब्ध क्रेडिट के भीतर जितनी बार चाहें उतनी बार। अगर कोई परिणाम ठीक न लगे, तो आवाज़ बदलें, temperature समायोजित करें, और फिर से generate करें जब तक वह सही न लगे।
मैं आउटपुट का उपयोग कहाँ कर सकता हूँ? आपके द्वारा जनरेट की गई ऑडियो फ़ाइलें आपकी हैं। इन्हें YouTube वीडियो, पॉडकास्ट, ई-लर्निंग पाठ्यक्रम, ऐप प्रोटोटाइप, प्रस्तुतियों, या जहाँ भी बोली गई ऑडियो की ज़रूरत हो, वहाँ उपयोग करें।
यह मॉडल आपके लिए क्या कर सकता है
बिना सेटअप के उपयोग के लिए तैयार, अलग-अलग टोन और बोलने की शैलियों वाली आवाज़ों की नामित सूची में से चुनें।
किसी विशिष्ट वक्ता से मेल खाने वाली बोली उत्पन्न करने के लिए 5 सेकंड से लंबी संदर्भ ऑडियो क्लिप अपलोड करें।
अभिव्यंजक, मानव-सदृश प्रस्तुति के लिए अपनी स्क्रिप्ट में [laugh], [sigh], या [gasp] जैसी स्वाभाविक प्रतिक्रियाएँ डालें।
आउटपुट कितना विविध या सुसंगत सुनाई दे, इसे नियंत्रित करने के लिए temperature, top-k, और top-p सेटिंग्स को समायोजित करें।
कई रन में एक समान परिणाम पाने के लिए वही seed फिर से उपयोग करें।
लंबे प्रोसेसिंग क्यू में इंतज़ार किए बिना सेकंडों में संश्लेषित ऑडियो वापस प्राप्त करें।
पुनरावृत्ति दंड लंबे हिस्सों में भाषण को उसी वाक्यांश पर वापस लूप होने से रोकता है।