• Picasso IA लोगो
    Logo Picasso IA
  • होम
  • AI इमेज
    Nano Banana 2
  • AI वीडियो
    Veo 3.1 Lite
  • AI चैट
    Gemini 3 Pro
  • इमेज एडिट करें
  • इमेज सुधारें
  • बैकग्राउंड हटाएं
  • टेक्स्ट टू स्पीच
  • इफ़ेक्ट्स
  • AI Toolkit
    NEW
  • पीढ़ियाँ
  • बिलिंग
  • सहायता
  • खाता
असीमित वीडियो अब उपलब्ध · Nano Banana 2 और GPT Image 2.0 असीमित 25 जून तकअपग्रेड
  1. संग्रह
  2. टेक्स्ट टू स्पीच
  3. Realtime Tts 1.5 Mini

अपनी जरूरत के अनुसार आवाज़ें खोजें

ASMR

ASMR

जापानी
फुसफुसाहट
फुसफुसाती महिला

फुसफुसाती महिला

फुसफुसाहट
विश्राम
भाग्यशाली रोबोट

भाग्यशाली रोबोट

रोबोटिक
रचनात्मक
गुस्सैल समुद्री डाकू

गुस्सैल समुद्री डाकू

पात्र
रचनात्मक

ऑडियो टूल्स

मूल ऑडियो
क्लोन किया गया
परिणाम

अपनी आवाज़ क्लोन करें

केवल 10 सेकंड के ऑडियो इनपुट के साथ तुरंत वॉइस मैजिक का अनुभव करें!

अभी शुरू करें
समुद्री डाकू कप्तान
समुद्री डाकू कप्तान
लालची गोब्लिन
लालची गोब्लिन
दक्षिणी सुंदरी
दक्षिणी सुंदरी

वॉइस डिज़ाइन

सरल टेक्स्ट विवरण से कोई भी आवाज़ बनाएं जिसकी आप कल्पना कर सकते हैं

अभी शुरू करें

Realtime TTS 1.5 Mini: 120ms AI वॉइस सिंथेसिस

Realtime TTS 1.5 Mini लिखित पाठ को लगभग 120 मिलीसेकंड में बोले गए ऑडियो में बदलता है, जिससे यह उपलब्ध सबसे तेज़ text-to-speech विकल्पों में से एक बन जाता है। अगर आपने कभी किसी डेमो, ग्राहक इंटरैक्शन, या लाइव प्रोडक्ट टेस्ट से पहले ऑडियो बनने के लिए कई सेकंड इंतज़ार किया है, तो यह मॉडल उस प्रतीक्षा को एक सेकंड के अंश तक घटा देता है। यह 15 भाषाओं में काम करता है, इसलिए एक ही सेटअप कई भाषाओं वाली सामग्री को बिना कई टूल्स के बीच उलझे संभाल लेता है। आप आउटपुट को कई तरीकों से आकार दे सकते हैं। [happy] या [sad] जैसे emotion टैग स्पीकर के टोन को बिना किसी अतिरिक्त प्रोसेसिंग चरण के बदल देते हैं। SSML break टैग आपको यह नियंत्रित करने देते हैं कि विराम कहाँ आएँ, जिससे आपको narration या dialogue के लिए ज़रूरी लय मिलती है। मॉडल 8 kHz से 48 kHz तक के sample rates स्वीकार करता है और ऑडियो को MP3, WAV, OGG Opus, या FLAC के रूप में आउटपुट करता है, इसलिए फ़ाइल उस प्लेटफ़ॉर्म या pipeline के अनुरूप रहती है जो उसे प्राप्त करता है। एक temperature setting यह नियंत्रित करती है कि बार-बार चलाने पर प्रस्तुति कितनी अभिव्यक्तिपूर्ण या सुसंगत लगे। voice-powered apps, interactive phone bots, online course narration, या किसी भी ऐसे प्रोजेक्ट के लिए जहाँ ऑडियो latency एक वास्तविक बाधा है, यह मॉडल भारी infrastructure बदलाव की आवश्यकता के बिना आसानी से जुड़ जाता है। अपना पाठ डालें, एक voice और language चुनें, और एक सेकंड से कम समय में उपयोग के लिए तैयार ऑडियो फ़ाइल प्राप्त करें।

आधिकारिक

Inworld

89.6k रन

Realtime Tts 1.5 Mini

2026-03-10

व्यावसायिक उपयोग

Realtime TTS 1.5 Mini: 120ms AI वॉइस सिंथेसिस

विषय-सूची

  • अवलोकन
  • यह कैसे काम करता है
  • अक्सर पूछे जाने वाले प्रश्न
  • क्रेडिट लागत
  • विशेषताएँ
  • उपयोग के मामले
Nano Banana Pro प्राप्त करें

अवलोकन

Realtime TTS 1.5 Mini लिखित पाठ को लगभग 120 मिलीसेकंड में स्वाभाविक-सी लगने वाली speech में बदलता है, जिससे यह लाइव applications के लिए उपलब्ध सबसे तेज़ synthesis models में से एक बन जाता है। अगर आप एक customer support bot, reading assistant, या ऐसी voice interface बना रहे हैं जिसे real time में जवाब देना है, तो audio render होने के लिए दो या तीन सेकंड इंतज़ार करना अस्वीकार्य है। Picasso IA इस मॉडल को होस्ट करता है ताकि आप इसे सीधे browser में आज़मा सकें, बिना किसी API setup के। यह डिफ़ॉल्ट रूप से 15 भाषाओं को कवर करता है, इसलिए एक ही model बिना tools बदले multilingual projects को संभालता है।

यह कैसे काम करता है

  • अपना पाठ input field में टाइप या paste करें, प्रति request अधिकतम 2,000 characters तक
  • library से एक preset voice चुनें या custom cloned voice ID दें
  • speaking rate और temperature सेट करें ताकि speed और expressiveness को नियंत्रित किया जा सके, और अपना output format (MP3, WAV, OGG, FLAC) चुनें
  • telephony के लिए 8 kHz से लेकर high-fidelity audio के लिए 48 kHz तक, अपने target environment के अनुरूप sample rate चुनें
  • generate पर क्लिक करें और अधिकांश inputs के लिए एक सेकंड से कम समय में अपनी audio file प्राप्त करें

अक्सर पूछे जाने वाले प्रश्न

क्या इसे उपयोग करने के लिए मुझे programming skills या technical knowledge की जरूरत है? नहीं, बस Picasso IA पर Realtime TTS 1.5 Mini खोलें, अपनी इच्छित settings समायोजित करें, और generate पर क्लिक करें।

क्या इसे आज़माना मुफ़्त है? Picasso IA आपको account बनाए बिना या payment details डाले बिना model चलाने देता है। आप कुछ भी डाउनलोड करने से पहले browser में सीधे audio generate करके सुन सकते हैं।

परिणाम पाने में कितना समय लगता है? मॉडल input से audio तक लगभग 120 milliseconds का लक्ष्य रखता है। व्यावहारिक रूप से, अधिकांश छोटे से मध्यम पाठ standard internet connection पर भी एक सेकंड से काफी कम समय में render हो जाते हैं।

कौन से output formats समर्थित हैं? आप अपना audio MP3, WAV, OGG Opus, या FLAC के रूप में डाउनलोड कर सकते हैं। MP3 डिफ़ॉल्ट है और लगभग हर environment में चल जाता है। अगर post-production editing के लिए आपको lossless audio चाहिए, तो FLAC या WAV चुनें।

क्या मैं voice के tone और speed को नियंत्रित कर सकता हूँ? हाँ। temperature setting यह समायोजित करती है कि voice कितनी expressive या neutral लगे। speaking rate multiplier pitch बदले बिना delivery की गति बढ़ाने या घटाने देता है। आप विशिष्ट क्षणों पर pauses और tone को आकार देने के लिए अपने पाठ में सीधे break tags और emotion markers भी डाल सकते हैं।

मॉडल कौन-सी भाषाओं का समर्थन करता है? मॉडल 15 भाषाओं को कवर करता है, इसलिए आप हर भाषा के लिए अलग model पर स्विच किए बिना एक ही workflow का उपयोग करके कई locales में speech synthesize कर सकते हैं।

अगर मैं परिणाम से खुश नहीं हूँ तो क्या होगा? अलग expressiveness level के लिए temperature slider को समायोजित करके देखें, या preset library से किसी अन्य voice पर स्विच करें। source text में phrasing में छोटे बदलाव भी यह प्रभावित कर सकते हैं कि output कितना स्वाभाविक लगे।

क्रेडिट लागत

प्रत्येक जेनरेशन 1 क्रेडिट का उपयोग करता है

1 क्रेडिट

या 5 क्रेडिट्स 5 जेनेरेशन के लिए

विशेषताएँ

यह मॉडल आपके लिए क्या कर सकता है

~120ms latency

लाइव voice applications और real-time pipelines के लिए पर्याप्त तेज़ी से ऑडियो लौटाता है।

15-language support

एक ही API call से पंद्रह अलग-अलग भाषाओं में speech तैयार करें।

Emotion markup

स्पीकर के भावनात्मक टोन को बदलने के लिए [happy], [sad], या इसी तरह के टैग डालें।

Flexible audio formats

किसी भी platform से मेल खाने के लिए output को MP3, WAV, OGG Opus, या FLAC के रूप में डाउनलोड करें।

Custom voices

Ashley या Dennis जैसे preset नामों का उपयोग करें, या अपनी खुद की cloned voice ID दें।

SSML pause control

break time टैग के साथ पाठ में कहीं भी स्वाभाविक-सी लगने वाली रुकावटें डालें।

Adjustable sample rate

फ़ाइल आकार और audio fidelity के बीच संतुलन बनाने के लिए 8 kHz से 48 kHz तक चुनें।

Text normalization

synthesis से पहले संख्याओं, तिथियों और संक्षेपों को स्वचालित रूप से विस्तारित करें।

उपयोग के मामले

एक मोबाइल ऐप walkthrough के लिए प्रति वाक्य एक सेकंड से कम समय में voiced instructions तैयार करें

एक ही text template से 15 भाषाओं तक में multilingual product announcements बनाएं

एक chatbot के लिए voiced customer service responses बनाएं जिसे real time में replies देने की जरूरत है

पाठ में [happy] या [sad] markers डालकर video script में emotion-tagged narration जोड़ें

एक sample chapter को MP3 या WAV में बदलकर natural pacing के साथ audiobook preview बनाएं

SSML break tags का उपयोग करके podcast intros में timed pauses डालें, ताकि scripted, polished feel मिले

लॉन्च से पहले अपने brand के लिए उपयुक्त टोन चुनने हेतु एक ही script पर अलग-अलग speaker voices का परीक्षण करें

श्रेणी बदलें

इफेक्ट्स

टेक्स्ट से इमेज

टेक्स्ट से वीडियो

बड़े भाषा मॉडल

टेक्स्ट से स्पीच

सुपर रेजोल्यूशन

लिपसिंक

AI संगीत निर्माण

वीडियो संपादन

स्पीच से टेक्स्ट

AI वीडियो एन्हांस

बैकग्राउंड हटाएँ