يحوّل Realtime TTS 1.5 Mini النص المكتوب إلى صوت منطوق في نحو 120 مللي ثانية، مما يجعله أحد أسرع خيارات تحويل النص إلى كلام المتاحة. إذا سبق أن انتظرت عدة ثوانٍ حتى يتم إنشاء الصوت قبل عرض توضيحي أو تفاعل مع عميل أو اختبار منتج مباشر، فإن هذا النموذج يقلّص ذلك الانتظار إلى جزء من الثانية. يعمل عبر 15 لغة، لذا يتيح إعداد واحد التعامل مع المحتوى متعدد اللغات دون الحاجة إلى التنقل بين أدوات متعددة. يمكنك تشكيل المخرجات بعدة طرق. تغيّر علامات المشاعر مثل [happy] أو [sad] نبرة المتحدث دون أي خطوة معالجة إضافية. تتيح لك علامات التوقف في SSML التحكم في أماكن الوقفات، مما يمنحك الإيقاع الذي تحتاجه للسرد أو الحوار. يقبل النموذج معدلات عينات من 8 kHz إلى 48 kHz ويصدر الصوت بصيغ MP3 أو WAV أو OGG Opus أو FLAC، بحيث يناسب الملف أي منصة أو خط معالجة يستقبله. وتتحكم قيمة temperature في مدى تعبير الأداء أو ثباته عبر التشغيلات المتكررة. بالنسبة للتطبيقات المعتمدة على الصوت، أو روبوتات الهاتف التفاعلية، أو سرد الدورات التدريبية عبر الإنترنت، أو أي مشروع تُعد فيه تأخيرات الصوت قيدًا حقيقيًا، يندمج هذا النموذج بسهولة دون الحاجة إلى تغيير كبير في البنية التحتية. أدخل نصك، واختر صوتًا ولغة، واحصل على ملف صوتي جاهز للاستخدام في أقل من ثانية.
يحوّل Realtime TTS 1.5 Mini النص المكتوب إلى كلام طبيعي في نحو 120 مللي ثانية، مما يجعله أحد أسرع نماذج التركيب المتاحة للتطبيقات المباشرة. إذا كنت تبني روبوت دعم عملاء أو مساعد قراءة أو واجهة صوتية تحتاج إلى الاستجابة في الوقت الفعلي، فإن الانتظار ثانيتين أو ثلاثًا حتى يظهر الصوت يُعد عائقًا حاسمًا. يستضيف Picasso IA هذا النموذج بحيث يمكنك اختباره مباشرة في المتصفح، دون الحاجة إلى إعداد API. وهو يغطي 15 لغة مباشرة، لذا يتعامل نموذج واحد مع المشاريع متعددة اللغات دون تبديل الأدوات.
هل أحتاج إلى مهارات برمجة أو معرفة تقنية لاستخدام هذا؟ لا، فقط افتح Realtime TTS 1.5 Mini على Picasso IA، واضبط الإعدادات التي تريدها، ثم اضغط generate.
هل التجربة مجانية؟ يتيح لك Picasso IA تشغيل النموذج دون إنشاء حساب أو إدخال تفاصيل الدفع. يمكنك إنشاء الصوت والاستماع إليه مباشرة في المتصفح قبل تنزيل أي شيء.
كم يستغرق الحصول على النتائج؟ يستهدف النموذج نحو 120 مللي ثانية من الإدخال إلى الصوت. عمليًا، تُعرض معظم النصوص القصيرة إلى المتوسطة في أقل من ثانية بكثير، حتى على اتصال إنترنت قياسي.
ما صيغ الإخراج المدعومة؟ يمكنك تنزيل الصوت بصيغة MP3 أو WAV أو OGG Opus أو FLAC. صيغة MP3 هي الافتراضية وتعمل في تقريبًا كل البيئات. اختر FLAC أو WAV إذا كنت تحتاج إلى صوت غير مضغوط للتحرير بعد الإنتاج.
هل يمكنني التحكم في نبرة الصوت وسرعته؟ نعم. يضبط إعداد temperature مدى التعبير أو الحياد في الصوت. يتيح لك معامل speaking rate تسريع الأداء أو إبطاءه دون تغيير طبقة الصوت. يمكنك أيضًا إدراج علامات التوقف وعلامات المشاعر مباشرة في نصك لتشكيل الوقفات والنبرة في لحظات محددة.
ما اللغات التي يدعمها النموذج؟ يغطي النموذج 15 لغة، لذا يمكنك تركيب الكلام عبر عدة مناطق محلية باستخدام سير العمل نفسه دون الانتقال إلى نموذج مختلف لكل لغة.
ماذا يحدث إذا لم أكن راضيًا عن النتيجة؟ جرّب ضبط شريط temperature على مستوى مختلف من التعبير، أو انتقل إلى صوت آخر من المكتبة الجاهزة. كما أن التغييرات الصغيرة في صياغة النص المصدر يمكن أن تؤثر بوضوح في مدى طبيعية الصوت الناتج.
كل ما يمكن لهذا النموذج فعله من أجلك
يُخرج الصوت بسرعة تكفي لتطبيقات الصوت المباشر وخطوط المعالجة الآنية.
أنشئ كلامًا بخمس عشرة لغة مختلفة من خلال استدعاء API واحد.
أدرج [happy] أو [sad] أو علامات مشابهة لتغيير النبرة العاطفية للمتحدث.
حمّل المخرجات بصيغة MP3 أو WAV أو OGG Opus أو FLAC لتناسب أي منصة.
استخدم أسماء جاهزة مثل Ashley أو Dennis، أو قدّم معرّف صوت مستنسخ خاص بك.
ضع فواصل طبيعية في أي موضع داخل النص باستخدام علامات break time.
اختر من 8 kHz إلى 48 kHz لتحقيق التوازن بين حجم الملف ودقة الصوت.
وسّع الأرقام والتواريخ والاختصارات تلقائيًا قبل التركيب.