Scribe v2: تحويل الكلام إلى نص بالذكاء الاصطناعي لأكثر من 90 لغة

يحوّل Scribe v2 الصوت المنطوق إلى نص مكتوب، ويتعامل مع كل شيء بدءًا من مذكرة صوتية سريعة وصولًا إلى تسجيل مؤتمر مدته 10 ساعات. إذا سبق لك أن أمضيت ساعات في كتابة المقابلات أو ملاحظات الاجتماعات يدويًا، فإن هذا النموذج يختصر هذا العمل إلى ثوانٍ. إنه يقرأ MP3 وWAV وM4A وملفات الفيديو وأكثر من اثني عشر تنسيقًا آخر، لذا لا تحتاج إلى تحويل أي شيء قبل البدء. يدعم النموذج أكثر من 90 لغة ويمكنه اكتشاف اللغة المنطوقة تلقائيًا، مما يجعله عمليًا للتسجيلات متعددة اللغات. يفصل ما يصل إلى 32 متحدثًا مميزًا ويضع علامة على كل كلمة بحسب من قالها، بحيث تبقى نصوص المقابلات الجماعية أو مناقشات اللجان منظمة. يمكنك أيضًا إدخال قائمة بأسماء المنتجات أو المصطلحات التقنية لتوجيه النموذج نحو التهجئة الصحيحة عندما تكون جودة الصوت غير مثالية. يستخدم الصحفيون والباحثون ومحررو البودكاست وفرق دعم العملاء جميعًا أدوات تحويل الكلام إلى نص كخطوة أولى في سير عمل التحرير. يناسب Scribe v2 هذه النقطة طبيعيًا: أدرج ملفك، واحصل على نص منسق نظيف، ثم انتقل مباشرة إلى التحرير أو الترجمة أو إضافة الترجمات. يتم دعم الملفات حتى 3 جيجابايت، لذا فإن الأفلام الكاملة أو حلقات البودكاست الطويلة ليست مشكلة.

رسمي

Elevenlabs

15.7k تشغيل

Scribe V2

2026-05-05

الاستخدام التجاري

Scribe v2: تحويل الكلام إلى نص بالذكاء الاصطناعي لأكثر من 90 لغة

نظرة عامة

يحوّل Scribe v2 الصوت المنطوق إلى نص دقيق عبر أكثر من 90 لغة، ويعيد النتائج بسرعة كافية لتناسب سير عمل تحرير حقيقي. المشكلة التي يحلها هي الوقت: كتابة مقابلة مدتها ساعة يدويًا تستغرق ثلاث إلى أربع ساعات حتى لمن يكتب بسرعة، ولا يزال الناتج يحتاج إلى تصحيح كبير. يؤدي Scribe v2 هذه المهمة نفسها في دقائق، منتجًا نصًا منظمًا مع تسميات للمتحدثين وطوابع زمنية على مستوى الكلمات ووسومًا مضمنة للأصوات الخلفية مثل التصفيق أو الضحك. على Picasso IA، تكون العملية بأكملها مجرد بضع نقرات، دون الحاجة إلى برمجة.

كيفية العمل

ارفع ملف الصوت أو الفيديو الخاص بك. تشمل التنسيقات المدعومة MP3 وWAV وM4A وFLAC وMP4 وMOV وMKV والعديد من غيرها. يتم قبول الملفات حتى 3 جيجابايت وبطول يصل إلى 10 ساعات.
عيّن اللغة إذا كنت تعرفها، أو اترك الاكتشاف على الوضع التلقائي. إن تحديد اللغة يحسن الدقة في التسجيلات المشوشة أو ذات اللكنة القوية.
فعّل تحديد المتحدثين إذا كان تسجيلك يحتوي على أصوات متعددة. أدخل عدد المتحدثين المتوقع حتى يتمكن النموذج من فصلهم بوضوح.
أضف المصطلحات الأساسية لأي أسماء منتجات أو أسماء علم أو عبارات تقنية يجب أن تظهر بشكل صحيح في النص النهائي. يتم قبول ما يصل إلى 1,000 مصطلح.
شغّل النموذج. سيعود النص مع طوابع زمنية، ووسم متحدث على كل كلمة أو مقطع، ووسوم أحداث صوتية حيثما تحدث الأصوات غير الكلامية.

الأسئلة الشائعة

هل أحتاج إلى مهارات برمجة أو معرفة تقنية لاستخدام هذا؟ لا، فقط افتح Scribe v2 على Picasso IA، واضبط الإعدادات التي تريدها، ثم اضغط على إنشاء.

هل هو مجاني للتجربة؟ نعم، يمكنك تشغيل Scribe v2 دون اشتراك مدفوع للبدء. تحقق من صفحة التسعير الحالية للحصول على تفاصيل الاعتمادات وخيارات الخطط.

كم من الوقت يستغرق الحصول على النتائج؟ عادةً ما تعود مقطع مدته 10 دقائق في أقل من دقيقة. وتستغرق ساعة كاملة من الصوت عادةً دقيقتين إلى ثلاث دقائق. يؤثر طول الملف والضوضاء الخلفية على وقت المعالجة.

ما صيغ الملفات التي يدعمها؟ يقبل Scribe v2 تنسيقات MP3 وWAV وM4A وFLAC وOGG وOPUS وWebM وAAC وMP4 وMOV وMKV وAVI، والعديد من صيغ الصوت والفيديو الشائعة الأخرى. الحد الأقصى لكل ملف هو 3 جيجابايت و10 ساعات.

هل يمكنه التفريق بين المتحدثين المختلفين في المحادثة؟ نعم. فعّل تحديد المتحدثين قبل التشغيل وسيتم وسم كل كلمة في النص بمعرّف متحدث. يتعامل النموذج مع ما يصل إلى 32 متحدثًا مميزًا في تسجيل واحد.

ماذا لو أخطأ النموذج في تحويل اسم أو مصطلح؟ أضفه إلى حقل المصطلحات الأساسية قبل الإنشاء. يمكنك إدراج ما يصل إلى 1,000 مصطلح، كل منها حتى 50 حرفًا، وسيعطي النموذج تلك الكلمات وزنًا أكبر أثناء التحويل.

أين يمكنني استخدام النصوص التي أنشئها؟ المخرجات نص عادي بدون علامات مائية أو قيود. يمكنك لصقها في مستند، أو إدخالها في محرر ترجمة، أو استخدامها بأي طريقة يتطلبها مشروعك.

تكلفة الأرصدة

كل توليد يستهلك 1 رصيد

1 رصيد

أو 5 أرصدة لـ 5 توليدات

الميزات

كل ما يمكن لهذا النموذج فعله من أجلك

دعم أكثر من 90 لغة

حوّل الصوت إلى نص بأكثر من 90 لغة، مع اكتشاف تلقائي للغة في التسجيلات المختلطة أو غير المعروفة.

تحديد المتحدثين

تعرّف على ما يصل إلى 32 متحدثًا فرديًا ووسمهم، مع إضافة علامة متحدث لكل كلمة في الناتج.

طوابع زمنية على مستوى الكلمات

احصل على أوقات بدء وانتهاء دقيقة لكل كلمة، جاهزة للمزامنة مع ترجمات الفيديو أو التسميات التوضيحية.

وسم أحداث الصوت

علّم الأصوات غير الكلامية مثل الضحك أو التصفيق أو الخطوات مباشرة داخل النص.

تحيّز المصطلحات المخصصة

قدّم قائمة تصل إلى 1000 تهجئة مفضلة حتى يميل النموذج إلى الشكل الصحيح لأسماء العلامات التجارية والمصطلحات المتخصصة.

دعم الملفات الكبيرة

ارفع ملفات صوت أو فيديو يصل حجمها إلى 3 جيجابايت و10 ساعات دون الحاجة إلى تقسيمها أو ضغطها أولًا.

وضع النص النظيف

أزل كلمات الحشو والبدايات الخاطئة والتلعثم لإنتاج مخرجات مصقولة وسهلة القراءة.

توافق واسع مع الصيغ

يقبل MP3 وWAV وM4A وFLAC وOGG وMP4 وMOV وMKV والعديد من تنسيقات الصوت والفيديو الأخرى.

حالات الاستخدام

حوّل مقابلة مسجلة إلى مستند نصي مع طوابع زمنية، بحيث تُوسم كلمات كل متحدث على حدة

حوّل حلقة بودكاست إلى نص مكتوب لمنشورات المدونة أو ملاحظات العرض أو إعادة استخدامها في مقالات

اكتشف ووسم تلقائيًا أصواتًا غير كلامية مثل التصفيق أو الضحك في تسجيلات الفعاليات

حوّل تسجيلات الاجتماعات متعددة اللغات ودع النموذج يحدد اللغة تلقائيًا

أنشئ نصوصًا نظيفة وسهلة القراءة عبر إزالة كلمات الحشو مثل 'um' و'uh' من المخرجات

وجّه التحويل نحو أسماء منتجات محددة أو مصطلحات تقنية عبر توفير قائمة مخصصة من المصطلحات المفضلة

استخرج الطوابع الزمنية على مستوى الكلمات من ملف فيديو لمزامنة الترجمات أو التسميات التوضيحية المغلقة

حوّل محاضرة مسجلة أو جلسة مؤتمر مدتها 10 ساعات من خلال تحميل ملف واحد

تبديل الفئة

تأثيرات

تحويل النص إلى صورة

تحويل النص إلى فيديو

نماذج اللغة الكبيرة

تحويل النص إلى كلام

دقة فائقة

مزامنة الشفاه

توليد الموسيقى بالذكاء الاصطناعي

تحرير الفيديو

تحويل الكلام إلى نص

تحسين الفيديو بالذكاء الاصطناعي

إزالة الخلفية