OpenAI تكشف عن نماذج صوتية جديدة للتفاعلات الصوتية والترجمة الفورية

كشفت OpenAI عن ثلاثة نماذج صوتية جديدة تعمل بنحو لحظي، وهي تستهدف المطورين العاملين على تطبيقات المساعدات الصوتية، والترجمة الفورية، وتحويل الكلام إلى نصوص مباشرةً عبر واجهاتها البرمجية API.

وتضم المجموعة الجديدة نماذج GPT-Realtime-2 و GPT-Realtime-Translate و GPT-Realtime-Whisper، وتقول الشركة إنها توفّر تفاعلات صوتية طبيعية بنحو أكبر، مع دعم للترجمة الحية، وتحويل الكلام إلى نصوص بسرعة استجابة عالية.

ويُعد GPT-Realtime-2 أبرز هذه النماذج؛ إذ صُمم لإدارة المحادثات الصوتية المباشرة، مع القدرة على تحليل الطلبات، واستدعاء الأدوات، والتعامل مع التصحيحات، ومتابعة الحوار بصورة طبيعية.

وأضافت OpenAI عدة مزايا جديدة للنموذج، منها إمكانية تقديم عبارات تمهيدية قصيرة مثل “دعني أتحقق من ذلك” قبل تنفيذ المهمة، مع دعم استدعاء عدة أدوات بالتوازي مع إبقاء المستخدم على اطلاع بما يحدث.

وحسّنت الشركة آليات التعامل مع الأخطاء؛ إذ بات النموذج يستجيب بصورة أكثر سلاسة عند وقوع مشكلة بدل التوقف بصمت، فضلًا عن توسيع نافذة السياق من 32 ألف رمز إلى 128 ألف رمز.

وتقول OpenAI إن النموذج الجديد يقدّم فهمًا أفضل للمصطلحات المتخصصة والأسماء العلمية والمفردات الطبية، مع دعم التحكم في نبرة الحديث وفق طبيعة الموقف. كذلك يتيح للمطورين اختيار مستوى التفكير والاستدلال بين عدة مستويات.

ويستهدف نموذج GPT-Realtime-Translate تجارب الترجمة الصوتية المتعددة اللغات ذات الأداء الفوري؛ إذ يدعم ترجمة أكثر من 70 لغة إدخال إلى 13 لغة إخراج. وتؤكد الشركة أن النموذج يحافظ على المعنى مع مواكبة سرعة المتحدث، حتى عند استخدام لهجات محلية أو مصطلحات متخصصة.

وأما GPT-Realtime-Whisper، فهو نموذج مخصص لتحويل الكلام إلى نصوص مباشرة مع زمن استجابة منخفض، ويستطيع تحويل الحديث إلى نصوص في أثناء الكلام، مما يجعله مناسبًا للترجمات الفورية، وتدوين الاجتماعات، والمحاضرات الدراسية، وغيرها.

وأتاحت OpenAI النماذج الثلاثة عبر واجهات Realtime API، مع تسعير يبدأ من 32 دولارًا لكل مليون رمز إدخال صوتي و 64 دولارًا لكل مليون رمز إخراج صوتي لنموذج GPT-Realtime-2، في حين تبلغ تكلفة GPT-Realtime-Translate نحو 0.034 دولار للدقيقة، وتكلفة GPT-Realtime-Whisper نحو 0.017 دولار للدقيقة.

وتشير الشركة إلى أن المطورين يستطيعون تجربة النماذج الجديدة عبر منصة Playground، وأنها ستواصل العمل على تحسين التجربة الصوتية داخل ChatGPT للمستخدمين العاديين.

تم نسخ الرابط

Source link

admin مايو 8, 2026

0 2 دقيقة واحدة

OpenAI تكشف عن نماذج صوتية جديدة للتفاعلات الصوتية والترجمة الفورية

admin

اترك تعليقاً إلغاء الرد

مؤسس «ويكيبيديا» يعارض استعانة الموسوعة بالذكاء الاصطناعي

يوتيوب تتيح ميزة “صورة في صورة” لكافة المستخدمين عالميًا دون اشتراك

جوجل تطوّر نظام التلفاز Google TV بقدرات جديدة من Gemini

محتوى مكرر وإعلانات أكثر.. لماذا يغادر المستخدمون فيسبوك وإنستاجرام؟

جوجل تدرس عرض الإعلانات في مساعدها الذكي Gemini

ميتا تعلن تطوير وكلاء ذكاء اصطناعي لخدمة الأفراد والشركات

admin

جوجل تحسّن نتائج البحث بميزة "نصائح الخبراء"

xAI تطلق مساعد Grok للسيارات بنظام CarPlay

مقالات ذات صلة

الأطباء يحذرون من استخدام بعض الأجهزة قرب منظمات ضربات القلب.. و AirPods ضمن القائمة

هواتف آيفون أغلى ثمنًا.. آبل تؤكد رفع أسعار منتجاتها قريبًا

OpenAI تطلق ميزة المهام المجدولة داخل ChatGPT

بعد إعادة تصميم سيري.. آبل تدرس تطوير ذكاء اصطناعي يدير أجهزتك نيابةً عنك