
كشفت OpenAI عن ثلاثة نماذج صوتية جديدة تعمل بنحو لحظي، وهي تستهدف المطورين العاملين على تطبيقات المساعدات الصوتية، والترجمة الفورية، وتحويل الكلام إلى نصوص مباشرةً عبر واجهاتها البرمجية API.
وتضم المجموعة الجديدة نماذج GPT-Realtime-2 و GPT-Realtime-Translate و GPT-Realtime-Whisper، وتقول الشركة إنها توفّر تفاعلات صوتية طبيعية بنحو أكبر، مع دعم للترجمة الحية، وتحويل الكلام إلى نصوص بسرعة استجابة عالية.
ويُعد GPT-Realtime-2 أبرز هذه النماذج؛ إذ صُمم لإدارة المحادثات الصوتية المباشرة، مع القدرة على تحليل الطلبات، واستدعاء الأدوات، والتعامل مع التصحيحات، ومتابعة الحوار بصورة طبيعية.
وأضافت OpenAI عدة مزايا جديدة للنموذج، منها إمكانية تقديم عبارات تمهيدية قصيرة مثل “دعني أتحقق من ذلك” قبل تنفيذ المهمة، مع دعم استدعاء عدة أدوات بالتوازي مع إبقاء المستخدم على اطلاع بما يحدث.
وحسّنت الشركة آليات التعامل مع الأخطاء؛ إذ بات النموذج يستجيب بصورة أكثر سلاسة عند وقوع مشكلة بدل التوقف بصمت، فضلًا عن توسيع نافذة السياق من 32 ألف رمز إلى 128 ألف رمز.
وتقول OpenAI إن النموذج الجديد يقدّم فهمًا أفضل للمصطلحات المتخصصة والأسماء العلمية والمفردات الطبية، مع دعم التحكم في نبرة الحديث وفق طبيعة الموقف. كذلك يتيح للمطورين اختيار مستوى التفكير والاستدلال بين عدة مستويات.
ويستهدف نموذج GPT-Realtime-Translate تجارب الترجمة الصوتية المتعددة اللغات ذات الأداء الفوري؛ إذ يدعم ترجمة أكثر من 70 لغة إدخال إلى 13 لغة إخراج. وتؤكد الشركة أن النموذج يحافظ على المعنى مع مواكبة سرعة المتحدث، حتى عند استخدام لهجات محلية أو مصطلحات متخصصة.
وأما GPT-Realtime-Whisper، فهو نموذج مخصص لتحويل الكلام إلى نصوص مباشرة مع زمن استجابة منخفض، ويستطيع تحويل الحديث إلى نصوص في أثناء الكلام، مما يجعله مناسبًا للترجمات الفورية، وتدوين الاجتماعات، والمحاضرات الدراسية، وغيرها.
وأتاحت OpenAI النماذج الثلاثة عبر واجهات Realtime API، مع تسعير يبدأ من 32 دولارًا لكل مليون رمز إدخال صوتي و 64 دولارًا لكل مليون رمز إخراج صوتي لنموذج GPT-Realtime-2، في حين تبلغ تكلفة GPT-Realtime-Translate نحو 0.034 دولار للدقيقة، وتكلفة GPT-Realtime-Whisper نحو 0.017 دولار للدقيقة.
وتشير الشركة إلى أن المطورين يستطيعون تجربة النماذج الجديدة عبر منصة Playground، وأنها ستواصل العمل على تحسين التجربة الصوتية داخل ChatGPT للمستخدمين العاديين.



