قدمت شركة (OpenAI) كثيراً من المفاجآت خلال حدث "Spring Update"، وأهمها الكشف عن نموذج الذكاء الاصطناعي "GPT-4o" الجديد، وهو عبارة عن إصدار مطور من نموذجها اللغوي الشهير "GPT-4"، الذي مر على إطلاقه أكثر من عام.
يُعدّ نموذج "GPT-4o" نقلة نوعية في مجال الذكاء الاصطناعي، فهو يقدّم العديد من المزايا الجديدة التي تجعله أسرع في الأداء، وأرخص في التشغيل، وأكثر كفاءة ودقة في النتائج مقارنة بالنماذج السابقة.
— OpenAI (@OpenAI) May 13, 2024
بالإضافة إلى ذلك؛ أكدت ميرا موراتي، كبيرة المسؤولين التقنيين في شركة OpenAI، أن الشركة تسعى إلى إتاحة قدرات الذكاء الاصطناعي عبر روبوت "ChatGPT" للجميع، لذلك ستتيح نموذج "GPT-4o" الجديد لعموم المستخدمين مجاناً، ولن يكون حصرياً للمشتركين بمقابل مادي.
"يتحدث ويرى كالإنسان".. كل ما تريد معرفته عن "GPT-4o"
-
1- ما هو نموذج "GPT-4o" الجديد؟
يقدم "GPT-4o" الجديد القدرات نفسها التي يقدمها نموذج (GPT-4)، ولكنه أكثر ذكاءً وأسرع وأقل كلفة في التشغيل، الأمر الذي يمثل علامة فارقة في تطور تقنيات التعلم الآلي والذكاء الاصطناعي التوليدي للشركة، بقيادة سام ألتمان.
يشير الحرف (o) في اسم النموذج "GPT-4o" إلى كلمة (omni)، وهي مشتقة من اللغة اللاتينية وتعني الكل أو الشامل، ويمكن تفسيرها بأنه نموذج واحد شامل لعدة نماذج بداخله، إذ يتعامل هذا النموذج مع المدخلات المتعددة الوسائط، بما يشمل: النصوص والصوت والفيديو والصور بكفاءة ودقة عالية.
ومن المتوقع أن يجعل هذا النموذج الجديد طريقة التفاعل بين الإنسان والحاسوب أكثر طبيعة من خلال تزويد روبوت "ChatGPT" بقدرات متطورة في التعامل مع النصوص المكتوبة والأوامر الصوتية، وكذلك فهم وإدراك ما تراه كاميرا الهواتف الذكية.
-
2- كيف يعمل نموذج "GPT-4o" الجديد؟
أكدت شركة (OpenAI) أن "GPT-4o" يمكنه الاستجابة للمدخلات الصوتية في أقل من 232 ميلّي/ الثانية، بمتوسط قدره 320 ميلّي/ الثانية، كما زودت الشركة نموذجها الجديد بأساليب مبتكرة لفهم الأصوات المتداخلة لمجموعة متحدثين بلغات مختلفة، والترجمة بينها مباشرة، علاوة على ذلك يستطيع النموذج فهم نبرة الأصوات، وتحليل ملامح الوجوه وفهم المشاعر من خلالها.
وأشارت الشركة إلى أن هذا النموذج الجديد يحاكي أداء نموذج (GPT-4 Turbo) في التعامل مع النصوص باللغة الإنجليزية وعمليات البرمجة، ولكنه أسرع بنحو ملحوظ وأفضل في التعامل مع اللغات غير الإنجليزية، إذ يمكنه الآن العمل بما يصل إلى 50 لغة، مما يجعله أداة قوية للتواصل والترجمة للمستخدمين من جميع أنحاء العالم. وتشمل هذه اللغات الكورية والروسية والصينية والعربية وغيرها الكثير.
كذلك، فإنّ النموذج الجديد أسرع مرتين في المعالجة، وأقل تكلفة في التشغيل بنسبة تبلغ 50%، ويبرز تفوق "GPT-4o" بنحو خاص في فهم المواد المرئية والمقاطع الصوتية مقارنة بالنماذج الحالية، إذ يُظهر مهارات استثنائية في تحليل المشاهد وفهم المعنى من خلال الصوت.
وقد أظهرت OpenAI في العرض التقديمي كيف سيتيح نموذج "GPT-4o" للمستخدمين التحدث مع ChatGPT، وكيف يمكنه تعرف المشاعر، والمساعدة في حل المعادلات الرياضية، وغير ذلك الكثير. ولم تخجل الشركة من إظهار بعض القيود في العرض التقديمي أيضًا، ولكنها كانت قليلة ومتباعدة.
-
3- ما مزايا نموذج GPT-4o الجديد؟
- مجاني للجميع:
بدأت شركة OpenAI أمس بإطلاق نموذج (GPT-4o) الجديد على نحو تدريجي في روبوت (ChatGPT) لمشتركي إصدار (ChatGPT Plus)، وسيصل إلى كافة المستخدمين، ومنهم أصحاب الحسابات المجانية خلال الأسابيع القادمة، ولكن سيتمتع المشتركون في الإصدارات المدفوعة بأداء أسرع حتى 5 مرات.
وأشارت موراتي إلى أن الشركة اتخذت خطوات عديدة لجعل الذكاء الاصطناعي يخدم البشرية بنحو أفضل، من خلال حرصها على تقديم مزايا ChatGPT مجاناً للجميع، بما يشمل إتاحة استخدامه دون الحاجة إلى إنشاء حساب من الأساس.
وبالإضافة إلى التحديثات الأصلية التي يقدمها نموذج "GPT-4o"، أعلنت الشركة إتاحة عدد كبير من المزايا لجميع المستخدمين مجاناً، مثل: الوصول إلى متجر الروبوتات البرمجية (GPTs Store)، وهي مزية كانت متاحة سابقاً لمستخدمي الإصدار المدفوع (ChatGPT Plus) فقط.
وأتاحت إمكانية استخدام "GPT-4o" في التعامل مع الصور مجاناً، بحيث يمكن للمستخدم طرح أسئلة بشأن صور يلتقطها بهاتفه أو يحملها من الإنترنت، أو لقطات الشاشة.
بالإضافة إلى ذلك، أتاحت مزية تصفح الويب عبر ChatGPT مجاناً مع إمكانية استخدام مزية (الذاكرة) Memory، التي تساعد الروبوت في الاحتفاظ ببعض التفاصيل التي يرغب المستخدم في استخدامها فيما بعد.
كذلك، أتاحت OpenAI استخدام مزية التحليل المتطور لأشكال البيانات المختلفة في صورة خرائط ورسوم بيانية مجانًا، وستبدأ المزايا الجديدة بالوصول تدريجيًا للمستخدمين خلال الأسابيع المقبلة.
- يقدم أداءً أسرع بكثير من GPT-4 و GPT-4 Turbo:
يتميز نموذج (GPT-4o) بسرعة استجابة استثنائية، إذ يستطيع الرد على المدخلات الصوتية في أقل من 232 ميلّي/ الثانية، بمتوسط قدره 320 ميلّي/ الثانية، وهو ما يُقارب زمن استجابة الإنسان في المحادثة.
قبل ظهور GPT-4o، كان يُمكن استخدام وضع الصوت للتفاعل مع ChatGPT، لكنه كان يُعاني من زمن تأخير كبير يبلغ 2.8 ثانية مع نموذج (GPT-3.5) و 5.4 ثانية مع (GPT-4) في المتوسط. ويعود ذلك إلى أن وضع الصوت كان يعمل كسلسلة من ثلاثة نماذج منفصلة:
- نموذج بسيط يحول الصوت إلى نص.
- يعالج نموذج GPT-3.5 أو GPT-4 النص ويُخرج نصاً آخر.
- نموذج بسيط ثالث يحول النص مرة أخرى إلى صوت.
تُؤدي هذه العملية إلى فقدان كثير من المعلومات، إذ لا يستطيع نموذج (GPT-4)، ملاحظة نبرة الصوت أو وجود عدد من المتحدثين أو الضوضاء الخلفية بنحو مباشر. كما لا يستطيع إخراج ضحك أو غناء أو التعبير عن المشاعر.
وللتغلب على ذلك دربت الشركة نموذج "GPT-4o" الجديد للتعامل مع المدخلات متعددة الوسائط التي تتضمن النص والصوت والمقاطع المرئية في الوقت نفسه، مما يعني أن جميع المدخلات والمخرجات تُعالج عبر الشبكة العصبية نفسها.
- أقل كلفة في التشغيل:
يتمتع "GPT-4o" بنطاق ذاكرة أوسع بكثير من نموذجي GPT-4 و GPT-3.5، مما يسمح له بمعالجة مزيد من المعلومات وفهم السياق بنحو أفضل. كما صممته الشركة ليكون أكثر كفاءة في استخدام الموارد، لذلك يتميز بأنه أسرع مرتين في الأداء من GPT-4 Turbo، وأقل تكلفة في التشغيل بنسبة قدرها 50%. وبالنظر إلى خفض الكلفة في تشغيل هذا النموذج، فمن المنطقي أن تطلقه OpenAI للجميع مجاناً.
المصدر: البوابة العربية للأخبار التقنية