icon
التغطية الحية

قريباً.. شركات الذكاء الصناعي ستستنزف معظم بيانات الشبكة العنكبوتية

2024.07.27 | 10:08 دمشق

آخر تحديث: 27.07.2024 | 10:08 دمشق

الذكاء الصناعي (صورة تعبيرية) المصدر: الإنترنت
الذكاء الصناعي (صورة تعبيرية) المصدر: الإنترنت
The Economist - ترجمة: ربى خدام الجامع
+A
حجم الخط
-A

في عام 2006، اكتشفت في في لي التي كانت تعمل في جامعة إلنوي، وأصبحت تعمل الآن في جامعة ستانفورد، بأن استخراج البيانات من الإنترنت يمكن أن يخلق قفزة في أبحاث الذكاء الصناعي، فقد حددت الأبحاث اللغوية 80 ألف مجموعة من مترادفات الأسماء، وهي عبارة عن مجموعات لمترادفات تصف النوع ذاته من الأشياء، وترى الدكتورة لي بأن ملايين الصور الموجودة على الإنترنت يجب أن توفر مئات الأمثلة على كل مجموعة من مجموعات المترادفات، وإذا جمعنا ما يكفي من تلك الصور فسيصبح لدينا مصدر لتدريب الذكاء الصناعي يفوق بكل ما يحتويه أي مجال شهدناه قبل اليوم، وعن ذلك تقول: "كثيرون من يلتفتون للأنماط والقوالب، ولكن علينا أن نركز اهتمامنا على البيانات"، لأن النتيجة كانت ImageNet.

فالإنترنت لا يوفر لنا صوراً فحسب، بل يقدم لنا مصادر لتسميتها، إذ بمجرد أن تقدم محركات البحث الصور الموجودة لديها عن الكلاب أو القطط أو الكراسي أو غيرها، تخضع تلك الصور للفحص، ويعلق عليها أشخاص جرى تجنيدهم لذلك الغرض من خلال Mechanical Turk وهي خدمة تعتمد على الاستعانة بمصادر خارجية وفرتها أمازون لتتيح للناس كسب المال عبر القيام بمهام بسيطة، والنتيجة أتت على شكل قاعدة بيانات تحتوي على ملايين الصور المحفوظة التي جرى التحقق منها. ومن خلال الاستعانة بأجزاء من ImageNet من أجل تدريب هذا الموقع خلال عام 2012، أظهر برنامج يعرف باسم AlexNet قدرة فائقة على "التعلم العميق"، أي كأنه أصبح لدينا شبكات عصبية تحتوي على طبقات أكثر مما كنا نستخدمه في الماضي، فكانت تلك بداية لطفرة الذكاء الصناعي، ولصناعة التسميات التي صممت لتزوده ببيانات التدريب.

اعتمد التطور الذي أتى لاحقاً والذي تمثل بالنماذج اللغوية الموسعة على بيانات الإنترنت، ولكن بطريقة مختلفة، فلم يعد التدريب التقليدي لتلك النماذج يعتمد على توقع أفضل كلمة تصف محتوى صورة معينة، بل على توقع ما هي الكلمة المجتزأة من مقطع نصي، وذلك بناء على الكلمات الموجودة قبلها وبعدها.

 

أي أن هذا النوع من التدريب لم يعد بحاجة لبيانات منسقة ومصنفة، إذ بوسع هذا النظام حذف كلمات، أو تخمينها، مع تصنيف الإجابات عليها ضمن عملية تعرف باسم "تدريب قائم على الإشراف الذاتي"، ومع ذلك، ثمة حاجة لوجود بيانات وفيرة، إذ كلما زادت النصوص المقدمة للنظام حتى يتدرب عليها، أصبح وضعه أفضل، وبما أن الإنترنت يقدم مئات التريليونات من كلمات النصوص، لذلك تحولت الشبكة العنكبوتية بالنسبة للنماذج اللغوية الموسعة إلى شيء أشبه بذرات الكربون التي تموضعت بشكل عشوائي على مدار زمن طويل في الطبقات الرسوبية، إذ يجري تكريرها وتنقيتها لتتحول إلى وقود يصنع المعجزات، وكذلك يفعل الإنترنت في هذا المجال.

أصبحت أبحاث الذكاء الصناعي تعتمد بشكل كبير على Common Crawl وهو عبارة عن أرشيف يحتوي على أغلب البيانات المفتوحة على الإنترنت، ويشتمل على 50 مليار صفحة ويب، ولقد استكملت النماذج الأحدث ببيانات مأخوذة من مصادر كثيرة، مثل Books3 الذي يضم الآلاف من الكتب ولهذا يجري الاعتماد عليه في مجال الذكاء الصناعي بصورة كبيرة، إلا أن شهية الآلات للنصوص قد زادت عن الحد الذي بوسع الإنترنت سد حاجتها، ولهذا تقدر شركة Epoch AI البحثية بأنه بحلول عام 2028، سينضب مخزون البيانات النصية ذات الجودة العالية الموجودة على الإنترنت، ويطلق على هذه الحالة في هذا السياق اسم: "جدار البيانات"، إذن فإن طريقة التعامل مع هذا الجدار باتت من إحدى المشكلات الكبرى الوشيكة أمام الذكاء الصناعي، بما أن هذه المشكلة قد تتسبب بتعطيل تطوره.

ثمة مقاربة ترى أنه لا بد من التركيز على جودة البيانات لا كميتها، ولهذا فإن مخابر الذكاء الصناعي لا تدرب نماذجها على كامل بيانات الإنترنت فحسب، بل تعمل على تصفية البيانات وترتيبها حتى تفعّل طريقة تعلم النماذج لديها إلى أقصى درجة. ولذلك يعتقد نافين راو من شركة Databricks المتخصصة بالذكاء الصناعي بأن هذا هو العامل الرئيسي الذي يميز بين نماذج الذكاء الصناعي في السوق، بيد أن المعلومات الحقيقية عن العالم مهمة على ما يبدو، وكذلك الأمر بالنسبة لكم كبير من التفكير والتعقل، وهذا ما يضفي قيمة استثنائية على نصوص الكتب الأكاديمية مثلاً، لكن خلق حالة توازن بين مصادر البيانات مايزال فناً خفياً، والأهم من ذلك هو أن ترتيب عثور المنظومة على أنواع مختلفة من البيانات مهم أيضاً، لأنك إن جمعت كل البيانات المتعلقة بموضوع معين، وليكن الرياضيات، فسيصبح النموذج لديك بنهاية عملية التدريب، متخصصاً بالرياضيات لكنه لا يفقه شيئاً عن المواضيع الأخرى.

قد تصبح هذه الاعتبارات أعقد عندما لا تأتي البيانات على شكل مواضيع مختلفة بل ضمن أشكال مختلفة، ويعود أحد أسباب ذلك لعدم وجود بيانات نصية جديدة، وهذا ما جعل النماذج مثل  GPT-40 الصادر عن شركة OpenAI و Gemini الصادر عن شركة غوغل للتصرف بحرية مع الصور والفيديوهات والملفات الصورية بالإضافة إلى النصوص خلال عملية التدريب القائم على الإشراف الذاتي، ويعتبر التدرب على الفيديوهات الأصعب من نوعه نظراً لمدى كثافة مواضيع البيانات في الملفات المرئية، إذ إن النماذج الحالية تبحث عادة عن مجموعة فرعية من الأطر لتبسيط الأمور.

وبصرف النظر عن النماذج المستخدمة، تعتبر مسألة الملكية قضية ومشكلة هي الأخرى، لأن المواد المستخدمة لتدريب الأنماط اللغوية الموسعة لديها حقوق نشر في أغلب الأحيان لكنها تستخدم من دون موافقة مالكيها أو دفع تعويض لهم، إلا أن معظم نماذج الذكاء الصناعي تختلس من خلف حظر الاشتراك غير المدفوع، إذ يزعم صانعو النماذج بأن ما يفعلونه يندرج ضمن الاستخدام العادل الذي لا يطوله قانون حقوق النشر الأميركي، بل يجب أن يتاح لنماذج الذكاء الصناعي قراءة المواد التي لديها حقوق نشر في أثناء فترة تعلمها، تماماً مثلما يتاح للبشر على حد تعبيرهم، ولكن كما يقول الخبير في المجال التقني بينديكت إيفانز فإن الاختلاف في المقياس قد يتسبب باختلاف في المبدأ.

100 دولار بالساعة لأفضل من يضع تسميات

تختلف أساليب أصحاب حقوق الملكية باختلاف شخصياتهم، فلقد قاضت شركة Getty Images شركة Stability AI المتخصصة بتوليد الصور، وذلك لاستخدامها بشكل غير مرخص لمخزون الشركة الأولى من الصور، كما قاضت صحيفة نيويورك تايمز شركتي OpenAI ومايكروسوفت بسبب خرقهما حقوق النشر الخاصة بملايين المقالات. فيما توصلت صحف أخرى إلى تسويات رخصت بموجبها استخدام محتواها، إذ وقعت شركة News Corp التي تملك صحيفة وول ستريت جورنال على اتفاق بقيمة 250 مليون دولار يمتد لخمس سنوات (فيما لم تتخذ مجلة إيكونوميست أي موقف تجاه علاقاتها مع شركات الذكاء الصناعي)، وسارت على ذلك النهج مصادر أخرى للمواد النصية والمرئية، كما أصبحت مصادر مثل موقع Stack Overflow المتخصص بالمساعدة في مجال التشفير، وموقع Reddit المتخصص بوسائل التواصل الاجتماعي، ومنصة إكس، تفرض رسوماً على استخدام محتواها بغرض التدريب.

 

هذا ويختلف الوضع من نظام قضائي لآخر، إذ يبيح النظام القضائي في اليابان استخدام تلك المواد وذلك لتشجيع الصناعات التي تعتمد على الذكاء الصناعي، فيما يفتقر الاتحاد الأوروبي إلى صياغة فكرة عامة عن الاستخدام العادل للمواد، ولهذا يعتبر تعامله مع تلك القضايا أشد صرامة، وعندما تُنشأ أسواق لذلك، فإن اختلاف أنواع البيانات يفرض أسعاراً مختلفة، لأن النماذج ستحتاج للوصول إلى المعلومات عن العالم الواقعي في الزمن الفعلي وذلك حتى تبقى على اطلاع دائم بمجريات الأمور.

هذا ويمكن تحسين إمكانيات النماذج عند تهذيب النسخة التي ينتجها التعلم القائم على الإشراف الذاتي والتي تعرف باسم نسخة التدريب المسبق، وذلك من خلال إضافة بيانات في مرحلة التدريب اللاحق، إذ على سبيل المثال تقوم عملية الضبط الدقيق القائم على الإشراف على رفد النموذج الذي يعتمد على ثنائية سؤال وجواب التي كتبها البشر أو تم الحصول عليها من خلالهم، وبذلك تتعلم النماذج كيف تكون الأجوبة المناسبة، أما التعلم التعزيزي الذي يعتمد على تعليقات كتبها البشر، فيعلم تلك النماذج كيف يكون الجواب مرضياً للسائل (وهذه العملية مختلفة بعض الشيء).

لذا في حال قدم مستخدمو التعلم التعزيزي للنموذج تعليقات على جودة مخرجاته، فإن تلك التعليقات تستخدم فيما بعد لتعديل معايير النموذج، أو الموازين لديه، كما يستفيد التعلم التعزيزي من تفاعل المستخدم من روبوتات المحادثة، وهذا ما يحدث مثلاً عندما يستعين المستخدم بالإبهام المرفوع للأعلى أو للأسفل، لأن ذلك يكون ما يسميه المتخصصون بالتقانة "العجلة الحرة للبيانات" إذ كلما زاد عدد المستخدمين زاد كم البيانات التي تعمل على تغذية النموذج بالمعلومات وضبطه بصورة أفضل، ولذلك تراقب شركات الذكاء الصناعي الناشئة أنماط الأسئلة التي يطرحها المستخدمون على نماذج الشركات، ثم تقوم الشركة بجمع البيانات لتضبط نماذجها بحسب المواضيع المطروحة.

التوسع في هذا المجال

في الوقت الذي ستنضب فيه البيانات الموجودة على الإنترنت عند استخدامها في عمليات التدريب المسبق، يصبح التدريب اللاحق أشد أهمية، ولهذا أصبحت شركات تعنى بتقديم المسميات مثل شركة Scale AI وشركة Surge AI تجني ملايين الدولارات سنوياً على جمع البيانات التي تستخدم في عمليات التدريب اللاحق، إذ مؤخراً كسبت شركة Scale مبلغاً قدره مليار دولار من خلال عملية تقييم قيمتها 14 مليار دولار، ما يعني بأن الأمور تطورت عما كانت عليه أيام Mechanical Turk، لأن من يقدمون تسميات أفضل يحصلون على أجر قد يصل إلى 100 دولار بالساعة، ولكن على الرغم من إسهام عملية التدريب اللاحق في تحسين النماذج وعلى الرغم من كون هذه العملية كافية بالنسبة لكثير من التطبيقات التجارية، نكتشف بأنها عملية تتزايد بشكل تدريجي في نهاية الأمر.

القفز فوق الجدار

ولكن بدلاً من إعادة جدار البيانات نحو الوراء شيئاً فشيئاً، ثمة حل آخر يتمثل بالقفز فوق ذلك الجدار، إذ ترى إحدى المقاربات بأن علينا الاستعانة ببيانات مركبة أي آلية الصنع، لأنها غير محدودة. وخير مثال على ذلك AlphaGo Zero ذلك النموذج الذي أطلقته شركة DeepMind التابعة لغوغل. ثم إن أول نموذج ناجح لتطبيق Go-playing جرى تدريبه باستخدام بيانات حول ملايين الحركات من ألعاب الهواة. في حين لم يستخدم نموذج AlphaGo Zero بيانات خلال مرحلة التدريب المسبق، بل علم نموذج Go عبر لعب 4.9 ملايين مباراة ضد نفسه على مدار ثلاثة أيام، مع مراقبة استراتيجيات الفوز، كما علمه التعلم التعزيزي كيفية الرد على تحركات الخصم عبر إطلاق عدد كبير من الردود الممكنة واختيار أحدها بناء على تمتعه بأكبر فرصة للفوز.

يمكن تطبيق نهج مماثل على ما تكتبه النماذج اللغوية الموسعة، وليكن مثلاً برهاناً رياضياً على مسألة ما، بحيث يتم ذلك خطوة بعد خطوة، وذلك لأن النموذج اللغوي الموسع بوسعه أن يؤلف جواباً عبر قيامه أولاً بتوليد كثير من الخطوات الأولى، كما يمكن للذكاء الصناعي المساعد المنفصل الذي تدرب على بيانات مأخوذة من خبراء بشر ليحكم على الجودة، أن يحدد الخطوة الأولى المثلى والتي تستحق أن ينطلق النموذج منها. وهذه الملاحظات التي ينتجها الذكاء الصناعي تعتبر شكلاً من أشكال البيانات المركبة، ويمكن استخدامها لتعزيز تدريب النموذج الأول. وبالنهاية ستحصل على إجابة ذات جودة أعلى من تلك الإجابة التي يمكن للنماذج اللغوية الموسعة أن تقدمها من المرة الأولى، كما سيكون لديك برنامج تعلم محسن. وهذه القدرة على تحسين جودة المخرجات عبر تخصيص وقت أطول للتفكير تشبه نظام تفكير البشر الذي يعتبر أبطأ وأكثر تروياً، وهذا النظام من التفكير أصبح اسمه "النظام 2" بحسب رأي أندريه كارباثي أحد مؤسسي شركة OpenAI. إذ حالياً، تعتمد النماذج اللغوية الموسعة على النظام 1 للتفكير، والذي يولد إجابة بلا ترو، كما يحدث مع أي استجابة انعكاسية لدى الإنسان.

 

بيد أن الصعوبة تكمن في تطبيق هذا النهج على مجالات مثل الرعاية الصحية أو التعليم، لأنه في مجال اللعب، هنالك تعريف واضح للفوز، ومن السهل جمع بيانات حول جودة التحركات، بيد أن الأمور أصعب وأدق في مجالات أخرى، لأن البيانات التي تطلق أحكاماً على جودة القرارات تجمع عادة من الخبراء، لكن هذه العملية مكلفة، وتستغرق وقتاً، كما أنها عبارة عن حل مؤقت، إذ كيف لك أن تعرف بأن ما قاله خبير معين صحيح أم لا؟

من الواضح بأن الوصول إلى مزيد من البيانات، سواء أجمعت من مصادر متخصصة، أو تم توليدها بشكل تركيبي أم قدمها خبراء بشر، يعتبر العنصر الأساس لمواصلة التقدم السريع في مجال الذكاء الصناعي، ولكن كما هي حال حقول النفط، يمكن القول بإن احتياطي البيانات التي يمكن الوصول إليها قد شارف على النفاد، أي أن التحدي اليوم يكمن في العثور على احتياطيات جديدة، أو بدائل دائمة.   

المصدر: The Economist