icon
التغطية الحية

10 في المئة من الأبحاث كتبت بمساعدة الذكاء الصناعي

2024.06.27 | 15:45 دمشق

آخر تحديث: 27.06.2024 | 15:45 دمشق

تشات جي بي تي (صورة تعبيرية) - المصدر: الإنترنت
تشات جي بي تي (صورة تعبيرية) - المصدر: الإنترنت
The Economist - ترجمة: ربى خدام الجامع
+A
حجم الخط
-A

"إليك مقدمة بوسعك استخدامها لموضوع بحثك" جملة ظهرت في مقالة نشرتها مؤخراً مجلة علمية تعرف باسم Surfaces and Interfaces، وهذا ما دفع من انتبه من القراء للتساؤل عمن تخاطب تلك البداية الغريبة لطرح الموضوع، كما تساءلوا عما إذا كان كاتب هذه المقالة التي تتحدث عن تقانة البطاريات إنساناً أم آلة.

أصبح اليوم عدد كبير من قراء الأبحاث العلمية يطرحون هذا السؤال بالتحديد، وذلك لأن النماذج اللغوية الموسعة أصبحت اليوم جيدة بما فيه الكفاية لتساعد على كتابة ورقة بحثية متكاملة، إذ بوسعها أن تنفخ الروح في المواد العلمية المكثفة، وأن تسرع عملية تحضير المسودات، خاصة لدى المتحدثين بالإنكليزية كلغة ثانية. بيد أن الاعتماد على تلك النماذج يحمل مخاطر أيضاً، وذلك لأن النماذج اللغوية الموسعة قد تعيد إنتاج أفكار متحيزة أو مجحفة، كما يمكنها إنتاج كم كبير من الهراء الذي يبدو منطقياً. ومع ذلك بقي مدى انتشار هذه المشكلة غير واضح حتى فترة قريبة.

في طبعة أولية أعيد نشرها مؤخراً على أرشيف arXiv، عمل فريق دولي من الباحثين في إحدى الجامعات الألمانية والأميركية على توضيح هذه الفكرة، إذ يشرح بحثهم الذي لم ينل حظه من المراجعة على يد علماء آخرين، بأن بحثاً واحداً على الأقل من كل عشرة أبحاث علمية يشتمل على مادة أنتجتها النماذج اللغوية الموسعة، وهذا يعني بأنه سيجري نشر 100 ألف ورقة بحثية تعتمد على النماذج اللغوية الموسعة خلال هذا العام فقط، وطبعاً ذلك العدد يمثل الحد الأدنى للأبحاث التي ستنشر بالاعتماد على تلك الوسيلة. إذ في بعض الميادين الأخرى، مثل علوم الحاسوب، يقدر وجود أكثر من 20% خلاصة بحثية تحتوي على نصوص أنتجت بواسطة النماذج اللغوية الموسعة، وبين الأوراق البحثية التي قدمها علماء حاسوب صينيون، يصل العدد إلى بحث واحد من بين كل ثلاثة أبحاث.

كيف نكتشف تلك النصوص؟

ليس من السهل على المرء اكتشاف النص الذي أنتج بواسطة النماذج اللغوية الموسعة، فقد صار العلماء يعتمدون على طريقة واحدة من بين طريقتين لاكتشاف ذلك، إحداهما تعتمد على خوارزميات الكشف المدربة على تحديد الإيقاعات المتكررة للنصوص التي يكتبها البشر، والأخرى تقوم على بحث مباشر عن الكلمات المشكوك بأمرها والتي تختارها النماذج اللغوية الموسعة بشكل كبير مثل كلمة "محوري" و"مجال" مثلاً. وكلتا الطريقتين تعتمدان على بيانات تقوم على حقائق أساسية مادية، أي على كم كبير من النصوص التي كتبها البشر والنصوص التي صنعتها الآلة، والمدهش في الأمر أنه من الصعب جمع كل تلك النصوص، وذلك لأن النصوص التي يكتبها البشر وتلك التي تنتجها الآلة تتغير بمرور الزمن، بما أن اللغات تتطور، والنماذج اللغوية تخضع لتحديث مستمر. ثم إن الباحثين يجمعون النصوص التي تنتجها النماذج اللغوية الموسعة عبر تشجيع تلك النماذج نفسها، والطريقة التي يعتمدونها للقيام بذلك قد تختلف تمام الاختلاف عن الطريقة التي يعتمدها العلماء لتحقيق الهدف نفسه.

في الورقة البحثية الجديدة التي كتبها ديميتري كوباك وزملاؤه من جامعة توينغن الألمانية، والتي أصبحت متاحة كطبعة أولية، تظهر طريقة ثالثة لتحديد النصوص التي ألفتها النماذج اللغوية الموسعة، وهذه الطريقة تهمل تماماً الحاجة لبيانات تعتمد على حقائق مادية أساسية، وذلك لأن مصدر إلهام هذه الطريقة كان العمل الذي أجراه الباحثون على السكان وخاصة عندما درسوا الزيادة في أعداد الوفيات، حيث جرى ربط معدل الوفيات بالعملية القائمة على مراعاة الفروقات بين أعداد الوفيات المتوقعة وتلك التي جرى رصدها. إذ كما تبحث الطريقة التي تدرس الزيادة في أعداد الوفيات في نسبة الوفيات غير الطبيعية، كذلك الأمر بالنسبة لطريقة دراسة الزيادة في استخدام المفردات، والتي تبحث في الاستخدام غير الطبيعي للمفردات، أي إن الباحثين بحثوا عن الكلمات التي ظهرت في خلاصات علمية والتي تظهر أكثر من غيرها ودرسوا ذلك بشكل علمي وقارنوه مع المفردات المتوقع ظهورها في نصوص الأبحاث الموجودة حالياً، وقد ضمت النصوص التي حللوها خلاصات لكل أنواع الأوراق البحثية التي كتبت باللغة الإنكليزية حول محرك البحث PubMed المتخصص بالطب الحيوي، والتي نشرت خلال الفترة ما بين كانون الثاني 2010 وحتى آذار 2024، فبلغ عددها نحو 14.2 مليون ورقة بحثية.

كشف الباحثون بأن استخدام المفردات بقي ثابتاً نسبياً خلال معظم تلك السنين، أي إنه خلال تلك الفترة المرصودة لم تظهر زيادة في تكرار مفردة معينة عن الحد المتوقع وهو 1%، بيد أن الأمور تغيرت في عام 2020، مع انتشار استخدام مفردات مثل "سارز" و"فيروس كورونا" و"الجائحة" و"المرض" و"المرضى" و"حاد" بشكل كبير (إذ سجلت المفردات المرتبطة بكوفيد نسبة غير طبيعية من التكرار حتى عام 2022). وفي مطلع عام 2024، بعد مرور قرابة سنة على انتشار النماذج اللغوية الموسعة مثل تشات جي بي تي، ظهرت مجموعة مختلفة من المفردات، إذ من بين 774 مفردة زاد استخدامها إلى حد كبير خلال الفترة ما بين 2013 و2024، انتشرت 329 مفردة انتشار النار في الهشيم خلال الأشهر الثلاثة الأولى من عام 2024، ومن بين تلك المفردات هنالك 280 مفردة تتصل بالأسلوب لا بالموضوع، وأشهر مثال على ذلك كلمات مثل "ينقب" و"قدرة" و"معقد" و"بدقة" و"حاسم"، و"مهم"، و"أفكار".

نسب صادمة!

يرجح أهم سبب لزيادة استخدام تلك المفردات برأي الباحثين إلى الاستعانة بالنماذج اللغوية الموسعة، ولدى دراسة الباحثين لنسبة الخلاصات البحثية التي استخدمت مفردة واحدة على الأقل من تلك المفردات التي انتشر استخدامها بشكل مفرط (مع حذف المفردات التي تستخدم بشكل طبيعي في كل النصوص)، تبين للباحثين وجود ما لايقل عن 10% من المواد التي أنتجت بواسطة النماذج اللغوية الموسعة، وبما أن محرك البحث PubMed يؤرشف قرابة 1.5 مليون ورقة بحثية سنوياً، فهذا يعني بأن أكثر من 150 ألف ورقة بحثية تنتج سنوياً أصبحت تكتب اليوم بواسطة النماذج اللغوية الموسعة.

شاعت الاستعانة بتلك النماذج في مجالات أكثر من غيرها، إذ تشير النتائج التي خلص إليها الباحثون إلى أن الأبحاث المتعلقة بالحوسبة كانت الأشد اعتماداً على تلك النماذج بوجود نسبة فاقت 20%، في حين سجلت الأبحاث المتعلقة بمجال البيئة أقل نسبة، بوجود أقل من 5% من تلك الأبحاث البيئية المعتمدة على هذه النماذج. كما أن نسبة الاستخدام تختلف باختلاف الموقع الجغرافي، إذ إن العلماء التايوانيين والكوريين الجنوبيين والإندونيسيين والصينيين كانوا أكثر من استخدم هذه النماذج، في حين أن العلماء البريطانيين والنيوزيلنديين كانوا الأقل استخداماً لها (كما أن الباحثين من دول أخرى ناطقة بالإنكليزية سجلوا استخداماً ضئيلاً لهذه النماذج هم أيضاً). في حين أظهرت مجلات مختلفة نتائج متباينة، إذ إن المجلات التي تنتمي لمجموعة Nature وغيرها من المجلات المرموقة مثل Science وCell سجلت نسبة ضئيلة من الاعتماد على النماذج اللغوية الموسعة (أقل من 10%)، في حين أن مجلة  Sensors سجلت نسبة فاقت 24% بما أنها مجلة متخصصة بالحساسات وهذا المجال لا يحتاج إلى أي ابتكار أو خيال.

وتقريباً، تتساوى نتائج طريقة الاستخدام المفرط لمفردات بعينها مع النتائج التي تقدمها خوارزميات الكشف الأقدم منها، والتي تدرس عينات أصغر مأخوذة من مصادر محدودة. إذ مثلاً في طبعة أولية نشرت في نيسان 2024، تبين لفريق بحثي بأن 17.5% من الجمل المستخدمة في خلاصات أبحاث علوم الحاسوب قد أنتجت بواسطة النماذج اللغوية الموسعة، كما اكتشفوا بأن هذه النسبة تقل مع مجلات مثل Nature وفي الأوراق البحثية المتخصصة بالرياضيات (بما أن أداء النماذج اللغوية الموسعة بالغ السوء في مجال الرياضيات)، كما أن المفردات التي يجري استخدامها بشكل مفرط والتي حددها ذلك الفريق البحثي تتطابق مع القوائم التي وضعها الباحثون للمفردات المشكوك بأمرها.

لا يحق لأحد أن يستغرب عندما يقرأ هذه النتائج، وذلك لأن الباحثين اعترفوا أكثر من مرة باستخدامهم للنماذج اللغوية الموسعة في كتابة أوراقهم البحثية. إذ في دراسة استقصائية أجريت على 1600 باحث في أيلول عام 2023، تبين بأن أكثر من 25% مم الباحثين ذكروا لمجلة Nature بأنهم استعانوا بالنماذج اللغوية الموسعة لكتابة مخطوطاتهم. وأهم فائدة تحدث عنها الباحثون الذين أجريت معهم مقابلات هي أن هذه النماذج تساعد من لا تعتبر الإنكليزية لغته الأم على تحرير النص وتدقيقه أو ترجمته، بما أن أغلب هؤلاء الباحثين درسوا الذكاء الصناعي أو استخدموه في عملهم. أما الفائدة الثانية فهي استخدام المفردات الاصطلاحية بشكل أسرع وأسهل، إلى جانب تبسيط المهام الإدارية، وتلخيص الأبحاث العلمية أو البحث فيها عن شيء معين، والميزة الأهم تتمثل بكتابة مخطوطة بحث بشكل سريع.

لا محاسبة تطول الذكاء الصناعي

بالنسبة لكل تلك الفوائد، فإن الاستعانة بالنماذج اللغوية الموسعة لكتابة المخطوطات لا يتم من دون مخاطر، وذلك لأن الأوراق البحثية العلمية تعتمد على التعبير بشكل واضح عن فكرة التشكيك بالفرضية مثلاً، لكن إمكانيات النماذج اللغوية الموسعة في هذا المجال ما تزال غير واضحة، ولهذا ما تزال الهلوسة التي تؤكد النماذج اللغوية الموسعة بكل ثقة بأنها ضرب من الخيال، أمراً شائعاً، وكذلك الميل لاجترار المواد الموجودة أصلاً بشكل حرفي من دون أي إسناد. كما تشير الأبحاث إلى أن النماذج اللغوية الموسعة تفضل الاستشهاد بأبحاث أخرى جرى الاستشهاد بها كثيراً ضمن مجال معين، مما قد يعمل على تأكيد حالات التمييز والتحيز والإجحاف الموجودة بالأصل، كما يحد من مستوى الإبداع. وكما هي حال الخوارزميات، لا يمكن إدراج تلك النماذج كمؤلف لتلك الأبحاث، وبالتالي لا يمكن محاسبتها عن أي خطأ اقترفته في البحث. ولعل أشد عنصر مثير للقلق هنا يتمثل بالسرعة التي تنتج فيها النماذج اللغوية الموسعة أي ورقة بحثية، مما قد يهدد بإغراق المجال العلمي بأبحاث ذات جودة ضعيفة.

بيد أن السياسات الأكاديمية المفروضة على استخدام النماذج اللغوية الموسعة أضحت في زيادة مستمرة، فبعض المجلات حرمت بشكل صريح الاستعانة بتلك النماذج، فيما غيرت مجلات أخرى من تفكيرها بخصوص هذا الأمر، إذ حتى تشرين الثاني من عام 2023، كانت مجلة Science تصنف كل النصوص المولدة بواسطة النماذج اللغوية الموسعة على أنها نصوص مسروقة، لكن هذه المجلة غيرت رأيها بخصوص ذلك وأعلنت بأن: "المنتج في نهاية الأمر لابد أن يأتي أو يتم التعبير عنه من خلال الحواسيب الرائعة الموجودة داخل رؤوسنا"، وبذلك عدلت المجلة من سياستها منذ ذلك الحين، فأعلنت بأن النص المولد بواسطة النماذج اللغوية الموسعة بات اليوم مسموحاً في حال تقديم ملاحظات تفصيلية عن طريقة استخدام تلك النماذج ضمن قسم الطريقة الملحق بالورقة البحثية، إلى جانب تقديم خطاب تغطية مرفق بالبحث. ولحقت بتلك المجلة مجلتا Nature وCell عندما سمحتا باستخدام النصوص المولدة بالنماذج اللغوية الموسعة، طالما تم الاعتراف بذلك بكل صراحة ووضوح.

غير أن إمكانية فرض تلك السياسات لم تتضح بعد حتى الآن، ولا توجد اليوم طريقة موثوقة لفرز النصوص المكتوبة بواسطة النماذج اللغوية الموسعة، بل حتى طريقة "الاستخدام المفرط للمفردات" على الرغم من فائدتها في تحديد توجهات سائدة لاستخدام مفردات معينة، لا يمكنها أن تحدد إن كانت خلاصة علمية معينة قد كتبت بالاعتماد على النماذج اللغوية الموسعة أم لا، أي إنه ينبغي على الباحثين تجنب استخدام مفردات بعينها لئلا يكتشفوا بواسطة هذه الطريقة، إذ كما ورد في النسخة الأولية الجديدة، لابد من التنقيب في تلك التحديات بدقة متناهية.

المصدر: The Economist