تستعين شركة OpenAI بكل ما يتوفر من بيانات متاحة للعامة حتى تدرب تطبيق ChatGPT، وتشمل تلك البيانات الكتب والمقالات المنشورة على الشابكة، بيد أن أصحاب تلك الأعمال باتوا يطالبون اليوم بحقهم في الحصول على أجر مقابل ذلك.
تعتبر بيانات التدريب جزءاً أساسياً من عملية تكوين نماذج الذكاء الصناعي التي تجتاح العالم التقني، ولهذا هرعت شركات تقنية رائدة مثل غوغل وميتا وOpenAI وAnthropic ومايكروسوفت للعثور على مصادر جديدة للبيانات، وفي مرحلة من المراحل، فكرت شركة ميتا بشراء دار نشر كبيرة تعرف باسم Simon & Schuster.
كيف يكون الاستخدام عادلاً؟
وأحد أهم أسباب المشكلة هو أن الناشرين باتوا يتهمون تلك الشركات بأخذ البيانات المحمية بحقوق التأليف والنشر، ولهذا فهم يطالبون بأجر على عملهم، بيد أن شركتي ميتا وOpenAI ذكرتا أمام مكتب حقوق النشر الأميركي بأن وضع المادة التي تتمتع بحقوق نشر على الإنترنت يجعل منها مادة متاحة للعموم، ولذلك فإن استخدامها يعتبر استخداماً عادلاً.
ولكن ما يزال يتعين على هاتين الشركتين تقديم حجتهما بخصوص ذلك أمام المحاكم بما أن شركات عديدة رفعت ضدهما دعاوى قضائية بخصوص مواد تتمتع بحقوق نشر.
إذ في مطلع هذا العام رفع مركز التقارير الاستقصائية، وهو مؤسسة إخبارية غير ربحية، دعوى ضد شركتي OpenAI ومايكروسوفت أمام المحكمة الفيدرالية، اتهم فيها شركة OpenAI بأنها قائمة على استغلال الأعمال التي تتمتع بحقوق نشر والتي تعود لمؤلفين آخرين من مختلف بقاع العالم، بينهم أشخاص من المركز نفسه.
واتهم محامو المركز شركتي OpenAI ومايكروسوفت بالاستعانة بمواد تتمتع بحقوق نشر من إحدى الشركات التي اندمج معها المركز وذلك لتدريب نماذج الذكاء الصناعي في تطبيقي GPT و Copilot
دعاوى بالجملة
وفي بيان نشر حول القضية، أعلنت مونيكا بورلين المديرة التنفيذية للمركز بأن: "شركتي OpenAI ومايكروسوفت بدأتا بأخذ أخبارنا حتى يصبح إنتاجهما أقوى، من دون أن تطلبا الإذن أو تقدما أي تعويض، بخلاف الشركات الأخرى التي تطلب الإذن للاستعانة بموادنا، وهذا الأسلوب الذي يعتمد على الأخذ بالمجان ليس عادلاً أبداً، بل فيه انتهاك لحقوق النشر".
كما ورد في الدعوى وجود: "16,793 عنواناً واضحاً من نطاق موقع الشركة الإلكتروني ضمن قائمة نشرت عن أفضل نطاقات الشابكة وذلك ضمن مجموعة التدريب على نصوص الويب التي اعتمدتها الشركة".
وفي قضية من نوع آخر رفعتها نقابة الكتاب، زعم مؤلفان بأن الشركة استخدمت معلومات من كتابيهما لتدريب تشات جي بي تي، كما رفعت صحيفة نيويورك تايمز دعوى مماثلة ضد الشركة في كانون الأول عام 2023.
وفي أيار الماضي، كشفت وثائق المحكمة التي تتعلق بدعوى نقابة الكتاب بأن شركة OpenAI حذفت مجموعتين كبيرتين للبيانات استخدمتهما لتدريب جي بي تي-3، ويعتقد محامو النقابة بأن هاتين المجموعتين تحتويان على "أكثر من 100.000 كتاب منشور"، كما ورد في وثائق المحكمة بأن الموظفين المسؤولين عن تجميع تلك البيانات لا يعملان الآن لدى شركة OpenAI.
ترخيص الاستخدام
يذكر أن شركة OpenAI بدأت بتوقيع اتفاقيات ترخيص مع المؤسسات الإخبارية لتستخدم أعمالها بشكل عادل، كما وقعت الشركة اتفاقيات مماثلة مع أسوشيتد برس، وصحيفة وول ستريت جورنال ونيويورك بوست، وأتلانتيك، وبريزا ميديا، ولوموند، وفاينانشال تايمز وبزنس إنسايدر وأكبر شركة صحف وتوزيع في ألمانيا: آكسل شبرينغر.
البيانات المركبة
غير أن حجم المحتوى المطلوب لتدريب تلك الروبوتات بشكل متواصل يحتاج لكثير من اتفاقيات الترخيص، ولكن هنالك حل يتمثل بالبيانات المركبة، وهي بيانات تولد بطريقة صناعية بدلاً من أن تجمع من العالم الواقعي، بحيث يمكن توليدها بسهولة بواسطة خوارزميات التعلم الآلية.
درست شركة OpenAI البيانات المركبة بوصفها خياراً لتدريب النماذج لديها، لكن مديرها التنفيذي، سام آلتمان، راودته مخاوف بشأن جودة البيانات الناتجة عن ذلك، ولهذا قال في مؤتمر تقني عقد في شهر أيار عام 2023: "طالما كان بوسعك تجاوز حد البيانات المركبة، أي عندما يكون النموذج ذكياً بما فيه الكفاية ليصنع بيانات مركبة جيدة، فستكون الأمور على ما يرام"، كما بحثت الشركة إمكانية تعاون النماذج مع بعضها، بحيث يقوم نظام ذكاء صنعي واحد بإنتاج البيانات، فيما يصدر نظام آخر الحكم عليه.
حري بالذكر بأن شركة OpenAI لم ترد حتى الآن عندما طلبت منها بزنس إنسايدر التعليق على الموضوع.
المصدر: Business Insider