تقرير: أبل ونفيديا وأنثروبك استخدموا نصوص يوتيوب دون إذن لتدريب الذكاء الاصطناعى
توصل تحقيق جديد أجرته Proof News إلى أن بعض أكبر شركات التكنولوجيا في العالم قامت بتدريب نماذج الذكاء الاصطناعي الخاصة بها على مجموعة بيانات تضمنت نصوصًا من أكثر من 173000 مقطع فيديو على YouTube دون إذن.
تحتوي مجموعة البيانات، التي أنشأتها منظمة غير ربحية تسمى EleutherAI، على نسخ من مقاطع فيديو YouTube من أكثر من 48000 قناة واستخدمتها Apple وNVIDIA وAnthropic، من بين شركات أخرى. تسلط النتائج الضوء على حقيقة غير مريحة حول الذكاء الاصطناعي: تعتمد التكنولوجيا إلى حد كبير على بيانات تم سحبها من المبدعين دون موافقتهم أو تعويضهم.
لا تتضمن مجموعة البيانات أي مقاطع فيديو أو صور من YouTube، لكنها تحتوي على نصوص فيديو من أكبر منشئي المحتوى على المنصة، بما في ذلك Marques Brownlee وMrBeast، بالإضافة إلى ناشري الأخبار الرئيسيين مثل The New York Times وBBC وABC News. كما تعد الترجمات من مقاطع فيديو Engadget جزءًا من مجموعة البيانات.
وكتب براونلي على موقع X: “كانت شركة آبل تحصل على بيانات الذكاء الاصطناعي الخاصة بها من عدد من الشركات. وكانت إحدى هذه الشركات تجمع الكثير من البيانات والنصوص من مقاطع فيديو يوتيوب، بما في ذلك مقاطع الفيديو الخاصة بي، وستكون هذه مشكلة متطورة لفترة طويلة”.
وقال متحدث باسم جوجل لـ Engadget إن التعليقات السابقة التي أدلى بها نيل موهان، الرئيس التنفيذي لشركة يوتيوب، بأن الشركات التي تستخدم بيانات يوتيوب لتدريب نماذج الذكاء الاصطناعي تنتهك شروط خدمة المنصة لا تزال قائمة، ولم تستجب Apple وNVIDIA وAnthropic وEleutherAI لطلب Engadget للتعليق.
حتى الآن، كانت شركات الذكاء الاصطناعي غير شفافة إلى حد كبير بشأن البيانات المستخدمة لتدريب نماذجها. في وقت سابق من هذا الشهر، انتقد الفنانون والمصورون شركة Apple لفشلها في الكشف عن مصدر بيانات التدريب لشركة Apple Intelligence، الشركة التي تقف وراء الذكاء الاصطناعي التوليدي الذي سيأتي إلى ملايين أجهزة Apple هذا العام.
ويعد موقع يوتيوب، وهو أكبر مستودع للفيديو في العالم، منجمًا ذهبيًا ليس فقط للنصوص ولكن أيضًا للصوت والفيديو والصور، مما يجعله مجموعة بيانات جذابة لتدريب نماذج الذكاء الاصطناعي.
في وقت سابق من هذا العام، تجنبت ميرا موراتي، كبير مسؤولي التكنولوجيا في شركة OpenAI، أسئلة من صحيفة وول ستريت جورنال حول ما إذا كانت الشركة تستخدم مقاطع فيديو يوتيوب لتدريب Sora، أداة إنشاء الفيديو بالذكاء الاصطناعي القادمة من OpenAI.
وقال موراتي في ذلك الوقت: “لن أدخل في تفاصيل البيانات المستخدمة، لكنها كانت متاحة للجمهور أو بيانات مرخصة”. كما قال الرئيس التنفيذي لشركة Alphabet، سوندار بيتشاي، إن الشركات التي تستخدم بيانات من YouTube لتدريب نماذج الذكاء الاصطناعي الخاصة بها تنتهك شروط خدمة المنصة.
للمزيد : تابعنا هنا ، وللتواصل الاجتماعي تابعنا علي فيسبوك وتويتر .
مصدر المعلومات والصور: youm7
اكتشاف المزيد من رأي الأمة
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.