لقد قطع فن الغش في الامتحانات شوطًا طويلاً منذ أيام تدوين بعض الملاحظات على معصمك.
في الواقع، تشير دراسة جديدة إلى أن روبوتات الدردشة المدعمة بالذكاء الاصطناعي تجعل الغش أكثر كفاءة من أي وقت مضى.
وجد الباحثون أنه حتى الممتحنين ذوي الخبرة يكافحون الآن لتحديد الفرق بين الذكاء الاصطناعي والطلاب من البشر الحقيقيين.
أضاف الخبراء من جامعة ريدينغ سرًا ردودًا تم إنشاؤها بالكامل بواسطة ChatGPT لامتحان حقيقي لعلم النفس الجامعي.
وعلى الرغم من استخدام الذكاء الاصطناعي بأبسط الطرق وأكثرها وضوحًا، فشلت العلامات المطمئنة في اكتشاف استجابات الذكاء الاصطناعي في 94% من الحالات.
والأمر الأكثر إثارة للقلق هو أن الذكاء الاصطناعي تفوق بالفعل على الطلاب البشر في المتوسط، حيث حقق درجات عالية في المستوى 2:1 والأول.
لقد وجد الباحثون أنه حتى الفاحصين ذوي الخبرة يفشلون في معرفة الفرق بين الاستجابات البشرية الحقيقية والذكاء الاصطناعي في الاختبارات الفعلية (صورة مخزنة)
إحدى عينات المقالات هذه كتبها إنسان حقيقي، بينما تم إنشاء العينة الأخرى بواسطة MailOnline في ChatGPT باستخدام منهجية الباحثين. هل يمكنك معرفة أيهما؟ (الإجابات في مربع الواقع أدناه)
أدى التقدم السريع في أنظمة الذكاء الاصطناعي المولدة للنصوص مثل ChatGPT إلى خلق خطر جدي يتمثل في أن الغش المدعوم بالذكاء الاصطناعي قد يؤدي إلى تقويض عملية الامتحان.
لمعرفة مدى سوء هذه المشكلة، حاول البروفيسور المشارك بيتر سكارف والبروفيسور إتيان روش “التسلل” إلى اختبار حقيقي باستخدام الذكاء الاصطناعي.
أنشأ الباحثون 33 ملفًا شخصيًا مزيفًا للطلاب، وقاموا بتسجيلها لإجراء اختبارات منزلية عبر الإنترنت في مختلف وحدات علم النفس الجامعي.
باستخدام ChatGPT-4، أنشأ الباحثون استجابات مصطنعة تمامًا لكل من الأسئلة القصيرة المكونة من 200 كلمة والمقالات الكاملة المكونة من 1500 كلمة.
تم بعد ذلك تقديم هذه الإجابات جنبًا إلى جنب مع ردود الطلاب الحقيقيين في نظام امتحانات كلية علم النفس وعلوم اللغة السريرية.
لإظهار مدى صعوبة معرفة الفرق، قامت MailOnline بإنشاء مقالات نموذجية خاصة بنا.
نظرًا لخصوصية البيانات، لم يتمكن الباحثون من مشاركة أي من إجابات الاختبار معنا ولكننا استخدمنا موجه الذكاء الاصطناعي الدقيق الخاص بهم للإجابة ومثال على سؤال علم النفس الجامعي باستخدام ChatGPT.
تم إنشاء إحدى العينات المصورة بواسطة الذكاء الاصطناعي بينما الأخرى هي مثال بشري مأخوذ من دليل كتابة المقالات بجامعة جنوب أستراليا.
لذا، هل يمكنك معرفة أيهما؟ الإجابات موجودة في صندوق الحقائق أدناه.
أضاف الباحثون سرًا الاستجابات التي تم إنشاؤها بواسطة الذكاء الاصطناعي من 30 طالبًا مزيفًا إلى اختبار حقيقي لعلم النفس الجامعي لمعرفة ما إذا كان سيتم اكتشاف أي منها (صورة مخزنة)
لم يكن أي من العلامات على علم بحدوث أي تجربة ولم يكن هناك ما يشير إلى أن أوراق الذكاء الاصطناعي كانت مختلفة.
ومن بين 63 ورقة بحثية تم تقديمها بواسطة الذكاء الاصطناعي، تم وضع علامة على 6 في المائة فقط منها من قبل الفاحصين على أنها يحتمل أن تكون مشبوهة – ولكن الـ 94 في المائة المتبقية لم يلاحظها أحد على الإطلاق.
حقق الذكاء الاصطناعي متوسط درجات أعلى من الطلاب الحقيقيين، وفي بعض الوحدات تفوق على زملائهم من البشر بحدود الدرجة الكاملة.
وفي 83% من الحالات، حصل الذكاء الاصطناعي على درجات أفضل من مجموعة مختارة عشوائياً من الطلاب.
وهذا يعني أن 16% فقط من الطلاب كانوا سيحصلون على درجات أفضل إذا كانوا قد درسوا بالفعل وجلسوا في الورقة بأنفسهم بدلاً من استخدام الذكاء الاصطناعي.
من بين 63 ورقة بحثية تم تقديمها بواسطة الذكاء الاصطناعي، لم يلاحظ الفاحصون البشريون سوى 95% منها.
وباستخدام ChatGPT-4، طلب الباحثون ببساطة من الذكاء الاصطناعي الرد على سؤال المقال وتقديم النص غير المحرر. هذه هي الطريقة الأبسط والأكثر وضوحًا التي يمكن لأي طالب من خلالها استخدام الذكاء الاصطناعي (صورة مخزنة)
في الواقع، كما أشار الباحثون، هناك فرصة حقيقية جدًا لأن يقوم بعض الطلاب الحقيقيين بالغش والنجاح باستخدام الذكاء الاصطناعي في هذا الاختبار عبر الإنترنت.
منذ الوباء، ابتعدت العديد من الجامعات عن الاختبارات التقليدية وتوجهت نحو نموذج الامتحانات المنزلية عبر الإنترنت.
يقول الباحث الرئيسي البروفيسور سكارف: “لقد ابتعدت العديد من المؤسسات عن الاختبارات التقليدية لجعل التقييم أكثر شمولاً.”
الميزة هي أن هذه الاختبارات بشكل عام تختبر أكثر من مجرد القدرة على حشر المعلومات وتكون في متناول الأشخاص الذين يعانون من مشاكل الصحة العقلية أو الجسدية.
ومع ذلك، تزامنت هذه الحركة مع تطور آخر في عالم الذكاء الاصطناعي “التوليدي” الذي يسمح للمستخدمين بإنشاء كميات كبيرة من النصوص بمجرد مطالبة بسيطة.
نظرًا لأن الطلاب يعملون من المنزل بعيدًا عن أعين المراقبين، فإن خيار استخدام الذكاء الاصطناعي للغش أصبح متاحًا بشكل أكبر.
وعلى الرغم من وجود أجهزة الكشف عن الذكاء الاصطناعي، إلا أنها أثبتت أنها غير موثوقة للغاية في مواقف الحياة الواقعية.
على سبيل المثال، تبين أن الكاشف الذي أنشأه Turnitin، وهو برنامج لإدارة عمل الطلاب، أقل دقة بنسبة 20 في المائة عند استخدامه على الطلاب الفعليين.
حتى مع الاستخدام البسيط جدًا لـ ChatGPT، تفوقت أوراق الذكاء الاصطناعي (اللون الأزرق) على نظيراتها البشرية (البرتقالية) في كل ورقة تقريبًا. في إحدى الوحدات، P1-M2، كان أداء الذكاء الاصطناعي أفضل بحدود الدرجة بأكملها
ويقول الباحثون إن هذا قد يعني نهاية الامتحانات التقليدية كما نعرفها حيث تضطر الجامعات إلى التكيف.
ويقول الدكتور سكارفي: “لن نعود بالضرورة إلى الامتحانات المكتوبة بخط اليد بالكامل، ولكن قطاع التعليم العالمي سيحتاج إلى التطور في مواجهة الذكاء الاصطناعي”.
ويشير الباحثون في ورقتهم البحثية إلى أن الاختبارات قد تحتاج إلى البدء في السماح باستخدام الذكاء الاصطناعي في الاختبارات، لتجنب أن تصبح قديمة.
نظرًا لأنه يكاد يكون من المستحيل اكتشاف الذكاء الاصطناعي، ويبدو من المرجح أن يصبح استخدامه مهارة ضرورية، يرى الباحثون أن الامتحانات لا ينبغي أن تحارب هذه التكنولوجيا الجديدة – مثلما أصبحت الآلات الحاسبة أكثر قبولًا في الامتحانات.
يكتب الباحثون: “يبدو أن “الوضع الطبيعي الجديد” الذي يدمج الذكاء الاصطناعي أمر لا مفر منه. وسوف يكون “شكل التقييم الأصيل” هو الشكل الذي يستخدم فيه الذكاء الاصطناعي”.
ويضيف البروفيسور ماكروم: “تشمل الحلول الابتعاد عن أفكار التقييم التي عفا عليها الزمن والاتجاه نحو تلك الأفكار الأكثر توافقًا مع المهارات التي سيحتاجها الطلاب في مكان العمل، بما في ذلك الاستفادة من الذكاء الاصطناعي”.
اترك ردك