منذ أن تم اقتراحه لأول مرة في عام 1950، اعتُبر اجتياز “اختبار تورينج” أحد أعلى الأهداف في مجال الذكاء الاصطناعي.
لكن الآن، يدعي الباحثون أن ChatGPT أصبح أول ذكاء اصطناعي يجتاز هذا الاختبار الشهير للذكاء البشري.
هذه الفكرة، التي اقترحها رائد الكمبيوتر آلان تورينج، تدعي أن الذكاء الاصطناعي ينبغي اعتباره ذكيًا حقًا إذا لم يتمكن الناس من معرفة ما إذا كانوا يتحدثون إلى إنسان أم إلى آلة.
في ورقة بحثية ما قبل الطباعة، يقول علماء الإدراك من جامعة كاليفورنيا في سان دييغو أن ChatGPT-4 يمكن أن يخدع الأشخاص الخاضعين للاختبار البشري أكثر من نصف الوقت.
ومع ذلك، يقول الباحثون إن هذا قد يخبرنا عن اختبار تورينج أكثر مما يخبرنا عن ذكاء الذكاء الاصطناعي الحديث.
لقد اجتاز ChatGPT-4 “اختبار تورينج” الشهير الذي تم تطويره لمعرفة ما إذا كانت أجهزة الكمبيوتر تتمتع بذكاء يشبه الإنسان
نظرة عامة على اختبار تورينج: يقوم المحقق البشري (C) بطرح أسئلة على الذكاء الاصطناعي (A) وإنسان آخر (B) ويقوم بتقييم الإجابات. المحقق لا يعرف أيهما. إذا خدع الذكاء الاصطناعي المحقق وجعله يعتقد أن ردوده صادرة عن إنسان، فإنه يجتاز الاختبار
في عام 1950، ابتكر عالم فك الشفرات البريطاني آلان تورينج خلال الحرب العالمية الثانية ما اعتقد أنه سيكون الاختبار النهائي لذكاء الكمبيوتر.
لقد تخيل أن أحد المشاركين البشريين سيجلس على الشاشة ويتحدث مع إنسان أو جهاز كمبيوتر من خلال واجهة نصية فقط.
إذا لم يكن من الممكن تمييز الكمبيوتر عن الإنسان عبر مجموعة واسعة من المواضيع المحتملة، فقد رأى تورينج أنه يتعين علينا الاعتراف بأنه ذكي مثل الإنسان تمامًا.
ولتكرار هذا الاختبار الشهير، طلب الباحثون من 500 مشارك التحدث مع أربعة عملاء مختلفين: ثلاثة أجهزة ذكاء اصطناعي وإنسان واحد.
كانت أنظمة الذكاء الاصطناعي هي ChatGPT-4، وChatGPT-3.5 – وهما نموذجان وراء برنامج الدردشة الشهير من OpenAI – وبرنامج دردشة يعود إلى حقبة الستينيات يسمى ELIZA.
تم وضع المشاركين في غرفة الدردشة وإخبارهم أنهم بحاجة إما إلى إقناع الشخص الآخر بأنهم بشر أو معرفة من يتحدثون إليه.
ثم تُرك المشاركون للدردشة لمدة خمس دقائق قبل أن يتم سؤالهم عما إذا كانوا يعتقدون أنهم يتحدثون إلى جهاز كمبيوتر أو إلى إنسان، ولماذا يعتقدون ذلك، ومدى ثقتهم.
أنشأ آلان تورينج (على اليمين) اختبارًا يتحدث فيه المشاركون من خلال واجهة نصية فقط مع جهاز كمبيوتر أو إنسان. قام الباحثون بتكرار نسخة حديثة من هذه التجربة من خلال برنامج الدردشة النصية (يسار)
اختبار تورينج: هل يمكنك معرفة الفرق؟ إحدى هذه المحادثات تجري مع إنسان بينما تجري المحادثات الثلاث الأخرى مع الذكاء الاصطناعي. اقرأها بعناية وقم بالتخمين – الإجابات موجودة في المربع أدناه
في حين أن برنامج ELIZA القديم خدع المشاركين بنسبة 22% فقط من الوقت الذي مر فيه ChatGPT-3.5 دون أن يتم اكتشافه في 50% من المحادثات.
وكان أداء الإصدار الأكثر تقدمًا، ChatGPT-4، أفضل، حيث وصفه المشاركون بأنه بشري بنسبة 54% من الحالات.
وهذا يعني أن ChatGPT-4 قادر على تصوير نفسه على أنه إنسان بشكل متكرر أكثر مما توحي به الصدفة.
وإذا كان هذا يبدو منخفضًا، فمن الجدير بالذكر أن المشاركين حددوا البشر بشكل صحيح فقط في 67% من المحادثات.
كتب الباحثون أن هذه النتائج “توفر أول دليل تجريبي قوي على أن أي نظام اصطناعي يجتاز اختبار تورينج التفاعلي للاعبين”.
ومن الجدير بالذكر أن هذه ورقة بحثية ما قبل الطباعة، أي أنها تنتظر حاليًا مراجعة النظراء، لذا يجب أخذ النتائج بدرجة معينة من العناية.
ومع ذلك، إذا تم دعم النتائج، فسيكون هذا أول دليل قوي على أن الذكاء الاصطناعي قد اجتاز اختبار تورينج كما تصوره آلان تورينج.
قال نيل واتسون، باحث الذكاء الاصطناعي في معهد مهندسي الكهرباء والإلكترونيات (IEEE)، لموقع Live Science: “يمكن للآلات أن تخلط بين المبررات المعقولة للأشياء، كما يفعل البشر.
“كل هذه العناصر تعني أنه يتم التعبير عن نقاط الضعف والمراوغات الشبيهة بالبشر في أنظمة الذكاء الاصطناعي، مما يجعلها أكثر شبهاً بالإنسان من الأساليب السابقة التي لم يكن لديها أكثر من مجرد قائمة من الاستجابات الجاهزة.”
تم التعرف على البشر بشكل صحيح على أنهم بشر في ما يزيد قليلاً عن 60% من الحالات (الشريط الأزرق)، بينما تمكن ChatGPT-4 من خداع شركاء المحادثة في 54% من الحالات.
والأهم من ذلك أن الأداء المنخفض لبرنامج ELIZA يساعد أيضًا في دعم أهمية هذه النتائج.
في حين أنه قد يبدو غريبًا إدراج برنامج يعود إلى ستينيات القرن الماضي في اختبار للتكنولوجيا المتطورة، فقد تم تضمين هذا النموذج لاختبار شيء يسمى “تأثير إليزا”.
تأثير ELIZA هو فكرة أن البشر قد يخصصون خصائص شبيهة بالإنسان حتى للأنظمة البسيطة جدًا.
لكن حقيقة أن الناس قد تم خداعهم بواسطة ChatGPT وليس ELIZA تشير إلى أن هذه النتيجة “غير تافهة”.
ويشير الباحثون أيضًا إلى أن تغيير التصورات العامة حول الذكاء الاصطناعي ربما أدى إلى تغيير النتائج التي ينبغي أن نتوقعها من اختبار تورينج.
لقد كتبوا: “للوهلة الأولى، يمكن أن يكون معدل النجاح البشري المنخفض مفاجئًا.
“إذا كان الاختبار يقيس مدى الشبه بالبشر، ألا يجب أن يكون البشر 100%؟”
وهذه هي المرة الأولى التي يجتاز فيها الذكاء الاصطناعي الاختبار الذي اخترعه آلان تورينج عام 1950، وفقًا للدراسة الجديدة. اشتهرت حياة رائد الكمبيوتر الأوائل واختراع اختبار تورينج في فيلم The Imitation Game، بطولة بنديكت كومبرباتش (في الصورة)
في عام 1950، كان هذا الافتراض منطقيًا تمامًا، لأنه في عالم خالٍ من الذكاء الاصطناعي المتقدم، كنا نفترض أن أي شيء يبدو بشريًا هو إنساني.
ولكن مع زيادة وعي الجمهور بالذكاء الاصطناعي وزيادة ثقتنا فيه، أصبحنا أكثر عرضة للخطأ في تعريف البشر على أنهم ذكاء اصطناعي.
قد يعني هذا أن الفجوة الصغيرة بين معدل النجاح لدى البشر وChatGPT-4 أكثر إقناعًا كدليل على ذكاء الكمبيوتر.
في فبراير من هذا العام، وجد باحثون من جامعة ستانفورد أن ChatGPT يمكنه اجتياز نسخة من اختبار تورينج حيث يجيب الذكاء الاصطناعي على اختبار شخصية مستخدم على نطاق واسع.
على الرغم من أن هؤلاء الباحثين وجدوا أن نتائج ChatGPT-4 لا يمكن تمييزها عن نتائج البشر، فإن هذه الورقة البحثية الأخيرة هي واحدة من أولى المرات التي اجتاز فيها الذكاء الاصطناعي اختبار تورينج القوي للاعبين استنادًا إلى المحادثة.
ومع ذلك، يعترف الباحثون أيضًا بوجود انتقادات طويلة الأمد وصحيحة لاختبار تورينج.
ويشير الباحثون إلى أن “العوامل الأسلوبية والاجتماعية والعاطفية تلعب دورًا أكبر في اجتياز اختبار تورينج من المفاهيم التقليدية للذكاء”.
ويقول الباحثون إن هذا لا يدل بالضرورة على أن الذكاء الاصطناعي أصبح ذكيا، بل أنه أصبح أفضل في انتحال شخصية البشر (صورة مخزنة)
كان المحققون أكثر ميلاً إلى الاستشهاد بالأسلوب والشخصية والنبرة كسبب لتحديد شريك المحادثة الخاص بهم على أنه إنسان آلي أكثر من أي شيء مرتبط بالذكاء.
وبالمثل، كانت إحدى أكثر الاستراتيجيات نجاحاً لتحديد الروبوتات هي السؤال عن التجارب البشرية، وهو الأمر الذي نجح بنسبة 75% من الوقت.
يشير هذا إلى أن اختبار تورينج لا يثبت حقًا أن النظام ذكي ولكنه يقيس قدرته على تقليد البشر أو خداعهم.
وفي أفضل الأحوال، يقترح الباحثون أن هذا يوفر دعمًا “احتماليًا” للادعاء بأن ChatGPT ذكي.
كان من المرجح أن يتعرف المشاركون على الذكاء الاصطناعي بناءً على تقييم شخصيته والتفاصيل المقدمة عنه بدلاً من أي شيء يعتمد على الذكاء.
لكن هذا لا يعني أن اختبار تورينج لا قيمة له، إذ يشير الباحثون إلى أن القدرة على انتحال شخصية البشر ستكون لها عواقب اقتصادية واجتماعية ضخمة.
يقول الباحثون إن أنظمة الذكاء الاصطناعي المقنعة بما فيه الكفاية يمكن أن “تخدم أدوارًا ذات قيمة اقتصادية في مواجهة العملاء والتي كانت تاريخيًا حكرًا على العمال البشريين، وتضلل عامة الناس أو مشغليهم البشريين، وتؤدي إلى تآكل الثقة الاجتماعية في التفاعلات البشرية الحقيقية”.
وفي نهاية المطاف، يمكن أن يكون اختبار تورينج مجرد جزء مما نحتاج إلى تقييمه عندما نتطلع إلى تطوير نظام الذكاء الاصطناعي.
تقول السيدة واتسون: “الذكاء الخام لا يذهب إلا إلى أبعد من ذلك. ما يهم حقًا هو أن تكون ذكيًا بما يكفي لفهم الموقف ومهارات الآخرين والحصول على التعاطف لربط هذه العناصر معًا.
“إن القدرات ليست سوى جزء صغير من قيمة الذكاء الاصطناعي – كما أن قدرتهم على فهم قيم الآخرين وتفضيلاتهم وحدودهم أمر ضروري أيضًا.”
اترك ردك