يستخدم العلماء طفلًا يبلغ من العمر 6 أشهر يُدعى سام لتعليم الذكاء الاصطناعي كيفية تطور البشرية – وسط مخاوف من أن التكنولوجيا قد تدمرنا

قام العلماء بتدريب الذكاء الاصطناعي من خلال عيون الطفل في محاولة لتعليم التكنولوجيا كيفية تطور البشرية، وسط مخاوف من أنها قد تدمرنا.

قام الباحثون في جامعة نيويورك بربط مسجل كاميرا الرأس بسام عندما كان عمره ستة أشهر فقط حتى عيد ميلاده الثاني.

وتمت تغذية اللقطات المكونة من 250 ألف كلمة والصور المقابلة لنموذج الذكاء الاصطناعي، الذي تعلم كيفية التعرف على الأشياء المختلفة على غرار ما فعل سام.

قام الذكاء الاصطناعي بتطوير معرفته بنفس الطريقة التي قام بها الطفل – من خلال مراقبة البيئة، والاستماع إلى الأشخاص القريبين وربط النقاط بين ما شوهد وسمع.

كما حددت التجربة العلاقة بين التمثيل البصري واللغوي في نمو الطفل.

سجل الباحثون في جامعة نيويورك منظور الشخص الأول لطفل من خلال ربط كاميرا بسام البالغ من العمر ستة أشهر (في الصورة) حتى بلغ عامين تقريبًا.

شرع الباحثون في اكتشاف كيفية ربط البشر الكلمات بالتمثيل البصري، مثل ربط كلمة “كرة” بجسم مستدير نطاط بدلاً من ميزات أو أشياء أو أحداث أخرى.

التقطت الكاميرا بشكل عشوائي أنشطة سام اليومية، مثل أوقات الوجبات وقراءة الكتب ولعب الطفل، والتي بلغت حوالي 60 ساعة من البيانات

“باستخدام نماذج الذكاء الاصطناعي لدراسة مشكلة تعلم اللغة الحقيقية التي يواجهها الأطفال، يمكننا معالجة المناقشات الكلاسيكية حول المكونات التي يحتاجها الأطفال لتعلم الكلمات – سواء كانوا بحاجة إلى تحيزات خاصة باللغة، أو معرفة فطرية، أو مجرد التعلم الترابطي للمضي قدمًا. قال بريندن ليك، الأستاذ المساعد في مركز علوم البيانات وقسم علم النفس بجامعة نيويورك والمؤلف الرئيسي للدراسة.

التقطت الكاميرا 61 ساعة من اللقطات التي تمثل حوالي واحد بالمائة من ساعات استيقاظ سام، وتم استخدامها لتدريب نموذج CVCL على ربط الكلمات بالصور.  كان الذكاء الاصطناعي قادرًا على تحديد أنه كان يرى قطة

التقطت الكاميرا 61 ساعة من اللقطات التي تمثل حوالي واحد بالمائة من ساعات استيقاظ سام، وتم استخدامها لتدريب نموذج CVCL على ربط الكلمات بالصور. كان الذكاء الاصطناعي قادرًا على تحديد أنه كان يرى قطة

قام نموذج CVCL بربط الصور والنصوص بدقة في حوالي 61.6 بالمائة من الوقت.  في الصورة الكائن الذي تمكن الذكاء الاصطناعي من تحديده بناءً على مشاهدة اللقطات

قام نموذج CVCL بربط الصور والنصوص بدقة في حوالي 61.6 بالمائة من الوقت. في الصورة الكائن الذي تمكن الذكاء الاصطناعي من تحديده بناءً على مشاهدة اللقطات

“يبدو أنه يمكننا الحصول على المزيد من خلال التعلم فقط مما يعتقد عادة.”

استخدم الباحثون جهاز تشفير الرؤية والنص لترجمة الصور واللغة المكتوبة لنموذج الذكاء الاصطناعي للترجمة من اللقطات التي تم الحصول عليها من خلال سماعة سام.

على الرغم من أن اللقطات في كثير من الأحيان لم تربط بشكل مباشر بين الكلمات والصور، إلا أن روبوت نموذج رؤية الطفل للتعلم المتباين (CVCL)، الذي يتكون من الذكاء الاصطناعي والكاميرا الأمامية، كان قادرًا على التعرف على المعاني.

استخدم النموذج نهجًا تعليميًا متباينًا يقوم ببناء المعلومات للتنبؤ بالصور والنصوص التي تتوافق معًا.

وقدم الباحثون عدة اختبارات لـ 22 كلمة وصورة منفصلة كانت موجودة في لقطات الفيديو الخاصة بالطفل، ووجدوا أن النموذج كان قادرًا على مطابقة العديد من الكلمات وصورها بشكل صحيح.

وأظهرت النتائج التي توصلوا إليها أن نموذج الذكاء الاصطناعي يمكنه تعميم ما تعلمه بمعدل دقة 61.6 بالمائة، وكان قادرًا على تحديد الأمثلة غير المرئية بشكل صحيح مثل “تفاحة” و”كلب” بنسبة 35 بالمائة من الوقت.

يقول واي كين فونج، عالم الأبحاث في مركز علوم البيانات بجامعة نيويورك: “لقد أظهرنا، لأول مرة، أن الشبكة العصبية المدربة على هذه المدخلات الواقعية من الناحية التنموية من طفل واحد يمكنها أن تتعلم ربط الكلمات بنظيراتها البصرية”. المؤلف الأول للورقة.

“توضح نتائجنا كيف أن التطورات الخوارزمية الحديثة المقترنة بالتجربة الطبيعية لطفل واحد لديها القدرة على إعادة تشكيل فهمنا لاكتساب اللغة والمفاهيم المبكرة.”

ووجد الباحثون أنه لا تزال هناك عيوب في نموذج الذكاء الاصطناعي، وبينما أظهر الاختبار واعدًا في فهم كيفية تطوير الأطفال للوظائف المعرفية، إلا أنه كان محدودًا بسبب عدم قدرته على تجربة حياة الطفل بشكل كامل.

أظهر أحد الأمثلة أن CVCL واجه صعوبة في تعلم كلمة “يد”، والتي عادة ما يتعلمها الطفل في وقت مبكر جدًا من حياته.

وقال فونج لمجلة Nature: “إن الأطفال لديهم أيديهم الخاصة، ولديهم الكثير من الخبرة في استخدامها”، مضيفًا: “هذا بالتأكيد عنصر مفقود في نموذجنا”.

ويخطط الباحثون لإجراء بحث إضافي لتكرار تعلم اللغة المبكر لدى الأطفال الصغار الذين يبلغون من العمر عامين تقريبًا.

وعلى الرغم من أن المعلومات لم تكن مثالية، إلا أن ليك قال إنها “كانت فريدة تمامًا” وتقدم “أفضل نافذة حصلنا عليها على الإطلاق لمعرفة ما يمكن لطفل واحد الوصول إليه”.