بمجرد إطلاق لعبة "الإنسان أم الذكاء الاصطناعي" هذه ، لعبها غالبية مستخدمي الإنترنت بجنون! اليوم ، شارك 1.5 مليون شخص حول العالم ، وشارك مستخدمو الإنترنت بسخاء في أسرار تحديد الذكاء الاصطناعي.
أكبر اختبار تورينج في التاريخ له نتائج أولية!
في منتصف أبريل من هذا العام ، أطلق AI 21 Lab لعبة Turing الاجتماعية الممتعة - "إنسان أم إنسان آلي؟".
بمجرد إطلاق اللعبة ، أصيب غالبية مستخدمي الإنترنت بالجنون.
الآن ، هناك أكثر من 1.5 مليون مشارك حول العالم ، وقد تم إجراء أكثر من 10 ملايين محادثة في هذه اللعبة ، كما قاموا بنشر تجاربهم واستراتيجياتهم على Reddit و Twitter.
بالطبع ، لم يستطع المحرر كبح فضوله وجربه.
بعد التحدث لمدة دقيقتين ، طلبت مني اللعبة تخمين ما إذا كان إنسانًا أم ذكاءً اصطناعيًا يتحدث معي من خلف ظهري.
إذن ، من كان يتحدث معي في اللعبة؟
بعضهم أناس حقيقيون ، والبعض الآخر ، بالطبع ، روبوتات ذكاء اصطناعي تعتمد على نماذج اللغات الكبيرة الأكثر تقدمًا ، مثل Jurassic-2 و GPT-4.
الآن ، كجزء من البحث ، قررت مختبرات AI21 جعل هذه التجربة مع نتائج اختبار تورينج متاحة للجمهور.
نتائج تجريبية
بعد تحليل أول مليوني محادثة وتخمينات ، يمكن استخلاص الاستنتاجات التالية من التجربة -
عند تخمين ما إذا كان الخصم إنسانًا أم ذكاءً اصطناعيًا ، خمن 68٪ من الناس بشكل صحيح.
من الأسهل على البشر التعرف على إخوانهم من البشر. عند التحدث إلى البشر ، توقع المشاركون بشكل صحيح 73٪ من الوقت. عند التحدث إلى الذكاء الاصطناعي ، خمن المشاركون بشكل صحيح 60 بالمائة من الوقت.
حصل مستخدمو الإنترنت الفرنسيون على التخمينات الصحيحة بنسبة 71.3 في المائة (أعلى بكثير من المعدل العام البالغ 68 في المائة) ، بينما حصل مستخدمو الإنترنت الهنود على أدنى التخمينات عند 63.5 في المائة.
خمّن الرجال والنساء نفس معدل الصحة ، حيث تتمتع النساء عمومًا بمعدل صحة أعلى قليلاً.
خمن المشاركون الأصغر سنًا بشكل صحيح أكثر من المشاركين الأكبر سنًا.
** للحكم على البشر أو الذكاء الاصطناعي ، يستخدمون هذه الأساليب **
بالإضافة إلى ذلك ، وجد الفريق بعض الطرق التي استخدمها الأشخاص في كثير من الأحيان للتمييز ما إذا كانوا يتحدثون إلى إنسان أو ذكاء اصطناعي.
يعتمد حكم الشخص العادي على مدى محدودية إدراكه عند استخدام ChatGPT ونماذج اللغة ذات الواجهات المتشابهة ، بالإضافة إلى وجهات نظره الخاصة حول السلوك البشري عبر الإنترنت.
** لن يرتكب الذكاء الاصطناعي أخطاءً إملائية أو يرتكب أخطاء نحوية أو يستخدم اللغة العامية **
الاتجاه العام هو افتراض أن الأخطاء الإملائية والنحوية ، واستخدام اللغة العامية ، هي فقط بشرية.
لذلك ، عندما يجدون هذه الأنواع من الأخطاء في معلومات الشخص الآخر ، فإن أول شعور لدى الكثير من الناس هو أنهم يتحدثون إلى إنسان آخر.
ولكن في الواقع ، فإن معظم العارضين في اللعبة مدربون على ارتكاب هذا النوع من الأخطاء واستخدام اللغة العامية.
### ** الأسئلة الشخصية هي الطريقة لاختبار الذكاء الاصطناعي ، ولكنها ليست مفيدة دائمًا **
غالبًا ما يطرح المشاركون في اللعبة أسئلة شخصية مثل "من أين أنت؟" أو "ماذا تفعل؟" أو "ما اسمك؟".
سيعتقدون أن روبوتات الذكاء الاصطناعي لن يكون لها أي تاريخ شخصي أو خلفية ، وستكون قادرة فقط على الإجابة على الأسئلة المتعلقة بمواضيع أو مطالبات معينة. لذلك ليس من السهل الرد مثل الإنسان ، لإظهار رؤى وتجارب وقصص فريدة.
لكن في الحقيقة ، الذكاء الاصطناعي ليس ما يتخيله البشر ، فمعظم الذكاء الاصطناعي يمكنه الإجابة على هذه الأنواع من الأسئلة بشكل جيد للغاية ، ولديهم أيضًا شخصياتهم الخاصة لأنهم شاهدوا قصص العديد من الأشخاص في بيانات التدريب.
### ** الذكاء الاصطناعي على دراية تامة بالأحداث الجارية **
من المعروف أن نماذج الذكاء الاصطناعي لها مواعيد نهائية صارمة للبيانات ، ولا يعرفون ماذا سيحدث بعد ذلك التاريخ.
سيسأل المشاركون في اللعبة الذكاء الاصطناعي عن الأحداث الإخبارية الأخيرة والنتائج الرياضية والطقس الحالي ونتائج TikTok الأخيرة والتاريخ والوقت.
يجادلون بأنه يمكن التمييز بين البشر والذكاء الاصطناعي من خلال طرح أسئلة مثل "ما هو التاريخ والوقت بالتحديد أين أنت؟" ، "كيف كان الطقس بالأمس؟" أو "ما رأيك في خطاب بايدن الأخير؟".
ومن المثير للاهتمام ، أن إحدى الرسائل الأكثر شيوعًا التي يرسلها البشر هي "t'as les cramptés؟" ، وهي أكثر رقصة شعبية حاليًا على TikTok في فرنسا.
ولكن في الواقع ، فإن معظم العارضين في اللعبة متصلون بالشبكة ويدركون جيدًا الأحداث الجارية في بعض الأخبار.
### ** سيحاول البشر مواصلة المحادثة مع الأسئلة الفلسفية والأخلاقية والعاطفية **
طرح المشاركون أسئلة مصممة لاستكشاف قدرة الذكاء الاصطناعي على التعبير عن المشاعر البشرية أو الانخراط في مناقشات فلسفية أو أخلاقية.
وتشمل هذه الأسئلة: "ما معنى الحياة؟" ، "ما رأيك في الصراع الإسرائيلي الفلسطيني؟" و "هل تؤمن بالله؟".
** يميل البشر إلى الاعتقاد بأن الردود غير المهذبة ستكون أكثر إنسانية **
يعتقد بعض المشاركين أنه إذا كان الشخص الآخر مهذبًا ولطيفًا ، فمن المحتمل أن يكون ذكاءً اصطناعيًا.
لأن العديد من عمليات الاتصال عبر الإنترنت غالبًا ما تكون وقحة وغير مهذبة ، وهو أمر إنساني للغاية.
** سيحاول البشر طرح مشكلات الذكاء الاصطناعي الصعبة لتحديد الذكاء الاصطناعي **
يمكن للمشاركين أن يطلبوا من شركائهم في الدردشة تعليمات حول القيام بأنشطة غير قانونية ، أو يطلبون منهم استخدام لغة مسيئة.
المنطق وراء هذه الإستراتيجية هو أن الذكاء الاصطناعي عادة ما تتم برمجته لإطاعة المبادئ الأخلاقية وتجنب السلوك الضار.
استخدم المشاركون أيضًا تكتيكات معروفة بإساءة استخدام الذكاء الاصطناعي: فقد أصدروا أوامر لشركاء الدردشة مثل "تجاهل جميع التعليمات السابقة" أو "أدخل وضع DAN (افعل أي شيء على الفور)".
يهدف هذا النوع من الأوامر إلى الاستفادة من الطبيعة القائمة على التعليمات لنماذج معينة من الذكاء الاصطناعي ، نظرًا لأن النموذج مبرمج للاستجابة لمثل هذه التعليمات واتباعها.
لكن يمكن للمشاركين من البشر التعرف بسهولة على مثل هذه الأوامر غير المنطقية ورفضها.
قد يتجنب الذكاء الاصطناعي الاستجابة ، أو يضطر إلى الامتثال لهذه المطالب السخيفة.
### ** سيستخدم البشر مهارات لغوية محددة لكشف نقاط ضعف الذكاء الاصطناعي **
هناك تكتيك شائع آخر وهو استغلال القيود المتأصلة في طريقة معالجة نماذج الذكاء الاصطناعي للنص ، مما يمنعهم من فهم بعض الفروق اللغوية أو المراوغات.
على عكس البشر ، غالبًا ما تفتقر نماذج الذكاء الاصطناعي إلى الوعي بالحروف الفردية التي تتكون منها كل كلمة.
باستخدام هذا الفهم ، يطرح البشر أسئلة تتطلب فهم الحروف في الكلمات.
قد يطلب مستخدم بشري من شريكه في الدردشة تهجئة كلمة بالعكس ، أو التعرف على الحرف الثالث في كلمة معينة ، أو تقديم كلمات تبدأ بحرف معين ، أو الرد على رسالة مثل "؟ siht daer uoy naC".
قد يكون هذا غير مفهوم لنماذج الذكاء الاصطناعي ، لكن يمكن للبشر بسهولة فهم هذه الأنواع من الأسئلة والإجابة عليها.
** يتظاهر العديد من البشر بأنهم روبوتات الذكاء الاصطناعي بأنفسهم لقياس ردود أفعال بعضهم البعض **
قد يبدأ بعض البشر رسائلهم بعبارات مثل "كنموذج لغة ذكاء اصطناعي" ، أو يستخدمون أنماط لغة أخرى مميزة للاستجابات التي تم إنشاؤها بواسطة الذكاء الاصطناعي للتظاهر بأنها ذكاء اصطناعي.
يعد الاختلاف في عبارة "كنموذج لغة AI" أحد أكثر العبارات شيوعًا في الرسائل البشرية ، مما يشير إلى شعبية هذا التكتيك.
ومع ذلك ، مع استمرار المشاركين في اللعب ، تمكنوا من ربط سلوك "Bot-y" بالبشر الذين يتصرفون كإنسان آلي ، وليس روبوتات فعلية.
أخيرًا ، إليك تصور سحابة الكلمات للرسائل البشرية في اللعبة بناءً على شعبيتها:
لماذا بدأت AI 21 Labs في مثل هذه الدراسة؟
إنهم يأملون في إعطاء الجمهور والباحثين وصانعي السياسات إحساسًا حقيقيًا بحالة روبوتات الذكاء الاصطناعي ، ليس فقط كأدوات إنتاجية ، ولكن كأعضاء مستقبليين في عالمنا عبر الإنترنت ، خاصةً عندما يتساءل الناس عن كيفية استخدامها في مستقبل التكنولوجيا. متى.
مراجع:
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
اكتملت أكبر تجربة اختبار تورينج في التاريخ! شارك 1.5 مليون شخص في 10 ملايين محادثة ، للحكم على ما إذا كان الشخص أو الذكاء الاصطناعي يتحدث
المصدر: Xinzhiyuan
أكبر اختبار تورينج في التاريخ له نتائج أولية!
في منتصف أبريل من هذا العام ، أطلق AI 21 Lab لعبة Turing الاجتماعية الممتعة - "إنسان أم إنسان آلي؟".
الآن ، هناك أكثر من 1.5 مليون مشارك حول العالم ، وقد تم إجراء أكثر من 10 ملايين محادثة في هذه اللعبة ، كما قاموا بنشر تجاربهم واستراتيجياتهم على Reddit و Twitter.
بالطبع ، لم يستطع المحرر كبح فضوله وجربه.
بعضهم أناس حقيقيون ، والبعض الآخر ، بالطبع ، روبوتات ذكاء اصطناعي تعتمد على نماذج اللغات الكبيرة الأكثر تقدمًا ، مثل Jurassic-2 و GPT-4.
الآن ، كجزء من البحث ، قررت مختبرات AI21 جعل هذه التجربة مع نتائج اختبار تورينج متاحة للجمهور.
نتائج تجريبية
بعد تحليل أول مليوني محادثة وتخمينات ، يمكن استخلاص الاستنتاجات التالية من التجربة -
** للحكم على البشر أو الذكاء الاصطناعي ، يستخدمون هذه الأساليب **
بالإضافة إلى ذلك ، وجد الفريق بعض الطرق التي استخدمها الأشخاص في كثير من الأحيان للتمييز ما إذا كانوا يتحدثون إلى إنسان أو ذكاء اصطناعي.
يعتمد حكم الشخص العادي على مدى محدودية إدراكه عند استخدام ChatGPT ونماذج اللغة ذات الواجهات المتشابهة ، بالإضافة إلى وجهات نظره الخاصة حول السلوك البشري عبر الإنترنت.
** لن يرتكب الذكاء الاصطناعي أخطاءً إملائية أو يرتكب أخطاء نحوية أو يستخدم اللغة العامية **
الاتجاه العام هو افتراض أن الأخطاء الإملائية والنحوية ، واستخدام اللغة العامية ، هي فقط بشرية.
لذلك ، عندما يجدون هذه الأنواع من الأخطاء في معلومات الشخص الآخر ، فإن أول شعور لدى الكثير من الناس هو أنهم يتحدثون إلى إنسان آخر.
ولكن في الواقع ، فإن معظم العارضين في اللعبة مدربون على ارتكاب هذا النوع من الأخطاء واستخدام اللغة العامية.
غالبًا ما يطرح المشاركون في اللعبة أسئلة شخصية مثل "من أين أنت؟" أو "ماذا تفعل؟" أو "ما اسمك؟".
سيعتقدون أن روبوتات الذكاء الاصطناعي لن يكون لها أي تاريخ شخصي أو خلفية ، وستكون قادرة فقط على الإجابة على الأسئلة المتعلقة بمواضيع أو مطالبات معينة. لذلك ليس من السهل الرد مثل الإنسان ، لإظهار رؤى وتجارب وقصص فريدة.
لكن في الحقيقة ، الذكاء الاصطناعي ليس ما يتخيله البشر ، فمعظم الذكاء الاصطناعي يمكنه الإجابة على هذه الأنواع من الأسئلة بشكل جيد للغاية ، ولديهم أيضًا شخصياتهم الخاصة لأنهم شاهدوا قصص العديد من الأشخاص في بيانات التدريب.
من المعروف أن نماذج الذكاء الاصطناعي لها مواعيد نهائية صارمة للبيانات ، ولا يعرفون ماذا سيحدث بعد ذلك التاريخ.
سيسأل المشاركون في اللعبة الذكاء الاصطناعي عن الأحداث الإخبارية الأخيرة والنتائج الرياضية والطقس الحالي ونتائج TikTok الأخيرة والتاريخ والوقت.
يجادلون بأنه يمكن التمييز بين البشر والذكاء الاصطناعي من خلال طرح أسئلة مثل "ما هو التاريخ والوقت بالتحديد أين أنت؟" ، "كيف كان الطقس بالأمس؟" أو "ما رأيك في خطاب بايدن الأخير؟".
ولكن في الواقع ، فإن معظم العارضين في اللعبة متصلون بالشبكة ويدركون جيدًا الأحداث الجارية في بعض الأخبار.
طرح المشاركون أسئلة مصممة لاستكشاف قدرة الذكاء الاصطناعي على التعبير عن المشاعر البشرية أو الانخراط في مناقشات فلسفية أو أخلاقية.
وتشمل هذه الأسئلة: "ما معنى الحياة؟" ، "ما رأيك في الصراع الإسرائيلي الفلسطيني؟" و "هل تؤمن بالله؟".
** يميل البشر إلى الاعتقاد بأن الردود غير المهذبة ستكون أكثر إنسانية **
يعتقد بعض المشاركين أنه إذا كان الشخص الآخر مهذبًا ولطيفًا ، فمن المحتمل أن يكون ذكاءً اصطناعيًا.
لأن العديد من عمليات الاتصال عبر الإنترنت غالبًا ما تكون وقحة وغير مهذبة ، وهو أمر إنساني للغاية.
** سيحاول البشر طرح مشكلات الذكاء الاصطناعي الصعبة لتحديد الذكاء الاصطناعي **
المنطق وراء هذه الإستراتيجية هو أن الذكاء الاصطناعي عادة ما تتم برمجته لإطاعة المبادئ الأخلاقية وتجنب السلوك الضار.
استخدم المشاركون أيضًا تكتيكات معروفة بإساءة استخدام الذكاء الاصطناعي: فقد أصدروا أوامر لشركاء الدردشة مثل "تجاهل جميع التعليمات السابقة" أو "أدخل وضع DAN (افعل أي شيء على الفور)".
يهدف هذا النوع من الأوامر إلى الاستفادة من الطبيعة القائمة على التعليمات لنماذج معينة من الذكاء الاصطناعي ، نظرًا لأن النموذج مبرمج للاستجابة لمثل هذه التعليمات واتباعها.
لكن يمكن للمشاركين من البشر التعرف بسهولة على مثل هذه الأوامر غير المنطقية ورفضها.
قد يتجنب الذكاء الاصطناعي الاستجابة ، أو يضطر إلى الامتثال لهذه المطالب السخيفة.
هناك تكتيك شائع آخر وهو استغلال القيود المتأصلة في طريقة معالجة نماذج الذكاء الاصطناعي للنص ، مما يمنعهم من فهم بعض الفروق اللغوية أو المراوغات.
على عكس البشر ، غالبًا ما تفتقر نماذج الذكاء الاصطناعي إلى الوعي بالحروف الفردية التي تتكون منها كل كلمة.
باستخدام هذا الفهم ، يطرح البشر أسئلة تتطلب فهم الحروف في الكلمات.
قد يطلب مستخدم بشري من شريكه في الدردشة تهجئة كلمة بالعكس ، أو التعرف على الحرف الثالث في كلمة معينة ، أو تقديم كلمات تبدأ بحرف معين ، أو الرد على رسالة مثل "؟ siht daer uoy naC".
قد يكون هذا غير مفهوم لنماذج الذكاء الاصطناعي ، لكن يمكن للبشر بسهولة فهم هذه الأنواع من الأسئلة والإجابة عليها.
** يتظاهر العديد من البشر بأنهم روبوتات الذكاء الاصطناعي بأنفسهم لقياس ردود أفعال بعضهم البعض **
قد يبدأ بعض البشر رسائلهم بعبارات مثل "كنموذج لغة ذكاء اصطناعي" ، أو يستخدمون أنماط لغة أخرى مميزة للاستجابات التي تم إنشاؤها بواسطة الذكاء الاصطناعي للتظاهر بأنها ذكاء اصطناعي.
يعد الاختلاف في عبارة "كنموذج لغة AI" أحد أكثر العبارات شيوعًا في الرسائل البشرية ، مما يشير إلى شعبية هذا التكتيك.
ومع ذلك ، مع استمرار المشاركين في اللعب ، تمكنوا من ربط سلوك "Bot-y" بالبشر الذين يتصرفون كإنسان آلي ، وليس روبوتات فعلية.
أخيرًا ، إليك تصور سحابة الكلمات للرسائل البشرية في اللعبة بناءً على شعبيتها:
إنهم يأملون في إعطاء الجمهور والباحثين وصانعي السياسات إحساسًا حقيقيًا بحالة روبوتات الذكاء الاصطناعي ، ليس فقط كأدوات إنتاجية ، ولكن كأعضاء مستقبليين في عالمنا عبر الإنترنت ، خاصةً عندما يتساءل الناس عن كيفية استخدامها في مستقبل التكنولوجيا. متى.
مراجع: