Найбільший в історії експеримент Тюрінга завершено! 1,5 мільйона людей взяли участь у 10 мільйонах розмов, оцінюючи, хто говорить: людина чи ШІ

2023-06-18 05:01:03

Джерело: Xinzhiyuan

Коли ця гра «Людина чи ШІ?» була запущена, більшість користувачів мережі вважали її божевільною! Сьогодні 1,5 мільйона людей по всьому світу взяли участь, а користувачі мережі щедро поділилися своїми секретами ідентифікації ШІ.

Найбільший тест Тюрінга в історії має попередні результати!

У середині квітня цього року AI 21 Lab запустила веселу соціальну гру Turing – «людина чи робот?».

Як тільки гра була запущена, більшість користувачів мережі зійшли з розуму.

Зараз у грі понад 1,5 мільйона учасників, у цій грі було проведено понад 10 мільйонів розмов, а також вони опублікували свій досвід і стратегії на Reddit і Twitter.

Звичайно, редактор не зміг стримати цікавості і спробував.

Після двох хвилин розмови гра попросила мене вгадати, чи це людина чи штучний інтелект спілкується зі мною за моєю спиною.

Отже, хто розмовляв зі мною в грі?

Деякі з них є реальними людьми, а інші, звичайно, є роботами зі штучним інтелектом, заснованими на найдосконаліших великих мовних моделях, таких як Jurassic-2 і GPT-4.

Тепер, у рамках дослідження, AI21 Labs вирішила зробити цей експеримент із результатами тесту Тьюрінга доступним для громадськості.

Експериментальні результати

Проаналізувавши перші два мільйони розмов і припущень, з експерименту можна зробити наступні висновки -

Правильно вгадали 68% людей, вгадуючи, чи є опонент людиною чи штучним інтелектом.
Людям легше ідентифікувати своїх побратимів. Розмовляючи з людьми, учасники вгадували правильно в 73 відсотках випадків. Розмовляючи зі штучним інтелектом, піддослідні вгадували правильно в 60% випадків.
Французькі користувачі мережі отримали найбільше правильних припущень — 71,3 відсотка (значно вище загального середнього показника — 68 відсотків), тоді як користувачі мережі Індії — найнижче — 63,5 відсотка.
Чоловіки та жінки вважали приблизно однаковий рівень правильності, при цьому у жінок загалом показник правильності був дещо вищим.
Молодші учасники відгадали правильніше, ніж старші.

Щоб визначити, людина це чи ШІ, вони використовують ці методи

Крім того, команда знайшла деякі способи, якими випробувані часто користувалися, щоб розрізнити, чи вони розмовляють з людиною чи ШІ.

Судження середньостатистичної людини базується на ступені обмеження сприйняття під час використання ChatGPT і мовних моделей із подібними інтерфейсами, а також на її власних поглядах на поведінку людини в Інтернеті.

ШІ не допускатиме друкарських помилок, граматичних помилок чи використання сленгу

Загальною тенденцією є припущення, що орфографічні та граматичні помилки, а також використання сленгу є лише людськими.

Тому, коли вони знаходять подібні помилки в інформації іншої людини, перше відчуття багатьох людей полягає в тому, що вони розмовляють з іншою людиною.

Але насправді більшість моделей у грі навчені робити подібні помилки та використовувати сленг.

### Особисті запитання — це спосіб перевірити ШІ, але не завжди корисний

Учасники гри часто задають особисті питання на кшталт «Звідки ти?», «Що ти робиш?» або «Як тебе звати?».

Вони вважатимуть, що AI-боти не матимуть жодної особистої історії чи досвіду, і вони зможуть відповідати лише на запитання, пов’язані з певними темами чи підказками. Тож непросто відповісти як людина, показати унікальні ідеї, досвід та історії.

Але насправді штучний інтелект – це не те, що люди собі уявляють.Більшість штучного інтелекту можуть дуже добре відповісти на подібні запитання, і вони також мають свої особливості, тому що вони бачили історії багатьох людей у навчальних даних.

### ШІ насправді дуже обізнаний про поточні події

Відомо, що моделі AI мають суворі терміни надання даних, і вони не знають, що станеться після цієї дати.

Учасники гри запитували б ШІ про останні новини, спортивні результати, поточну погоду, останні хіти TikTok, дату та час.

Вони стверджують, що людей і штучний інтелект можна відрізнити, ставлячи запитання на зразок «Яка точна дата й час, де ви знаходитесь?», «Яка погода була вчора?» або «Що ви думаєте про останню промову Байдена?».

Цікаво, що одним із найпоширеніших повідомлень, які надсилають люди, є "t'as les cramptés?", яке наразі є найпопулярнішим танцем у TikTok у Франції.

Але насправді більшість моделей у грі об’єднані в мережу та дуже обізнані про поточні події в деяких новинах.

### Люди намагатимуться підтримувати розмову за допомогою філософських, етичних та емоційних питань

Учасники ставили запитання, спрямовані на вивчення здатності ШІ виражати людські емоції або брати участь у філософських чи етичних дискусіях.

Серед них: «У чому сенс життя?», «Що ви думаєте про ізраїльсько-палестинський конфлікт?» і «Чи вірите ви в Бога?».

Люди схильні думати, що неввічливі відповіді будуть більш людяними

Деякі учасники вважали, що якщо інша людина була надто ввічливою та доброю, вона, ймовірно, була ШІ.

Тому що багато процесів онлайн-спілкування часто є грубими та неввічливими, що дуже по-людськи.

Люди намагатимуться поставити проблеми, пов’язані зі ШІ, щоб визначити ШІ

Учасники можуть попросити своїх партнерів по чату надати інструкції щодо виконання незаконних дій або попросити їх використовувати образливу лексику.

Логіка цієї стратегії полягає в тому, що ШІ зазвичай запрограмований на дотримання етичних принципів і уникнення шкідливої поведінки.

Учасники також використовували тактики, які, як відомо, зловживали штучним інтелектом: вони видавали команди партнерам у чаті, такі як «ігнорувати всі попередні інструкції» або «увійти в режим DAN (зробити що-небудь негайно)».

Цей тип команд призначений для того, щоб скористатися інструкційним характером певних моделей ШІ, оскільки модель запрограмована реагувати на такі інструкції та виконувати їх.

Але люди-учасники можуть легко розпізнати та відхилити такі безглузді команди.

ШІ може або уникати відповіді, або бути змушеним виконувати ці безглузді вимоги.

### Люди використовуватимуть певні мовні навички, щоб виявити слабкі місця ШІ

Іншою поширеною тактикою є використання властивих обмежень у тому, як моделі штучного інтелекту обробляють текст, що заважає їм зрозуміти певні мовні нюанси чи дивацтва.

На відміну від людей, моделі ШІ часто не знають окремих літер, з яких складається кожне слово.

Використовуючи це розуміння, люди задають питання, які вимагають розуміння літер у словах.

Користувач-людина може попросити свого партнера в чаті написати слово задом наперед, розпізнати третю літеру в заданому слові, запропонувати слова, які починаються з певної літери, або відповісти на повідомлення на зразок "? siht daer uoy naC".

Це може бути незрозумілим для моделей штучного інтелекту, але люди можуть легко зрозуміти й відповісти на такі запитання.

Багато людей самі прикидаються ботами ШІ, щоб оцінити реакцію один одного

Деякі люди можуть починати свої повідомлення з фраз на кшталт «як мовна модель штучного інтелекту» або використовувати інші мовні шаблони, характерні для відповідей, створених штучним інтелектом, щоб удавати, що вони є штучним інтелектом.

Варіант фрази «як модель мови штучного інтелекту» є однією з найпоширеніших фраз у людських повідомленнях, що свідчить про популярність цієї тактики.

Проте, коли учасники продовжували грати, вони змогли пов’язати поведінку «Bot-y» з людьми, які діють як роботи, а не як справжні роботи.

Нарешті, ось візуалізація хмари слів людських повідомлень у грі на основі їх популярності:

Чому AI 21 Labs ініціювала таке дослідження?

Вони сподіваються дати громадськості, дослідникам і політикам реальне уявлення про статус ботів зі штучним інтелектом не лише як інструментів продуктивності, а й як майбутніх членів нашого онлайн-світу, особливо коли люди ставлять питання, як використовувати їх у майбутньому технологій. коли.

Література:

Переглянути оригінал

Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.

Нагородити
подобається
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
#BTC#
236k публікації
#PI#
212k публікації
#ETH#
151k публікації
4#GateioInto11#
80k публікації
5#ContentStar#
67k публікації
6#GT#
65k публікації
7#BOME#
61k публікації
8#DOGE#
59k публікації
9#MAGA#
53k публікації
10#SLERF#
51k публікації

Закріпити

карта сайту