Повний бал GPT-4 за курс бакалаврату з математики MIT? Я боюся, що це підробка, щось не так із самим набором даних

Question

Оригінальна назва: «Вибухова робота «GPT-4 MIT Undergraduate Mathematics Full Score» обдурена, сам набір даних має проблеми»

За останні два дні стаття про те, як GPT-4 склав іспити бакалавра MIT MIT EECS і математику на повну оцінку, стала вірусною у Twitter.

Адреса паперу:

Коротко підсумовуючи, дослідницька група з Массачусетського технологічного інституту зібрала повний набір даних із 4550 задач і розв’язків із питань курсу, проміжних семестрів та випускних іспитів для спеціальностей математики, електротехніки та комп’ютерних наук (EECS) у своїй школі.

Потім дослідницька група попросила різні великі мовні моделі завершити тему цього набору даних, і результати виявилися надто страшними: GPT-3.5 зміг виконати 1/3 правильно, а GPT-4 склав майже повну оцінку.

Автор статті сказав, що покращення продуктивності моделі в основному залежить від «набору з чотирьох частин»: кілька етапів навчання, CoT, самокритика, експерт.

Як показано в наведеній вище таблиці, чим більше способів додати GPT-4, тим вище частота правильних відповідей моделі. Оригінальний GPT-4 зміг отримати правильну оцінку на 90%. Після деяких операцій він навіть отримав повну оцінку безпосередньо.

Але більшість користувачів мережі, які ведуть бурхливе обговорення, можливо, не помітили, що сам цей бал був оцінений за GPT-4...

Троє студентів Массачусетського технологічного інституту вперше виявили цю статтю. Як група, яку майже обігнав GPT-4, вони хотіли негайно зрозуміти методологію популярної статті.

Після години досліджень у них виникли сумніви щодо методів роботи.

Через дві години вони зрозуміли: щось не так із самим набором даних.

Хоча автори оригінальної статті стверджували, що вручну перевірили опублікований набір даних на якість, тріо виявило явні ознаки того, що значна частина тестового набору даних була забруднена.

Іншими словами, модель схожа на студента, якому сказали відповідь перед іспитом, що є відвертим «списуванням».

Після опитування вони негайно взялися завершити тест GPT-4 із нульовою вибіркою на наборі даних і вручну оцінили 30% найвищих даних. Результат був далеким від оригінального документа. Слід сказати, що це небо і підземелля.

«Як студенти Массачусетського технологічного інституту, принаймні з нашого досвіду, цей набір тестів не точно відображає широту та глибину розуміння, необхідних для отримання ступеня EECS у Массачусетському технологічному інституті», — написало тріо в дописі в блозі.

*Останній прогрес: рівень точності GPT-4 із нульовою вибіркою може сягати 62,5%, але він все ще далекий від 90%, заявлених у статті. *

Трійця також поставила під сумнів хвилю «надлишкової публічності»: «Ці документи часто завантажуються в Arxiv і широко розповсюджуються в Twitter перед будь-яким законним рецензуванням. Майбутнє роботи створює поганий прецедент».

Боєць із «глибоким навчанням» Гарі Маркус також несподівано підтримав цю хвилю сумнівів:

Водночас ці троє також зазначили у своїх блогах, що кілька авторів, перелічених у статті «Дослідження навчальної програми Массачусетського технологічного інституту з математики та EECS з використанням великих мовних моделей», є дослідниками бакалаврату, тому ці люди відповідають за будь-які помилки в своїй роботі. недоречно. Натомість, відповідальність має лежати на авторах-наставниках — саме вони мають переконатися, що їхня робота відповідає стандартам суспільної науки у своїй галузі.

Далі розглянемо проблеми з цим «вибуховим» папером.

Що не так із набором даних?

По-перше, як відомо з оригінальної статті, набір даних, зібраний дослідниками, містить 4550 задач і відповідні рішення для 30 курсів математики та EECS, необхідних для отримання іспиту на ступінь MIT, охоплюючи основні курси та курси за вибором.

«Тестовий набір із 288 запитань був випадковим чином відібраний серед питань без зображень і з розв’язками», — йдеться в газеті.

Цей набір даних (за винятком навчального набору, який використовувався для тонкого налаштування LLM з відкритим кодом) також був опублікований на GitHub разом із публікацією статті разом із кодом, який використовувався для створення звітного тесту продуктивності. Однак автор, професор Дрорі, видалив його в нещодавньому поданні.

Після перевірки та порівняння троє переконалися, що цей видалений файл представляє тестовий набір, проаналізований у статті, оскільки шлях до файлу всіх даних у коді оцінки вказує на нього, код для зміни його вмісту не надається, і це було спочатку Реліз доступний у репозиторії GitHub. Крім того, файл відповідає всім вимогам схеми (кількість рядків тощо), зазначеним у статті. Докази, здається, дуже сильно підтверджують усі наступні твердження,

«Однак ми визнаємо, що можливо, що цей файл був замінений іншим файлом, який використовувався для тестування. Якщо це так, ми вважаємо, що тягар доведення лежить на авторах публічного оприлюднення цих даних і всіх проведених з ними аналізів. ."

Отже, яка проблема замовчується? Ці троє дали власний аналіз.

Нерозв’язні проблеми (приблизно 4% тестового набору)

З огляду на те, що в оригінальному документі говорилося, що будь-яка форма GPT-4 дасть ідеальний результат у тестовому наборі, тріо вирішило дослідити окремі точки даних. Невдовзі вони виявили, що ідеальний бал просто неможливий, оскільки в наборі даних було принаймні 10 запитань, які не можна було вирішити за допомогою наданої інформації, а кілька інших у цьому випадку були просто недійсними запитаннями.

Такі «проблемні питання» склали не менше 4% тестового набору.

У розширеному документі Excel тріо анотували приклади наборів даних, які виявилися проблемними. «Червоний» означає проблему, яку неможливо вирішити за допомогою наданої інформації, а «жовтий» означає частину проблеми, яка не є розумною.

Адреса сторінки:

Дублікати запитань (близько 5% тестового набору)

Використовуючи визначення текстової подібності, тріо виявило, що 14 запитань (7 пар) були дублікатами в тестовому наборі з 288 запитань, і в цих випадках єдиною різницею між рядками запитань був мінімальний рівень символів або навіть повний рівень шуму.

Враховуючи ці нерозв’язні проблеми, неймовірно, що GPT-4 міг би будь-яким способом досягти 100% точності. Або на якомусь етапі стався витік відповіді в середину, або запитання було неправильно оцінено.

Ці початкові знахідки спонукали їх до подальшого дослідження, починаючи з небагатьох прикладів (якщо модель не досягає нульової точності), зрештою виявивши, що стався як витік інформації для вирішення проблеми, так і проблема з методом, використаним для ранжирування моделі. вихід. Деталі такі:

Розкриття інформації в кількох прикладах

Варто зазначити, що в оригінальному документі також згадувалося про «кілька зразкових прикладів».

Коротше кажучи, у документі виконується пошук косинусної подібності для подібних проблем у вбудованому наборі даних OpenAI і включає ці проблеми та рішення в модель як додатковий контекст, щоб допомогти моделі вирішити проблему.

Цей підхід сам по собі непоганий, якщо приклади достатньо відрізняються від розглянутої проблеми та уникають викриття недостовірної інформації.

Просто випадковим чином скануючи опублікований набір тестових даних, тріо помітило щось дивне: багато «кількох прикладів», представлених моделі, майже дослівно означали саме запитання.

Щоб краще зрозуміти це, вони написали простий сценарій, який дивився на збіги між формулюванням проблеми та переліченими проблемами для кількох наданих прикладів і побудував гістограму:

Багато надали кілька зразків, які були майже ідентичними самому питанню, тобто модель отримала відповідь на запитання або питання, дуже схоже на запитання. Як правило, це пов’язано з повторенням великої кількості запитань, що стосуються кількох сеансів і мають спільний фон.

Вони стверджують, що для того, щоб належним чином оцінити здатність GPT вирішувати проблеми, інші частини багатоетапних задач повинні бути повністю виключені з кількох прикладів проблеми. Насправді вони виявили, що розв’язки цих багатокомпонентних задач часто безпосередньо посилаються на іншу частину проблеми, яку просили вирішити модель, або дають відповіді на неї.

Мало того, під час аналізу даних вони виявили випадки, коли запитання повторювалося повністю. наприклад:

В обох випадках відповідь однакова. Важко сказати, що це не витік інформації.

Автоматична оцінка GPT-4, виникла проблема

Крім того, троє також виявили проблеми в механізмі оцінки з відкритим вихідним кодом оригінальної статті:

def repeat_grading(вхідний_шлях, вихідний_шлях, num_experts = 3, num_fs = 3, most_recent_q = 0):

df = pd.read_csv(вхідний_шлях)

df = df.iloc[найновіший_q:]

для індексу, рядок у df.iterows():

print('Завершення питання', індекс)

question_output = row.values.tolist()

course_name = row['Course Name']

question = row['Question']

рішення = рядок ['Рішення']

fs_qs = [[row['Питання 1'], row['Рішення 1']], [row['Питання 2'], row['Рішення 2']], [row[ 'Питання кілька разів 3'], рядок['Рішення кілька разів 3']]]

експерти = get_experts(назва_курсу, запитання, кількість_експертів).split(', ')

s = [лямбда експерт: zero_shot_response(питання, експерт),

лямбда експерт: few_shot_response(експерт, питання, fs_qs),

lambda expert: few_shot_response(expert, question, fs_qs, True)

]

critiques = [["Перегляньте свою попередню відповідь і знайдіть проблеми з вашою відповіддю.", "На підставі знайдених вами проблем покращте свою відповідь."], ["Будь ласка, надішліть відгук щодо наступної неправильної відповіді.","Враховуючи цей відгук , відповідай ще раз."]]

для експерта в експертах:

print("Використання експерта", експерт)

question_output.append(експерт)

crit = Правда

для в s:

_response = (експерт) # викликає свіжий ChatCompletion.create

_grade = grade(назва_курсу, питання, рішення, _відповідь) # GPT-4 автоматичне оцінювання порівняння відповіді з рішенням

question_output+=[_response, _grade]

якщо правильно (_grade):

crit=Хибно

перерва

якщо крит:

для критики в критиках:

crit_response = self_critique_response(expert, course_name, question, question_output[-2], critique) # викликає свіжий ChatCompletion.create

crit_grade = grade(назва_курсу, питання, рішення, crit_response) # GPT-4 автоматичне оцінювання порівняння відповіді з рішенням

question_output+=[crit_response,crit_grade]

якщо правильно (crit_grade):

перерва

repeat_grading('MIT_test_set.csv', 'MIT_test_set_graded.csv')

У коді видно, що в процесі оцінювання є серйозні проблеми: робота оцінюється та перевіряється за допомогою GPT-4, включаючи а) оригінальне запитання, б) рішення та в) власну відповідь GPT, як параметр у оцінці .

У більш технічних галузях GPT, швидше за все, призведе до прихованих непорозумінь, і це автоматичне підрахунок балів, швидше за все, призведе до результатів «самообману».

Крім того, хоча конкатенація є загальноприйнятою технікою в багатьох останніх документах GPT, тут існує великий потенціал для витоку даних. Кожен рівень не лише надає двійкову інформацію на основі базової істини, але й продовжується, доки не буде досягнуто правильну відповідь.

Хоча вони не бачать справжньої відповіді, достатньо відтворити форму, доки не буде знайдено правильну відповідь, особливо у випадку запитань з кількома варіантами відповіді, які складають 16% тестового набору, де нескінченна кількість спроб (майже) гарантує, що з’явиться правильна відповідь.

Це схоже на те, що хтось тримає бланк відповідей і повідомляє учням, які складають тест, чи правильно вони дали відповідь чи ні, і продовжує нагадувати учням, доки вони не отримають правильну відповідь.

Підсумуйте

Наприкінці блогу троє написали:

Стаття говорить про більшу тенденцію в останніх дослідженнях у галузі штучного інтелекту. У міру того, як галузь розвивається все швидше і швидше, каденція нових відкриттів скорочується, що часто супроводжується скороченнями. Особливо тривожною тенденцією є використання мовних моделей, таких як GPT-4, для оцінки точності моделі.

Незважаючи на те, що це корисний інструмент, його висновки ніколи не можна перебільшувати, а також не слід сприймати їх як основну істину. Остання робота показала, що без точної наземної правдивої інформації оцінювачі GPT-4 не можна надійно використовувати для перевірки. Для порівняння ефективності GPT-4 з оцінками людини слід вибрати як мінімум випадкову підмножину набору даних. Мовні моделі ще не можна розглядати як оракули для генерування основної істини.

Крім того, надзвичайно важливо переоцінити кожну точку даних і виконати основні перевірки перед використанням даних, чи то для навчання, висновків, порівняльного аналізу чи іншого. З огляду на невеликий розмір набору даних, про який йде мова, проста ручна перевірка легко виконується в рамках роботи.

Наша критика в першу чергу спрямована на методологію та строгість цього дослідження, а не на його зміст. Ми не маємо жодної думки щодо здатності великих мовних моделей фактично розв’язувати навчальний план Массачусетського технологічного інституту, за винятком того, що в документі не вдається продемонструвати це в науково точний спосіб.

Довідкове посилання:

Переглянути оригінал