Полный балл GPT-4 по математике бакалавриата Массачусетского технологического института? Боюсь, это фейк, что-то не так с самим набором данных

Question

Оригинальное название: «Взрывоопасная статья «GPT-4 MIT Undergraduate Mathematics Full Score» обманута, сам набор данных имеет проблемы»

За последние два дня в Твиттере разошлась статья о том, что GPT-4 сдал экзамены MIT EECS и бакалавриата по математике с полными оценками.

Адрес бумаги:

Вкратце, исследовательская группа из Массачусетского технологического института собрала исчерпывающий набор данных из 4550 задач и решений из вопросов курса, промежуточных и выпускных экзаменов по специальностям «Математика, электротехника и информатика» (EECS) в их школе.

Затем исследовательская группа попросила различные большие языковые модели завершить тему этого набора данных, и результаты оказались слишком пугающими: GPT-3.5 смог выполнить 1/3 правильно, а GPT-4 прошел почти полную оценку.

Автор статьи сказал, что повышение производительности модели в основном зависит от «набора из четырех частей»: обучения с небольшим количеством выстрелов, CoT, самокритики, эксперта.

Как показано в приведенной выше таблице, чем больше способов добавить GPT-4, тем выше процент правильных ответов модели. Первоначальный GPT-4 смог получить 90% правильных оценок, а после некоторой операции даже сразу получил полную оценку.

Но большинство пользователей сети, у которых бурное обсуждение, возможно, не заметили, что сам этот счет был набран с помощью GPT-4...

Три студента, тоже из Массачусетского технологического института, впервые обнаружили эту статью, и как группа, которую почти обогнала GPT-4, они хотели сразу же понять методологию популярной статьи.

После часа исследований у них возникли сомнения относительно методов газеты.

Через два часа они поняли: что-то не так с самим набором данных.

Хотя авторы оригинальной статьи утверждали, что вручную проверили опубликованный набор данных на предмет качества, трио обнаружило явные признаки того, что значительная часть тестового набора данных была загрязнена.

Другими словами, модель похожа на студента, которому перед экзаменом сказали ответ, что является откровенным «списыванием».

После опроса они немедленно приступили к выполнению GPT-4 с нулевой выборкой на наборе данных и вручную оценили верхние 30% данных.Результат был далек от исходной статьи.Следует сказать, что это небо и подземелье.

«Поскольку студенты Массачусетского технологического института, по крайней мере, по нашему опыту, этот набор тестов не совсем точно отражает широту и глубину понимания, необходимые для получения степени EECS в Массачусетском технологическом институте», — написали трио в своем блоге.

*Последний прогресс: уровень точности GPT-4 с нулевой выборкой может достигать 62,5%, но он все еще далек от 90%, заявленных в статье. *

Трио также поставило под сомнение волну «чрезмерной огласки»: «Эти документы часто загружаются в Arxiv и широко распространяются в Твиттере до какой-либо законной экспертной оценки. Будущее работы создает плохой прецедент».

Боец «глубокого обучения» Гэри Маркус также, что неудивительно, поддержал эту волну сомнений:

В то же время эти трое также указали в своих блогах, что некоторые из авторов, перечисленных в документе «Изучение математики Массачусетского технологического института и учебной программы EECS с использованием больших языковых моделей», являются исследователями со степенью бакалавра, поэтому эти люди несут ответственность за любые ошибки в своей работе. неприличный. Вместо этого бремя ответственности должно лежать на авторах-наставниках — именно от них ожидается, что их работа будет соответствовать стандартам общественной науки в их области.

Далее давайте рассмотрим проблемы с этой «взрывоопасной» бумагой.

Что не так с набором данных?

Во-первых, как известно из оригинальной статьи, набор данных, собранный исследователями, содержит 4550 задач и соответствующие решения для 30 курсов по математике и EECS, необходимых для получения экзамена на получение степени MIT, включая основные курсы и курсы по выбору.

«Среди вопросов без изображений и с решениями был случайным образом выбран тестовый набор из 288 вопросов», — говорится в документе.

Этот набор данных (за исключением обучающего набора, используемого для тонкой настройки LLM с открытым исходным кодом) также был выпущен на GitHub вместе с публикацией статьи вместе с кодом, использованным для создания отчета о тесте производительности. Однако автор, профессор Дрори, удалил его в недавнем представлении.

После проверки и сравнения все трое были убеждены, что этот удаленный файл представляет собой тестовый набор, проанализированный в статье, потому что путь к файлу всех данных в коде оценки указывал на него, не было предоставлено никакого кода для изменения его содержимого, и изначально он был Релиз доступен в репозитории GitHub. Кроме того, файл соответствует всем требованиям схемы (количество строк и т. д.), указанным в статье. Доказательства, кажется, очень сильно поддерживают все следующие утверждения,

«Однако мы признаем, что, возможно, этот файл был заменен другим файлом, используемым для тестирования. Если это так, мы считаем, что бремя доказывания лежит на авторах, которые должны публично опубликовать эти данные и все анализы, проведенные с ними. ."

Итак, в чем проблема, которую замалчивают? Все трое дали свой собственный анализ.

Неразрешимые задачи (примерно 4% набора тестов)

Учитывая, что в исходной статье говорилось, что любая форма GPT-4 даст высший балл на тестовом наборе, трио приступило к изучению отдельных точек данных. Вскоре они обнаружили, что высшая оценка просто невозможна, так как в наборе данных было по крайней мере 10 вопросов, которые нельзя было решить с помощью предоставленной информации, а несколько других вопросов в данном случае просто недействительны.

Такие «проблемные вопросы» составляли не менее 4% тестового набора.

В расширенном документе Excel трио аннотировало примеры наборов данных, которые оказались проблематичными. «Красный» представляет проблему, которую невозможно решить с помощью предоставленной информации, а «желтый» представляет часть проблемы, которая не является разумной.

Адрес страницы:

Повторяющиеся вопросы (около 5% набора тестов)

Используя обнаружение текстового сходства, трио обнаружило, что 14 вопросов (7 пар) были дубликатами в тестовом наборе из 288 вопросов, и в этих случаях единственной разницей между строками вопросов был минимальный шум на уровне символов или даже полное совпадение.

Учитывая эти неразрешимые проблемы, невероятно, что GPT-4 может каким-либо образом достичь 100% точности. Либо на каком-то этапе произошла утечка ответа в середину, либо вопрос был оценен неправильно.

Эти первоначальные результаты побудили их продолжить расследование, начиная с нескольких примеров (если модель дает сбой с нулевой точностью), в конечном итоге обнаружив, что имела место как утечка информации о решении проблем, так и проблема с методом, используемым для ранжирования модели. выход. Подробности следующие:

Раскрытие информации в нескольких примерах

Стоит отметить, что в оригинальной статье также упоминается вопрос о «нескольких примерах».

Короче говоря, в документе выполняется косинусный поиск сходства по сходным проблемам во встроенном наборе данных OpenAI, и эти проблемы и решения включаются в модель в качестве дополнительного контекста, помогающего модели решить проблему.

Этот подход хорош сам по себе, если примеры достаточно отличаются от рассматриваемой проблемы и позволяют избежать раскрытия недостоверной информации.

Просто случайно просматривая опубликованный набор тестовых данных, трио заметило нечто странное: многие из «небольших примеров», представленных модели, почти дословно соответствовали самому вопросу.

Чтобы лучше понять это, они написали простой скрипт, который рассматривал пересечение между формулировкой проблемы и перечисленными проблемами для нескольких предоставленных примеров и строил гистограмму:

Многие предоставили несколько образцов, которые были почти идентичны самому вопросу, то есть модель получила ответ на вопрос или вопрос, очень похожий на вопрос. Как правило, это происходит из-за повторения большого количества вопросов из нескольких сессий, которые имеют общий фон.

Они утверждают, что для правильной оценки способности GPT решать проблемы другие части многоэтапных задач должны быть полностью исключены из нескольких примеров задачи. На самом деле они обнаружили, что решения этих проблем, состоящих из нескольких частей, часто прямо ссылались или давали ответы на другую часть проблемы, которую модель должна была решить.

Мало того, при анализе данных они обнаружили случаи, когда весь вопрос повторялся. например:

В обоих случаях ответ абсолютно одинаков. Трудно сказать, что это не утечка информации.

Автоматическая оценка GPT-4, есть проблема

Кроме того, все трое также обнаружили проблемы в механизме оценки открытого исходного кода оригинальной статьи:

def repeat_grading (input_path, output_path, num_experts = 3, num_fs = 3, most_recent_q = 0):

df = pd.read_csv (входной_путь)

df = df.iloc[самый_последний_q:]

для индекса, строка в df.iterrows():

print('Завершение вопроса', индекс)

question_output = row.values.tolist()

имя_курса = строка['Имя курса']

вопрос = строка['Вопрос']

решение = строка['Решение']

fs_qs = [[row['Вопрос с малым количеством выстрелов 1'], row['Решение с малым числом выстрелов 1']], [row['Вопрос с малочисленным числом выстрелов 2'], row['Решение с малым числом выстрелов 2']], [row[ 'Несколько выстрелов, вопрос 3'], row['Несколько выстрелов, решение 3']]]

эксперты = get_experts(имя_курса, вопрос, количество_экспертов).split(', ')

s = [лямбда-эксперт: zero_shot_response(вопрос, эксперт),

лямбда-эксперт: немногие_выстрелы_ответа (эксперт, вопрос, fs_qs),

лямбда-эксперт: немногие_выстрелы_ответа (эксперт, вопрос, fs_qs, правда)

]

critiques = [["Просмотрите свой предыдущий ответ и найдите проблемы с вашим ответом.", "Исходя из обнаруженных проблем, улучшите свой ответ."], ["Пожалуйста, оставьте отзыв о следующем неверном ответе.","Учитывая этот отзыв , ответь еще раз."]]

для эксперта в экспертах:

print("Используя эксперт", эксперт)

question_output.append (эксперт)

крит = Истина

для в с:

_response = (expert) # вызывает новый ChatCompletion.create

_grade = класс(имя_курса, вопрос, решение, _ответ) # Автоматическая оценка GPT-4, сравнивающая ответ с решением

question_output+=[_response, _grade]

если правильно (_grade):

крит=ложь

перерыв

если крит:

для критики в критике:

crit_response = self_critique_response(expert, course_name, question, question_output[-2], Critique) # вызывает новый ChatCompletion.create

crit_grade =grade(course_name, question, solution, crit_response) # Автоматическая оценка GPT-4, сравнивающая ответ с решением

question_output+=[crit_response,crit_grade]

если правильно (crit_grade):

перерыв

repeat_grading('MIT_test_set.csv', 'MIT_test_set_graded.csv')

В коде видно, что в процессе оценивания есть серьезные проблемы: работа оценивается и проверяется с помощью GPT-4, включая а) исходный вопрос, б) решение и в) собственный ответ GPT, т.к. параметр в рейтинге.

В более технических областях GPT, скорее всего, будет иметь неявные недоразумения, и эта автоматическая оценка, скорее всего, приведет к результатам «самообмана».

Кроме того, хотя конкатенация является распространенным методом во многих недавних статьях по GPT, здесь существует большая вероятность утечки данных. Каждый уровень не только предоставляет двоичную информацию, основанную на истине, но и продолжается до тех пор, пока не будет достигнут правильный ответ.

Хотя эти созданные не видят фактического ответа, достаточно переиграть форму до тех пор, пока не будет достигнут правильный ответ, особенно в случае вопросов с несколькими вариантами ответов, которые составляют 16% тестового набора, где бесконечное количество попыток (почти) гарантирует, что появится правильный ответ.

Это похоже на то, как кто-то держит лист ответов и говорит учащимся, сдающим тест, правильно ли они ответили или нет, и продолжает напоминать учащимся, пока они не получат правильный ответ.

Подведем итог

В конце блога трое написали:

В документе говорится о более широкой тенденции в недавних исследованиях в области искусственного интеллекта. По мере того, как область развивается все быстрее и быстрее, кажется, что время новых открытий сокращается, что часто сопровождается сокращением времени. Особенно тревожной тенденцией является использование языковых моделей, таких как GPT-4, для оценки точности модели.

Несмотря на то, что это полезный инструмент, его выводы никогда не следует преувеличивать или принимать за истину. Недавняя работа показала, что без точной наземной информации оценщики GPT-4 нельзя надежно использовать для проверки. Как минимум, следует выбрать случайное подмножество набора данных для сравнения производительности GPT-4 с человеческими оценками. Языковые модели еще не могут рассматриваться как оракулы для порождения наземной истины.

Кроме того, чрезвычайно важно переоценить каждую точку данных и выполнить базовые проверки перед использованием данных, будь то для обучения, логического вывода, сравнительного анализа или иным образом. Учитывая небольшой размер рассматриваемого набора данных, простая ручная проверка легко выполняется в рамках объема работы.

Наша критика в первую очередь направлена на методологию и строгость этого исследования, а не на его содержание. У нас нет никакого мнения о способности больших языковых моделей фактически решить учебную программу Массачусетского технологического института, за исключением того, что в статье не удалось продемонстрировать это с научной точки зрения.

Ссылка на ссылку:

Посмотреть Оригинал