GPT-4 toàn điểm thông qua toán học đại học MIT? Tôi sợ nó là giả, có điều gì đó không ổn với chính bộ dữ liệu

Question

Tiêu đề gốc: "Bùng nổ 'GPT-4 MIT Đại học môn Toán toàn điểm' gian lận, bản thân bộ dữ liệu có vấn đề"

Trong hai ngày qua, một bài báo về việc GPT-4 vượt qua kỳ thi đại học môn toán và EECS của MIT với số điểm tuyệt đối đã lan truyền trên Twitter.

Địa chỉ giấy tờ:

Tóm lại, một nhóm nghiên cứu từ MIT đã biên soạn một bộ dữ liệu toàn diện gồm 4.550 vấn đề và giải pháp từ các câu hỏi trong khóa học, kỳ thi giữa kỳ và kỳ thi cuối kỳ cho các chuyên ngành Toán học, Kỹ thuật Điện và Khoa học Máy tính (EECS) tại trường của họ .

Sau đó, nhóm nghiên cứu đã yêu cầu nhiều mô hình ngôn ngữ lớn khác nhau hoàn thành chủ đề của bộ dữ liệu này và kết quả quá đáng sợ: GPT-3.5 làm đúng 1/3, còn GPT-4 thì gần như tuyệt đối.

Tác giả bài báo cho rằng, việc cải thiện hiệu suất của mô hình chủ yếu phụ thuộc vào “bộ tứ”: Few-shot learning, CoT, Self-critique, Expert.

Như bảng trên, càng nhiều cách thêm GPT-4 thì tỷ lệ trả lời đúng của mô hình càng cao. GPT-4 ban đầu có thể đạt được tỷ lệ chính xác là 90%, sau một số hoạt động, nó thậm chí còn đạt được toàn bộ số điểm trực tiếp.

Nhưng hầu hết những cư dân mạng đang thảo luận sôi nổi có thể không chú ý rằng bản thân điểm số này đã được ghi bằng GPT-4...

Ba sinh viên cũng đến từ MIT lần đầu tiên khám phá ra bài báo này, là nhóm gần như bị GPT-4 vượt qua, họ muốn hiểu ngay phương pháp luận của bài báo phổ biến.

Sau một giờ nghiên cứu, họ nghi ngờ về phương pháp của bài báo.

Hai giờ sau, họ nhận ra: có điều gì đó không ổn với chính bộ dữ liệu.

Mặc dù các tác giả của bài báo gốc tuyên bố đã xem xét chất lượng bộ dữ liệu được phát hành theo cách thủ công, nhưng bộ ba đã tìm thấy các dấu hiệu rõ ràng cho thấy một phần đáng kể của bộ dữ liệu thử nghiệm đã bị nhiễm bẩn.

Nói cách khác, người mẫu giống như một học sinh được nghe đáp án trước kỳ thi, đó là sự “gian lận” trắng trợn.

Sau khi đặt câu hỏi, họ ngay lập tức bắt đầu hoàn thành việc chạy GPT-4 mẫu không trên bộ dữ liệu và tự chấm điểm 30% dữ liệu hàng đầu. Kết quả khác xa so với bài báo gốc. Có thể nói rằng đó là một trên trời và dưới lòng đất.

“Là sinh viên đại học MIT, ít nhất là theo kinh nghiệm của chúng tôi, bộ bài kiểm tra này không thể hiện chính xác bề rộng và chiều sâu của sự hiểu biết cần thiết để lấy được bằng EECS tại MIT,” bộ ba viết trong một bài đăng trên blog.

*Tiến độ mới nhất: Tỷ lệ chính xác của GPT-4 lấy mẫu bằng 0 có thể đạt 62,5%, nhưng vẫn còn cách xa mức 90% được công bố trong bài báo. *

Bộ ba cũng đặt câu hỏi về xu hướng "công khai quá mức": "Những bài báo này thường được tải lên Arxiv và chia sẻ rộng rãi trên Twitter trước khi có bất kỳ đánh giá ngang hàng hợp pháp nào. Tương lai của công việc sẽ tạo ra một tiền lệ xấu."

Chiến binh "học sâu" Gary Marcus cũng không ngạc nhiên khi ủng hộ làn sóng nghi ngờ này:

Đồng thời, cả ba cũng chỉ ra trên blog của họ rằng một số tác giả được liệt kê trên bài báo "Khám phá Chương trình giảng dạy toán học và EECS của MIT bằng các mô hình ngôn ngữ lớn" là những nhà nghiên cứu đại học, khiến những người này phải chịu trách nhiệm về bất kỳ sai sót nào trong công việc của họ. không phù hợp. Thay vào đó, trách nhiệm nên thuộc về các tác giả cố vấn—họ là những người được kỳ vọng sẽ đảm bảo rằng tác phẩm của họ tuân thủ các tiêu chuẩn của học bổng công trong lĩnh vực của họ.

Tiếp theo, chúng ta hãy xem xét các vấn đề với loại giấy "nổ" này.

Có gì sai với tập dữ liệu?

Đầu tiên, như đã biết từ bài báo gốc, bộ dữ liệu do các nhà nghiên cứu thu thập chứa 4550 bài toán và lời giải tương ứng cho 30 khóa học toán học và EECS cần thiết để đạt được kỳ thi lấy bằng MIT, bao gồm các khóa học chính và khóa học tự chọn.

"Một bộ bài kiểm tra gồm 288 câu hỏi được chọn ngẫu nhiên trong số các câu hỏi không có hình ảnh và có lời giải," bài báo viết.

Tập dữ liệu này (không bao gồm tập huấn luyện được sử dụng để tinh chỉnh LLM nguồn mở) cũng được phát hành lên GitHub cùng với việc xuất bản bài báo, cùng với mã được sử dụng để tạo bài kiểm tra hiệu suất được báo cáo. Tuy nhiên, tác giả, GS. Drori, đã gỡ bỏ nó trong một bài nộp gần đây.

Sau khi kiểm tra và so sánh, cả ba tin chắc rằng tệp đã xóa này đại diện cho bộ kiểm tra được phân tích trong bài báo, bởi vì đường dẫn tệp của tất cả dữ liệu trong mã đánh giá đều trỏ đến nó, không có mã để sửa đổi nội dung của nó và ban đầu nó là Bản phát hành có sẵn trong kho GitHub. Ngoài ra, tệp đáp ứng tất cả các yêu cầu lược đồ (số dòng, v.v.) được chỉ định trong bài báo. Bằng chứng dường như hỗ trợ rất mạnh mẽ cho tất cả các tuyên bố sau đây,

"Tuy nhiên, chúng tôi thừa nhận rằng có thể tệp này đã được thay thế bằng một tệp khác được sử dụng để thử nghiệm. Nếu trường hợp này xảy ra, chúng tôi tin rằng trách nhiệm chứng minh thuộc về các tác giả công bố công khai dữ liệu này và tất cả các phân tích được thực hiện với nó ."

Vì vậy, vấn đề đang được che đậy là gì? Cả ba đưa ra phân tích của riêng mình.

Các bài toán không giải được (xấp xỉ 4% bộ bài kiểm tra)

Cho rằng bài báo gốc nói rằng bất kỳ dạng GPT-4 nào cũng sẽ tạo ra điểm tuyệt đối trong bộ bài kiểm tra, bộ ba bắt đầu kiểm tra các điểm dữ liệu riêng lẻ. Họ nhanh chóng phát hiện ra rằng đơn giản là không thể đạt được điểm tuyệt đối, vì có ít nhất 10 câu hỏi trong tập dữ liệu không thể giải được bằng thông tin được cung cấp và một số câu hỏi khác đơn giản là không hợp lệ trong trường hợp này.

Những “câu hỏi có vấn đề” như vậy chiếm ít nhất 4% tổng số bài thi.

Trong một tài liệu excel mở rộng, bộ ba đã chú thích các ví dụ về bộ dữ liệu được cho là có vấn đề. "Đỏ" đại diện cho một vấn đề không thể giải quyết được với thông tin được cung cấp và "vàng" đại diện cho một phần của vấn đề không hợp lý.

Địa chỉ trang:

Câu hỏi trùng lặp (khoảng 5% bộ bài kiểm tra)

Bằng cách sử dụng tính năng phát hiện sự tương đồng về văn bản, bộ ba phát hiện ra rằng 14 câu hỏi (7 cặp) trùng lặp trong bộ bài kiểm tra gồm 288 câu hỏi và trong những trường hợp này, sự khác biệt duy nhất giữa các chuỗi câu hỏi là độ nhiễu ở cấp độ ký tự tối thiểu hoặc thậm chí là hoàn toàn giống nhau.

Với những vấn đề nan giải này, thật đáng kinh ngạc khi GPT-4 có thể đạt được độ chính xác 100% bằng mọi cách. Hoặc có câu trả lời bị rò rỉ ở giữa ở một số giai đoạn hoặc câu hỏi không được chấm điểm chính xác.

Những phát hiện ban đầu này đã thúc đẩy họ điều tra thêm bắt đầu với các ví dụ về một vài lần bắn (nếu mô hình không đạt độ chính xác bằng 0 lần bắn), cuối cùng phát hiện ra rằng có cả sự rò rỉ thông tin giải quyết vấn đề và vấn đề với phương pháp được sử dụng để xếp hạng mô hình. đầu ra. Chi tiết như sau:

Công bố thông tin trong một vài ví dụ mẫu

Điều đáng chú ý là bài báo gốc cũng đề cập đến vấn đề "một vài ví dụ mẫu".

Nói tóm lại, bài báo thực hiện tìm kiếm độ tương tự cosine cho các vấn đề tương tự trong bộ dữ liệu nhúng của OpenAI và kết hợp các vấn đề và giải pháp này vào mô hình dưới dạng ngữ cảnh bổ sung để giúp mô hình giải quyết vấn đề.

Cách tiếp cận này tự nó là tốt, miễn là các ví dụ đủ khác biệt với vấn đề đang được đề cập và tránh để lộ thông tin không công bằng.

Chỉ cần quét ngẫu nhiên tập dữ liệu thử nghiệm đã xuất bản, bộ ba nhận thấy một điều kỳ lạ: Nhiều "ví dụ ngắn gọn" được trình bày cho mô hình gần như từng từ cho chính câu hỏi.

Để hiểu rõ hơn về điều này, họ đã viết một kịch bản đơn giản xem xét sự chồng chéo giữa tuyên bố vấn đề và các vấn đề được liệt kê cho một vài ví dụ được cung cấp và vẽ biểu đồ:

Nhiều người đã cung cấp một vài mẫu gần giống với chính câu hỏi, nghĩa là người mẫu đã nhận được câu trả lời cho câu hỏi hoặc một câu hỏi rất giống với câu hỏi. Thông thường, điều này xuất phát từ sự lặp lại của một số lượng lớn các câu hỏi trong nhiều phiên có chung thông tin cơ bản.

Họ lập luận rằng để đánh giá đúng khả năng giải quyết vấn đề của GPT, các phần khác của các vấn đề nhiều giai đoạn nên được loại trừ hoàn toàn khỏi các ví dụ ngắn gọn về một vấn đề. Trên thực tế, họ phát hiện ra rằng các giải pháp cho các vấn đề đa phần này thường trực tiếp đề cập hoặc đưa ra câu trả lời cho một phần khác của vấn đề mà mô hình được yêu cầu giải quyết.

Không chỉ vậy, khi khai thác dữ liệu, họ đã tìm thấy những trường hợp mà toàn bộ câu hỏi được lặp lại. Ví dụ:

Trong cả hai trường hợp, câu trả lời là hoàn toàn giống nhau. Khó có thể nói đó không phải là rò rỉ thông tin.

Tính điểm tự động GPT-4, đã xảy ra sự cố

Ngoài ra, cả ba cũng tìm thấy các vấn đề trong cơ chế chấm điểm mã nguồn mở của bài báo gốc:

def repeat_grading(input_path, output_path, num_experts = 3, num_fs = 3, most_recent_q = 0):

df = pd.read_csv(đường dẫn_đầu vào)

df = df.iloc[most_recent_q:]

đối với chỉ mục, hàng trong df.iterrows():

print('Hoàn thành câu hỏi', chỉ mục)

question_output = row.values.tolist()

tên_khóa học = row['Tên khóa học']

câu hỏi = hàng ['Câu hỏi']

giải pháp = hàng ['Giải pháp']

fs_qs = [[row['Câu hỏi ít lượt bắn 1'], row['Giải pháp ít lượt bắn 1']], [row['Câu hỏi ít lượt bắn 2'], row['Giải pháp ít lượt bắn 2']], [hàng[ 'Câu hỏi vài lần bắn 3'], hàng ['Giải pháp vài lần bắn 3']]]

chuyên gia = get_experts(course_name, question, num_experts).split(', ')

s = [chuyên gia lambda: zero_shot_response(câu hỏi, chuyên gia),

chuyên gia lambda: few_shot_response(chuyên gia, câu hỏi, fs_qs),

chuyên gia lambda: few_shot_response(chuyên gia, câu hỏi, fs_qs, True)

]

critiques = [["Xem lại câu trả lời trước của bạn và tìm ra vấn đề với câu trả lời của bạn.","Dựa trên những vấn đề bạn tìm thấy, hãy cải thiện câu trả lời của bạn."], ["Hãy cung cấp phản hồi về câu trả lời sai sau đây.","Đưa ra phản hồi này , trả lời lại đi."]]

cho chuyên gia trong các chuyên gia:

print("Dùng chuyên gia", chuyên gia)

question_output.append(chuyên gia)

chí mạng = Đúng

cho trong s:

_response = (chuyên gia) # gọi ChatCompletion.create mới

_grade = grade(course_name, question, solution, _response) # GPT-4 tự động chấm điểm so sánh câu trả lời với lời giải

question_output+=[_response, _grade]

nếu đúng (_grade):

crit=Sai

phá vỡ

nếu chí mạng:

để phê bình trong các bài phê bình:

crit_response = self_critique_response(chuyên gia, tên_khóa học, câu hỏi, câu hỏi_đầu ra[-2], lời phê bình) # gọi ChatCompletion.create mới

crit_grade = grade(course_name, question, solution, crit_response) # GPT-4 tự động chấm điểm so sánh câu trả lời với lời giải

question_output+=[crit_response,crit_grade]

nếu đúng (crit_grade):

phá vỡ

repeat_grading('MIT_test_set.csv', 'MIT_test_set_graded.csv')

Trong mã, có thể thấy rằng có những vấn đề nghiêm trọng trong quá trình chấm: bài được đánh giá và kiểm tra bằng GPT-4, bao gồm a) câu hỏi gốc, b) lời giải và c) đáp án của chính GPT, như một tham số trong phân loại.

Trong các lĩnh vực kỹ thuật hơn, GPT có nhiều khả năng có những hiểu lầm ngầm và cách tính điểm tự động này có nhiều khả năng dẫn đến kết quả "tự lừa dối".

Ngoài ra, mặc dù ghép nối là một kỹ thuật phổ biến trong nhiều bài báo GPT gần đây, nhưng có rất nhiều khả năng rò rỉ dữ liệu ở đây. Mỗi cấp độ không chỉ cung cấp thông tin nhị phân dựa trên sự thật cơ bản mà còn tiếp tục cho đến khi đạt được câu trả lời đúng.

Mặc dù những câu hỏi được tạo này không nhìn thấy câu trả lời thực tế, nhưng nó đủ để phát lại biểu mẫu cho đến khi đạt được câu trả lời đúng, đặc biệt là trong trường hợp câu hỏi trắc nghiệm, chiếm 16% trong bộ bài kiểm tra, trong đó có vô số lần thử. (gần như) đảm bảo rằng câu trả lời đúng phải là Sẽ xuất hiện.

Điều này giống như ai đó cầm phiếu trả lời và nói với những học sinh đang làm bài kiểm tra rằng họ đã trả lời đúng hay chưa, và tiếp tục nhắc nhở học sinh cho đến khi họ trả lời đúng.

Tóm tắt

Cuối blog, cả ba viết:

Bài báo nói lên một xu hướng lớn hơn trong nghiên cứu gần đây trong lĩnh vực trí tuệ nhân tạo. Khi lĩnh vực này tiến triển ngày càng nhanh hơn, nhịp thời gian của những khám phá mới dường như rút ngắn lại, điều này thường đi kèm với các phím tắt. Một xu hướng đặc biệt đáng lo ngại là việc sử dụng các mô hình dựa trên ngôn ngữ như GPT-4 để đánh giá độ chính xác của mô hình.

Mặc dù là một công cụ hữu ích nhưng các kết luận của nó không bao giờ được phóng đại, cũng như không được coi chúng là sự thật cơ bản. Công việc gần đây đã chỉ ra rằng nếu không có thông tin cơ sở chính xác, thì không thể sử dụng các trình đánh giá GPT-4 một cách đáng tin cậy để xác minh. Ở mức tối thiểu, nên chọn một tập hợp con ngẫu nhiên của tập dữ liệu để so sánh hiệu suất của GPT-4 với đánh giá của con người. Các mô hình ngôn ngữ chưa thể được coi là lời tiên tri để tạo ra sự thật cơ bản.

Hơn nữa, điều cực kỳ quan trọng là phải đánh giá lại mọi điểm dữ liệu và thực hiện các kiểm tra cơ bản trước khi sử dụng dữ liệu, cho dù là để đào tạo, suy luận, đo điểm chuẩn hay mục đích khác. Với kích thước nhỏ của tập dữ liệu được đề cập, việc xác minh thủ công đơn giản có thể dễ dàng thực hiện trong phạm vi công việc.

Bài phê bình của chúng tôi chủ yếu nhắm vào phương pháp luận và tính chặt chẽ của nghiên cứu này, chứ không phải nội dung của nó. Chúng tôi không có ý kiến gì về khả năng của các mô hình ngôn ngữ lớn trong việc thực sự giải quyết chương trình giảng dạy của MIT, ngoại trừ việc bài báo không thể chứng minh điều này một cách nghiêm túc về mặt khoa học.

Liên kết tham khảo:

Xem bản gốc