OBOL 項目分享活動開啓!調研 Obol (OBOL) 項目,在Gate.io動態發布您的看法觀點,瓜分 $100 OBOL!
💰️ 選取10名優質發帖用戶,每人輕鬆贏取 $10 OBOL 獎勵!
項目簡介:
Obol 致力於分布式、去中心化和民主化未來的數字基礎設施——從以太坊開始,並擴展到整個 Web3 平台。作爲 Layer 1 區塊鏈和去中心化基礎設施網路的基礎,Obol Collective 擁有全球最大的去中心化運營商生態系統。目前,全球超過 800 個去中心化運營商運行 Obol 分布式驗證器 (DV),保障主網超過 10 億的資產安全,Obol 正在賦能下一代去中心化系統。
參與方式:
1.調研$OBOL項目,發表你對項目的見解。具體可包含但不限於:
🔹 Obol 是什麼?
🔹 Obol 去中心化驗證器有何優點?
🔹 $OBOL 代幣經濟模型如何運作?
2.帶上$OBOL現貨交易連結:https://www.gate.io/trade/OBOL_USDT
3.推廣$OBOL Launchpool 質押挖礦活動,分享OBOL Launchpool 參與步驟及質押福利,質押$GT、$BTC、$OBOL 免費瓜分2,250,000 $OBOL空投獎勵,年華收益率高達168%:https://www.gate.io/launchpool/OBOL?pid=291
GPT-4 滿分通過MIT本科數學?恐怕是假的,數據集本身有問題
原文標題:《爆火的「GPT-4 MIT本科數學滿分」論文作弊,數據集本身有問題》
這兩天,一篇關於GPT-4 滿分通過麻省理工MIT EECS 和數學本科考試的論文在推特上瘋傳。
簡單概括,一個來自MIT 的研究團隊從自己學校的數學、電氣工程和計算機科學(EECS) 專業的課程問題、期中考試和期末考試中,整理出了一個包含4550 個問題和解決方案的綜合數據集。
然後,研究團隊讓各種大語言模型去完成這個數據集的題目,結果太嚇人:GPT-3.5 能做對1/3,GPT-4 幾乎滿分通過。
就像上表中所示,加持GPT-4 的手法越多,模型的答題正確率就越高。原始的GPT-4 本來就能拿到90% 的正確率得分,一番運作之後,甚至直接拿到滿分。
但大部分討論得很激烈的網友可能沒注意到,這個分數本身就是用GPT-4 打的……
研究了一小時後,他們對該論文的方法產生了懷疑。
兩小時後,他們意識到:數據集本身有問題。
也就是說,模型就像一個學生在考試前被告知了答案,這是赤裸裸的「作弊」。
三人還質疑了「過度宣傳」的風潮:「這些論文通常在任何合法的同行評審之前就被上傳到Arxiv,並在Twitter 上廣泛分享。在這種情況下,可能會傳播不良信息,並為未來的工作樹立一個糟糕的先例。」
「深度學習」鬥士Gary Marcus 也不出意料地聲援了這波質疑:
接下來讓我們看下,這篇「爆火」論文都有哪些問題。
**數據集到底有什麼問題? **
首先,從原論文中得知,研究者收集的數據集包含獲得MIT 學位考試所需的30 門數學和EECS 課程的4550 個問題和相應的解決方案,涵蓋核心課程和選修課程。
這個數據集(不包括用於微調開源LLM 的訓練集)隨著論文的公開也被發佈到GitHub 上,同時發布的還有用於生成報告的測試性能的代碼。然而,作者Drori 教授在最近的一次提交中已經將其刪除。
「但我們要承認,這個文件有可能被換成了一個用於測試的不同文件。如果是這樣的話,我們認為證明的責任在於作者公開發布這個數據和用它做的所有分析。」
那麼,被掩蓋的問題究竟是什麼呢?三人給出了自己的分析。
無法解決的問題(約佔測試集的4%)
鑑於原論文表示,任何形式的GPT-4 都能在測試集上產生一個完美的分數,三人開始檢查個別數據點。他們很快就發現,根本不可能有滿分,因為數據集中至少有10 個問題是無法用所提供的信息解決的,另外幾個問題在這種情況下根本就不是有效的問題。
像這種「有問題的問題」,至少佔據了測試集的4%。
在一個擴展的excel 文檔裡,三人對已經發現有問題的數據集例子進行了註釋。 「紅色」代表用提供的信息無法解決的問題,「黃色」代表一部分不太合理的問題。
頁面地址:
重複的問題(約佔測試集的5%)
使用文本相似性檢測,三人發現有14 個問題(7 對)在288 個問題的測試集中是重複的,在這些情況下,問題串之間的唯一區別是極小的字符級噪音,甚至完全相同。
鑑於這些無法解決的問題,GPT-4 能夠通過任何方式獲得100% 的準確率,也是難以置信。要么是在某個階段出現了答案洩漏到中,要么是問題沒有被正確打分。
這些初步的發現促使他們從少樣本示例開始進一步調查(如果模型在零樣本正確率方面失敗的話),最終發現,既有解題信息的洩露,也有用於對模型輸出進行分級的方法問題。具體情況如下:
少樣本示例中的信息洩露
值得注意的是,原論文中還提到了「少樣本示例」這個事。
簡而言之,論文對OpenAI 嵌入的數據集內的類似問題進行餘弦相似度搜索,並將這些問題和解決方案作為額外的上下文納入模型的,幫助模型解決問題。
這個方法本身是沒問題的,只要這些示例與有關問題有足夠的差異,且避免暴露不公平的信息。
只是隨機掃描已發布的測試數據集時,三人注意到一些奇怪的事情:許多提供給模型的「少樣本示例」與問題本身幾乎一字不差。
為了進一步了解這一點,他們寫了一個簡單的腳本,查看了所提供的幾個示例的問題陳述和所列出的問題之間的重疊情況,並繪出了直方圖:
他們認為,為了正確評估GPT 的解題能力,多環節問題的其他部分應該被完全排除在某一問題的少樣本示例之外。事實上,他們發現這些多環節問題的解決方案,往往直接提到或給出了模型被要求解決的另一部分問題的答案。
不僅如此,在對這些數據的挖掘中,他們還發現了整個問題被重複的樣本。比如:
GPT-4 自動打分,有問題
此外,三人還在原論文開源的打分機制中發現了問題:
def repeat_grading(input_path, output_path, num_experts = 3, num_fs = 3, most_recent_q = 0):
df = pd.read_csv(輸入路徑)
df = df.iloc[most_recent_q:]
對於索引,df.iterrows() 中的行:
print('完成問題', index)
question_output = row.values.tolist()
course_name = row['課程名稱']
問題=行['問題']
解決方案=行['解決方案']
fs_qs = [[row['Few shot question 1'], row['Few shot solution 1']], [row['Few shot question 2'], row['Few shot solution 2']], [row[ 'Few shot question 3'], row['Few shot solution 3']]]
experts = get_experts(course_name, question, num_experts).split(', ')
s = [lambda 專家:zero_shot_response(問題,專家),
lambda 專家:few_shot_response(專家、問題、fs_qs),
lambda 專家:few_shot_response(專家、問題、fs_qs、True)
]
critiques = [["回顧你之前的答案,找出你答案中的問題。", "根據你發現的問題,改進你的答案。"], ["請對以下不正確的答案進行反饋。","鑑於此反饋, 再回答一次。"]]
對於專家中的專家:
print("使用專家", 專家)
question_output.append(專家)
暴擊 = 真
對於在 s:
_response = (expert) # 調用新鮮的 ChatCompletion.create
_grade = grade(course_name, question, solution, _response) # GPT-4 自動評分比較答案和解決方案
question_output+=[_response, _grade]
如果正確(_grade):
暴擊=假
休息
如果暴擊:
對於批評中的批評:
crit_response = self_critique_response(expert, course_name, question, question_output[-2], critique) # 調用新鮮的 ChatCompletion.create
crit_grade = grade(course_name, question, solution, crit_response) # GPT-4 自動評分比較答案和解決方案
question_output+=[crit_response,crit_grade]
如果正確(crit_grade):
休息
repeat_grading('MIT_test_set.csv', 'MIT_test_set_graded.csv')
在代碼中,能看出流程上處理分級存在嚴重的問題:論文是用GPT-4 去評估檢查的,包括a)原始問題,b)解決方案,c)GPT 自己的答案,作為分級中的參數。
在更多的技術領域,GPT 更有可能出現隱性誤解,這種自動評分更有可能出現「自我欺騙」的結果。
此外,雖然級聯是最近許多GPT 論文中常見的技術,但這裡有大量數據洩漏的可能性。每一級不僅提供基於ground truth 的二元信息,而且還在繼續,直到達到正確答案。
儘管這些創建的並沒有看到實際的答案,但重新直到達到正確答案的形式已經足夠了,尤其是在佔測試集16% 的多選題中,無限次的嘗試(幾乎)保證了正確答案一定會出現。
這就好比有人拿著答題紙,告訴正在考試的學生答得對不對,一直提示到學生得到正確答案。
總結
在博客的最後,三位這樣寫道:
參考鏈接: