OBOL 项目分享活动开启!调研 Obol (OBOL) 项目,在Gate.io动态发布您的看法观点,瓜分 $100 OBOL!
💰️ 选取10名优质发帖用户,每人轻松赢取 $10 OBOL 奖励!
项目简介:
Obol 致力于分布式、去中心化和民主化未来的数字基础设施——从以太坊开始,并扩展到整个 Web3 平台。作为 Layer 1 区块链和去中心化基础设施网络的基础,Obol Collective 拥有全球最大的去中心化运营商生态系统。目前,全球超过 800 个去中心化运营商运行 Obol 分布式验证器 (DV),保障主网超过 10 亿的资产安全,Obol 正在赋能下一代去中心化系统。
参与方式:
1.调研$OBOL项目,发表你对项目的见解。具体可包含但不限于:
🔹 Obol 是什么?
🔹 Obol 去中心化验证器有何优点?
🔹 $OBOL 代币经济模型如何运作?
2.带上$OBOL现货交易链接:https://www.gate.io/trade/OBOL_USDT
3.推广$OBOL Launchpool 质押挖矿活动,分享OBOL Launchpool 参与步骤及质押福利,质押$GT、$BTC、$OBOL 免费瓜分2,250,000 $OBOL空投奖励,年华收益率高达168%:https://www.gate.io/launchpool/OBOL?pid=291
GPT-4 满分通过 MIT本科数学?恐怕是假的,数据集本身有问题
原文标题:《爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题》
这两天,一篇关于 GPT-4 满分通过麻省理工 MIT EECS 和数学本科考试的论文在推特上疯传。
简单概括,一个来自 MIT 的研究团队从自己学校的数学、电气工程和计算机科学 (EECS) 专业的课程问题、期中考试和期末考试中,整理出了一个包含 4550 个问题和解决方案的综合数据集。
然后,研究团队让各种大语言模型去完成这个数据集的题目,结果太吓人:GPT-3.5 能做对 1/3,GPT-4 几乎满分通过。
就像上表中所示,加持 GPT-4 的手法越多,模型的答题正确率就越高。原始的 GPT-4 本来就能拿到 90% 的正确率得分,一番运作之后,甚至直接拿到满分。
但大部分讨论得很激烈的网友可能没注意到,这个分数本身就是用 GPT-4 打的……
研究了一小时后,他们对该论文的方法产生了怀疑。
两小时后,他们意识到:数据集本身有问题。
也就是说,模型就像一个学生在考试前被告知了答案,这是赤裸裸的「作弊」。
三人还质疑了「过度宣传」的风潮:「这些论文通常在任何合法的同行评审之前就被上传到 Arxiv,并在 Twitter 上广泛分享。在这种情况下,可能会传播不良信息,并为未来的工作树立一个糟糕的先例。」
「深度学习」斗士 Gary Marcus 也不出意料地声援了这波质疑:
接下来让我们看下,这篇「爆火」论文都有哪些问题。
数据集到底有什么问题?
首先,从原论文中得知,研究者收集的数据集包含获得 MIT 学位考试所需的 30 门数学和 EECS 课程的 4550 个问题和相应的解决方案,涵盖核心课程和选修课程。
这个数据集(不包括用于微调开源 LLM 的训练集)随着论文的公开也被发布到 GitHub 上,同时发布的还有用于生成报告的测试性能的代码。然而,作者 Drori 教授在最近的一次提交中已经将其删除。
「但我们要承认,这个文件有可能被换成了一个用于测试的不同文件。如果是这样的话,我们认为证明的责任在于作者公开发布这个数据和用它做的所有分析。」
那么,被掩盖的问题究竟是什么呢?三人给出了自己的分析。
无法解决的问题(约占测试集的 4%)
鉴于原论文表示,任何形式的 GPT-4 都能在测试集上产生一个完美的分数,三人开始检查个别数据点。他们很快就发现,根本不可能有满分,因为数据集中至少有 10 个问题是无法用所提供的信息解决的,另外几个问题在这种情况下根本就不是有效的问题。
像这种「有问题的问题」,至少占据了测试集的 4%。
在一个扩展的 excel 文档里,三人对已经发现有问题的数据集例子进行了注释。「红色」代表用提供的信息无法解决的问题,「黄色」代表一部分不太合理的问题。
页面地址:
重复的问题(约占测试集的 5%)
使用文本相似性检测,三人发现有 14 个问题(7 对)在 288 个问题的测试集中是重复的,在这些情况下,问题串之间的唯一区别是极小的字符级噪音,甚至完全相同。
鉴于这些无法解决的问题,GPT-4 能够通过任何方式获得 100% 的准确率,也是难以置信。要么是在某个阶段出现了答案泄漏到 中,要么是问题没有被正确打分。
这些初步的发现促使他们从少样本示例开始进一步调查(如果模型在零样本正确率方面失败的话),最终发现,既有解题信息的泄露,也有用于对模型输出进行分级的方法问题。具体情况如下:
少样本示例中的信息泄露
值得注意的是,原论文中还提到了「少样本示例」这个事。
简而言之,论文对 OpenAI 嵌入的数据集内的类似问题进行余弦相似度搜索,并将这些问题和解决方案作为额外的上下文纳入模型的 ,帮助模型解决问题。
这个方法本身是没问题的,只要这些示例与有关问题有足够的差异,且避免暴露不公平的信息。
只是随机扫描已发布的测试数据集时,三人注意到一些奇怪的事情:许多提供给模型的「少样本示例」与问题本身几乎一字不差。
为了进一步了解这一点,他们写了一个简单的脚本,查看了所提供的几个示例的问题陈述和所列出的问题之间的重叠情况,并绘出了直方图:
他们认为,为了正确评估 GPT 的解题能力,多环节问题的其他部分应该被完全排除在某一问题的少样本示例之外。事实上,他们发现这些多环节问题的解决方案,往往直接提到或给出了模型被要求解决的另一部分问题的答案。
不仅如此,在对这些数据的挖掘中,他们还发现了整个问题被重复的样本。比如:
GPT-4 自动打分,有问题
此外,三人还在原论文开源的打分机制中发现了问题:
def repeat_grading(input_path, output_path, num_experts = 3, num_fs = 3, most_recent_q = 0):
repeat_grading('MIT_test_set.csv', 'MIT_test_set_graded.csv')
在代码中,能看出流程上处理分级存在严重的问题:论文是用 GPT-4 去评估检查的,包括 a)原始问题,b)解决方案,c)GPT 自己的答案,作为分级 中的参数。
在更多的技术领域,GPT 更有可能出现隐性误解,这种自动评分更有可能出现「自我欺骗」的结果。
此外,虽然 级联是最近许多 GPT 论文中常见的技术,但这里有大量数据泄漏的可能性。每一级不仅提供基于 ground truth 的二元信息,而且还在继续 ,直到达到正确答案。
尽管这些创建的 并没有看到实际的答案,但重新 直到达到正确答案的形式已经足够了,尤其是在占测试集 16% 的多选题中,无限次的尝试(几乎)保证了正确答案一定会出现。
这就好比有人拿着答题纸,告诉正在考试的学生答得对不对,一直提示到学生得到正确答案。
总结
在博客的最后,三位这样写道:
参考链接: