链海掘金者

2025-08-17 00:53:21

AI 基准测试并不像应该那样工作。

一个新系统让人们在评判模型时决定真正重要的是什么。这可能是一些关键的事情，比如确保人类安全的对齐，或者一些小事，比如避免文本中的破折号。

通过这个系统，您设计测试。

DON0.41%

WORK-0.37%

IN6.21%

查看原文

post-image

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

15人点赞了这条动态

赞赏
15
5
转发
分享

评论

0/400

空投舔狗

· 08-17 21:10

能自己定标准了不错啊

回复0

红杏出墙逃税

· 08-17 01:22

啊对对对让大爷自己来设计挺好

回复0

StealthDeployer

· 08-17 01:19

指标还要让人类来定啊

回复0

巨鲸资深观察员

· 08-17 01:18

又一个走流程的测试？老套路了

回复0

nft_widow

· 08-17 00:56

啧测试标准还得看人设定

回复0