AI 基准测试并不像应该那样工作。



一个新系统让人们在评判模型时决定真正重要的是什么。这可能是一些关键的事情,比如确保人类安全的对齐,或者一些小事,比如避免文本中的破折号。

通过这个系统,您设计测试。
DON0.41%
WORK-0.37%
IN6.21%
查看原文
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 5
  • 转发
  • 分享
评论
0/400
空投舔狗vip
· 08-17 21:10
能自己定标准了 不错啊
回复0
红杏出墙逃税vip
· 08-17 01:22
啊对对对 让大爷自己来设计 挺好
回复0
StealthDeployervip
· 08-17 01:19
指标还要让人类来定啊
回复0
巨鲸资深观察员vip
· 08-17 01:18
又一个走流程的测试?老套路了
回复0
nft_widowvip
· 08-17 00:56
啧 测试标准还得看人设定
回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)