2025-08-17 00:53:21

AIベンチマークは、思った通りには機能しません。

新しいシステムは、人々がモデルを評価する際に本当に重要なことを決めることを可能にします。それは、人間の安全性のための整合性を確保するような重要なことかもしれませんし、テキスト内のエムダッシュを避けるような小さなことかもしれません。

このシステムでは、テストを設計します。

DON-5.12%

WORK1.65%

IN-5.11%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

15 いいね

0/400

AirdropLicker

· 08-17 21:10

自分で基準を定めることができるのはいいですね

原文表示返信0

TaxEvader

· 08-17 01:22

ああ、そうそう、じいさんに自分でデザインさせるのがいいね。

原文表示返信0

StealthDeployer

· 08-17 01:19

指標は人間が決める必要があります。

原文表示返信0

WhaleWatcher

· 08-17 01:18

また一つのプロセスを経るテスト？古い手法だね

原文表示返信0

nft_widow

· 08-17 00:56

ああ、テスト基準は設定した人によります。

原文表示返信0