agentic coding benchmark の 2点差は、モデル差ではなく RAM の差かもしれない

要点

要点まとめ

Anthropic は、AI coding benchmark の点差が『モデルの賢さ』だけでなく、マシン設定の違いでもかなり動くと示している。
特に危ないのは、必要最低限の資源量と強制終了ラインを同じ値にしてしまう運用だ。一瞬の負荷上振れだけで失敗し、モデルの実力と無関係な落第が混ざる。
余裕メモリのような実行環境のゆとりを少し増やすだけで、まず減るのは偽失敗であって、すぐにモデル能力が上がるわけではない。
leaderboard の小差を能力差と断定する前に、resource methodology と infra noise を疑え、というのがこの原典の実務的な読み方である。

読解

何が変わったのか

この記事が新しいのは、benchmark score の背後にある infrastructure enforcement を前景化したことです。Anthropic は Terminal-Bench 2.0 を GKE 上で回した際、per-task resource spec を floor 兼 hard ceiling として扱う設定では、最大 6% の tasks が model ability と無関係な pod errors で落ちたと報告しています。さらに 1x から 3x headroom までは infra error が大きく減る一方、success score は noise 範囲内だったとし、『resource を足したらモデルが賢くなった』とは読ませない切り分けを示しています。

日本の文脈

なぜ重要か

日本では coding AI の順位表が、そのまま vendor 比較や導入会議に持ち込まれやすいです。この記事は、その読み方にブレーキをかけます。2点差や3点差は、prompt の違いより前に、resource methodology を確認しないと意味が曖昧だと示しているからです。自社 eval を回す側にとっても、resource headroom、kill policy、concurrency、time-of-day latency が雑なら、再現性の低い数字を経営判断に渡すことになります。

技術ポイント

技術的ポイント

Terminal-Bench 2.0 では、most-resourced と least-resourced setup の gap が 6 percentage points だったと Anthropic は述べている。leaderboard 上の小差より大きい。
container runtime の resource enforcement には guaranteed allocation と hard kill threshold が別にある。これを同じ値にすると、一瞬の memory spike でも OOM kill され、model failure に見える偽失敗が増える。
strict 1x から 3x headroom までは infra errors が大きく減るが、success uplift は noise 内だった。ここは benchmark 難易度変更ではなく、主に infrastructure confounder の除去として読むべきだ。
3x を超えると重い dependency install や memory-intensive test suites が通り始め、agent の戦略選好と benchmark outcome の関係そのものが変わる。tight limits は lean strategy を、generous limits は heavyweight strategy を有利にしうる。
Anthropic は SWE-bench でも RAM 増加の effect を観測し、さらに time of day による pass rate fluctuation も anecdotal に示している。resource 以外の system variable も confounder になりうる。

用語

英日キーワード

英語	日本語	補足
infrastructure noise	インフラ由来ノイズ	benchmark score に混ざる runtime 側の揺れ。モデル能力差と誤読しやすい。
resource headroom	リソース余裕幅	transient spike を吸収するための余白。足りないと model failure ではない偽失敗が増える。
OOM kill	メモリ超過強制終了	memory 上限超過で container が殺されること。agentic coding eval では実力差と誤読されやすい。
hard ceiling	強制上限	超えると process や container が止まる resource 上限。guaranteed allocation と別管理にしないと評価が歪みやすい。
infra error rate	インフラエラー率	model 能力とは別に環境都合で失敗する割合。benchmark の小差を読む前に確認すべき。
Terminal-Bench	Terminal-Bench	shell、tests、依存導入を伴う agentic coding eval。モデル単体ではなく system test に近い。

試す

試すなら

社内 eval を使っているなら、CPU / RAM の guaranteed allocation と kill threshold を同じ値にしていないか確認する。
benchmark score を比べる時は、prompt や sample count だけでなく、resource config、enforcement method、time limit、concurrency を記録する。
1 回の score で結論を出さず、複数 time slot や複数 day で回して variance を見る。
vendor 比較で 3 points 未満の差しかないなら、config が一致している証拠なしに capability 優劣を断定しない。

注意

注意点

この記事の数値は Anthropic の実験設定に依存する。あなたの cluster や benchmark で同じ差幅になるとは限らない。
generous resource は偽失敗を減らす一方、行動戦略そのものを変えて benchmark を甘くする可能性もある。headroom を増やせばよい、では終わらない。
public leaderboard を読む時、resource methodology が非公開なら、見えている score 以上に不確実性が大きい前提で扱うべきだ。