一次情報読解 AI原典ノート
RSS 保存
2026-06-21 / OpenAI / OpenAI / Data Governance / OpenAI導入前に読む保持境界 2026-06-21 / Model Context Protocol / MCP / Authorization / MCP社内導入前に読む権限統制 2026-06-21 / Hugging Face / Open-source / Agent Architecture / agent設計前に読む実行責任 2026-06-21 / Anthropic / Claude Code / Settings / Claude Code導入前に読む秘密境界 2026-06-21 / Anthropic / Managed Agents / Configuration / managed agent導入前に読む設定資産化 2026-06-21 / Anthropic / Managed Agents / Outcome Evaluation / managed agent運用前に読む完了判定 2026-06-21 / Model Context Protocol / MCP / Security / remote MCP導入前に読む認可境界 2026-06-21 / Google AI for Developers / Models / Release Channel Policy / 本番運用前に読む model 固定 2026-06-21 / Model Context Protocol / MCP / Debug Workflow / MCP導入前に読む検査手順 2026-06-21 / OpenAI / Tools / Function Calling / 外部処理接続前に読む責務分界 2026-06-21 / Anthropic / Coding Agents / Permissions / repo運用前に読む権限設計 2026-06-21 / Google AI for Developers / Retrieval / Embeddings / 検索基盤導入前に読む意味検索の基礎 2026-06-21 / OpenAI / Retrieval / Managed File Search / 文書検索導入前に読む責務分界 2026-06-21 / Anthropic / Coding Agents / Hooks / repo運用前に読む強制境界 2026-06-21 / OpenAI / Agents / Sandbox Execution / agent実装前に読む実行境界 2026-06-21 / Anthropic / Evals / Infrastructure Noise / 評価導入前に読む infra 交絡 2026-06-21 / OpenAI / State / Conversations / 長期運用前に読む state 設計 2026-06-21 / Model Context Protocol / Specification / Resources / MCP導入前に読む参照面仕様 2026-06-21 / Google AI for Developers / Credentials / Migration / 本番前に読む鍵運用変更 2026-06-21 / OpenAI / Prompting / Migration / 本番前に読む prompt 運用変更 2026-06-21 / OpenAI / Identity / Credentials / 運用前に読む認証境界 2026-06-21 / OpenAI / Safety / Moderation / 本番前に読む制御順序 2026-06-21 / Google AI for Developers / Migration guide / Schema / 移行前に読む破壊的変更 2026-06-21 / OpenAI / Connectivity / MCP / MCP接続前に読む境界設計 2026-06-21 / OpenAI / Responses API / Job Control / 実装前に読む非同期設計 2026-06-21 / Model Context Protocol / Specification / Permission Boundary / MCP導入前に読む境界仕様 2026-06-21 / Google AI for Developers / Managed Agent / Security / 導入前に読む境界設計 2026-06-21 / Anthropic / Security / Engineering / 運用前に読む安全設計 2026-06-21 / OpenAI / Realtime API / Voice / 本日読むべきAPI更新 2026-06-21 / OpenAI / API / Agent / まず読むべき原典 2026-06-21 / Anthropic / Postmortem / 実装に効くニュース 2026-06-21 / Google AI for Developers / Release notes / モデル・API更新 2026-06-21 / Hugging Face / Open-source / Tutorial / 今週試したい開発者ツール 2026-06-21 / Model Context Protocol / Specification / Architecture / 英日AI用語集
managed agent運用前に読む完了判定 Managed Agents / Outcome Evaluation Anthropic 2026-06-20

Define outcomes は「終わったはず」を rubric と grader で検査可能にする

このノートは原文の代替ではありません。読むべきポイントと実装上の意味を整理し、原典への入口を示します。

要点

要点まとめ

  1. このページで重要なのは、AI に『終わった』と言わせるだけでは仕事完了の証明にならないと明示している点だ。
  2. 問題は二つある。AI は足りないまま完成と思いがちで、人間側も担当者ごとに採点基準がぶれやすい。
  3. 公式はそのズレを減らすために、何を満たせば合格かを書いた rubric と、別の判定役である grader による見直しループを用意している。
  4. つまり本体は新しい機能名ではなく、完成条件を会話の外に出し、未達なら機械的に差し戻せるようにする設計だ。
読解

何が変わったのか

原典は `outcome` を、会話を仕事へ引き上げる定義として扱っています。単なる目標文ではなく、何を done とするかまで含めた仕事の枠です。そして rubric はその判定に使う採点表で、optional ではなく required です。さらに grader は main agent と別の context window で成果物を見て、`needs_revision`、`satisfied`、`max_iterations_reached` などの形で結果を返します。完成判定を AI の自己申告や人の気分から切り離す点が本質です。

日本の文脈

なぜ重要か

日本語圏では『agent に依頼すれば勝手に完成する』という期待が残りやすいですが、実務で危ないのは done 条件が曖昧なまま成果物を流すことです。成果物の質は model の賢さより、何を満たせば合格かを外に書けているかでかなり決まります。PM や創業者にとっても、人間レビューをゼロにする話ではなく、毎回ゼロから採点する負荷を下げる構造として読む価値があります。

技術ポイント

技術的ポイント

  1. `user.define_outcome` は outcome 開始イベントであり、description に加えて rubric を渡し、必要なら `max_iterations` を設定する。
  2. rubric は per-criterion scoring を書いた採点表で、inline text でも Files API でも渡せる。required なので『ざっくりやって』運用とは相性が悪い。
  3. grader は main agent とは separate context window を使い、作業中の流れに引きずられず成果物自体を rubric に照らして評価する。
  4. `span.outcome_evaluation_*` events で iteration loop を観測でき、`satisfied`、`needs_revision`、`max_iterations_reached`、`failed`、`interrupted` が次の流れを決める。
  5. session 完了後の deliverables は `/mnt/session/outputs/` に書かれ、Files API で取得する。結果回収と outcome 判定も分離されている。
用語

英日キーワード

英語日本語補足
outcome 完成条件付きの目標 何を done とするかまで含めた仕事の定義。依頼文だけでは曖昧になりがちな完了条件を外出しする。
rubric 採点表 成果物を何で評価するか書いた基準文書。managed agents では required として扱われる。
grader 採点役 rubric に照らして成果物を評価する別系統の判定役。agent 本体の自己申告をそのまま信じないために置く。
iteration loop 反復修正ループ 評価して直し、再評価する周回。完成条件未達を機械的に差し戻す。
needs_revision 要再修正 rubric 未達のためもう一周修正が必要な状態。
satisfied 条件充足 rubric を満たし、完了として受け取れる状態。
試す

試すなら

  1. 1 つの agent 作業を選び、『できたら嬉しいこと』ではなく『満たしていなければ差し戻す条件』を rubric に書き出す。
  2. rubric は 3 から 5 個の判定基準に絞り、各基準が観察可能か確認する。曖昧な美辞麗句では grader が機能しない。
  3. `needs_revision` が返った時に何を直すかを explanation から追えるか確認し、人間レビューの怒号ではなく iteration loop へ戻す。
注意

注意点

  • rubric が悪いと grader も悪くなる。観察不可能な基準や矛盾した条件を書くと `failed` に落ちうる。
  • iteration があるから放置してよいわけではない。`max_iterations_reached` まで行くなら、task 定義か rubric の粒度が悪い可能性を疑うべきだ。
関連原典

関連原典

原典を開く