Computer use は「画面を触れるか」ではなく、どの実行面に閉じ込めるかで選ぶ
このノートは原文の代替ではありません。読むべきポイントと実装上の意味を整理し、原典への入口を示します。
要点まとめ
- この guide の一番大事な点は、AI が画面を触れると、クリック、入力、送信がそのまま現実の操作になるため、画面上の文字や添付文書をそのまま命令として信用してはいけないと示していることだ。
- 価値は「画面を触れる」こと自体ではなく、その操作をどの別環境に閉じ込め、どこで人が止め、どの作り方を選ぶかを先に決めることにある。
- OpenAI はそのために、computer use を 1 つの魔法機能ではなく、画面を見て進める経路、既存自動化を再利用する経路、短い script を走らせる経路に分けて説明している。
- 読後にやるべきことは、「GUI を触れるか」を試すことより先に、自分の仕事がどの経路向きで、どこまで隔離できるかを書き出すことだ。
読み終えたら次へ
この1本で終わらせず、同じ目的・同じテーマ・近い原典へ進めます。
何が変わったのか
OpenAI はまず、安全な前提として isolated browser または VM を用意し、到達可能な site、account、action を先に決めろと書いています。その上で integration path を 3 つに分けています。`built-in loop` は model が screenshot を見て次の操作を返し、実行後の画面をまた受け取る反復、`custom harness` は既存の Playwright / Selenium / MCP automation をそのまま使う経路、`code-execution harness` は短い script を書いて DOM や条件分岐を扱う経路です。さらに guide は `untrusted input` をかなり広く取り、画面上の警告文、メール本文、PDF、chat の指示、貼り付けられた文書は permission ではないと整理しています。
なぜ重要か
日本語圏では GUI agent の話が「人の代わりに画面を触れる」ことで止まりがちです。しかし本番導入で本当に危ないのは、見えているものを信じてしまうことと、危ない操作をどの実行面に閉じ込めるかを曖昧にすることです。創業者や PM にも有用です。built-in loop は見た目に分かりやすい一方、既存 harness を捨てる必要はないし、DOM 寄りの仕事を無理に screenshot loop へ寄せる必要もありません。どこまでを visual loop に任せるかを決める資料として読めます。
技術的ポイント
- built-in Computer use loop は、task を送り、`computer_call` を受け、`actions[]` を順に実行し、更新 screenshot を `computer_call_output` で返す反復構造だ。
- screenshot や page text は観測データであって permission ではない。guide は screenshots、PDF、emails、chats、tool outputs を `untrusted input` と明記している。
- custom harness 路線では、既存の Playwright / Selenium / MCP automation を normal tool interface として再利用できる。
- code-execution harness は DOM inspection、conditional logic、loop が多い workflow で有利で、短い script 実行と screenshot 返却を混ぜる hybrid 方式も取れる。
英日キーワード
| 英語 | 日本語 | 補足 |
|---|---|---|
| computer use | コンピュータ操作ツール | 画面を見てマウスやキーボード操作を進める tool。 |
| built-in loop | ||
| custom harness | 既存実行ハーネス | Playwright など既存自動化をそのまま使う構成。 |
| code-execution harness | コード実行ハーネス | script 実行中心で UI や条件分岐を扱う runtime。 |
| untrusted input | 未信頼入力 | 画面表示や第三者文書など、命令として信用しない入力。 |
| trust boundary | 信頼境界 | どこから先を未信頼入力として扱うかの境目。ローカル設定や起動時フックも trust 前なら未信頼として扱う。 |
試すなら
- 自分の GUI task を、visual loop 向き、既存 browser harness 向き、code harness 向きに分ける。
- isolated browser か VM を用意し、使ってよい account と site を最小化する。
- on-screen text、PDF、email の指示は permission にならないという rule を agent instruction に入れる。
- 高リスク操作は最後の直前で確認し、確認前にできる観察と準備だけ先に進める。
注意点
- built-in loop が分かりやすくても、既存 DOM automation のほうが堅い仕事は多く、全部を screenshot loop に統一する必要はない。
- isolated browser や VM を用意しても、allowed site や credential scope が広すぎれば被害範囲は狭まらない。
- `Published date` は docs page 上で確認できなかった。
この記事は役に立ちましたか
公益的に続けるため、役に立った点や読みづらかった点だけを短く送れます。メールアドレスは不要です。