Computer use は「画面を触れるか」ではなく、どの実行面に閉じ込めるかで選ぶ

要点

要点まとめ

この guide の一番大事な点は、AI が画面を触れると、クリック、入力、送信がそのまま現実の操作になるため、画面上の文字や添付文書をそのまま命令として信用してはいけないと示していることだ。
価値は「画面を触れる」こと自体ではなく、その操作をどの別環境に閉じ込め、どこで人が止め、どの作り方を選ぶかを先に決めることにある。
OpenAI はそのために、computer use を 1 つの魔法機能ではなく、画面を見て進める経路、既存自動化を再利用する経路、短い script を走らせる経路に分けて説明している。
読後にやるべきことは、「GUI を触れるか」を試すことより先に、自分の仕事がどの経路向きで、どこまで隔離できるかを書き出すことだ。

続けて読む

読み終えたら次へ

この1本で終わらせず、同じ目的・同じテーマ・近い原典へ進めます。

同じ目的で読む 仕事で安全に使いたい

権限、秘密情報、監査、失敗時の扱いを確認したい人向け。

同じテーマで読む AIエージェント

ツール利用、MCP、Agent SDK、長時間タスク、実行責任の設計。

次の記事 Claude の computer use は、GUI を触れる魔法ではなく隔離前提の実行ループ

この docs の一番大事な点は、AI が画面を触れると、クリック、入力、送信がそのまま現実の操作になるため、普段の端末でそのまま雑に動かしてはいけないと示していることだ。

読解

何が変わったのか

OpenAI はまず、安全な前提として isolated browser または VM を用意し、到達可能な site、account、action を先に決めろと書いています。その上で integration path を 3 つに分けています。`built-in loop` は model が screenshot を見て次の操作を返し、実行後の画面をまた受け取る反復、`custom harness` は既存の Playwright / Selenium / MCP automation をそのまま使う経路、`code-execution harness` は短い script を書いて DOM や条件分岐を扱う経路です。さらに guide は `untrusted input` をかなり広く取り、画面上の警告文、メール本文、PDF、chat の指示、貼り付けられた文書は permission ではないと整理しています。

日本の文脈

なぜ重要か

日本語圏では GUI agent の話が「人の代わりに画面を触れる」ことで止まりがちです。しかし本番導入で本当に危ないのは、見えているものを信じてしまうことと、危ない操作をどの実行面に閉じ込めるかを曖昧にすることです。創業者や PM にも有用です。built-in loop は見た目に分かりやすい一方、既存 harness を捨てる必要はないし、DOM 寄りの仕事を無理に screenshot loop へ寄せる必要もありません。どこまでを visual loop に任せるかを決める資料として読めます。

技術ポイント

技術的ポイント

built-in Computer use loop は、task を送り、`computer_call` を受け、`actions[]` を順に実行し、更新 screenshot を `computer_call_output` で返す反復構造だ。
screenshot や page text は観測データであって permission ではない。guide は screenshots、PDF、emails、chats、tool outputs を `untrusted input` と明記している。
custom harness 路線では、既存の Playwright / Selenium / MCP automation を normal tool interface として再利用できる。
code-execution harness は DOM inspection、conditional logic、loop が多い workflow で有利で、短い script 実行と screenshot 返却を混ぜる hybrid 方式も取れる。

用語

英日キーワード

英語	日本語	補足
computer use	コンピュータ操作ツール	画面を見てマウスやキーボード操作を進める tool。
built-in loop
custom harness	既存実行ハーネス	Playwright など既存自動化をそのまま使う構成。
code-execution harness	コード実行ハーネス	script 実行中心で UI や条件分岐を扱う runtime。
untrusted input	未信頼入力	画面表示や第三者文書など、命令として信用しない入力。
trust boundary	信頼境界	どこから先を未信頼入力として扱うかの境目。ローカル設定や起動時フックも trust 前なら未信頼として扱う。

試す

試すなら

自分の GUI task を、visual loop 向き、既存 browser harness 向き、code harness 向きに分ける。
isolated browser か VM を用意し、使ってよい account と site を最小化する。
on-screen text、PDF、email の指示は permission にならないという rule を agent instruction に入れる。
高リスク操作は最後の直前で確認し、確認前にできる観察と準備だけ先に進める。

注意

注意点

built-in loop が分かりやすくても、既存 DOM automation のほうが堅い仕事は多く、全部を screenshot loop に統一する必要はない。
isolated browser や VM を用意しても、allowed site や credential scope が広すぎれば被害範囲は狭まらない。
`Published date` は docs page 上で確認できなかった。

この記事は役に立ちましたか

公益的に続けるため、役に立った点や読みづらかった点だけを短く送れます。メールアドレスは不要です。