ReAct を読むと、なぜ今の agent が途中で考えて動くのかが見える

要点

要点まとめ

この論文の大事な点は、AI の問題解決を『頭の中だけで考える』か『外へ調べに行く』かの二択にせず、その往復を一つの手順として見せたことだ。
先に仮説を立て、次に外部情報を取りに行き、その結果で次の手を変える。この流れが今の agent の基本形の一つになっている。
だから読む価値は古い手法名の暗記ではなく、いまの tool use や recovery loop の源流を理解できることにある。
つまり ReAct は、賢そうな途中思考を増やす話というより、『考えて、確かめて、考え直す』をどうつなぐかの論文だ。

読解

何が変わったのか

論文は、この往復を `reasoning traces` と `task-specific actions` の交互運転として書いています。`reasoning traces` は途中で何を考え、どこを疑い、次に何を試すかを整理する中間メモです。`task-specific actions` は knowledge base や environment など external sources へ実際に触る具体的な行動です。ここで後年よく出る `chain-of-thought` は『途中の考えの並び』、planner は『次の手を決める部品』くらいに読むとよいです。ReAct の新しさは、それらを単独で強くすることではなく、考えるだけの方法と行動するだけの方法をつないだ点にあります。論文は、この組み合わせのほうが effectiveness、interpretability、trustworthiness を上げやすいと述べています。

日本の文脈

なぜ重要か

日本語圏では agent 議論が vendor 名や framework 名へ流れやすく、『tool を呼べば agent』『考えれば賢い』と雑にまとめられがちです。ReAct を読むと、agent 的価値は見た目ではなく、計画更新、外部情報取得、例外復帰を一つの loop にしている点だと分かります。この視点を持つと、今の function calling、browser use、code agent も読みやすくなります。どこに reasoning を残すのか、どこで action を起こすのか、失敗後に何を観測して立て直すのかを分けて設計できるからです。

技術ポイント

技術的ポイント

ReAct は reasoning traces と task-specific actions を交互に出させる枠組みで、中間思考と外部行動を切り離さない。
reasoning traces の役目は、計画の誘導、進行の追跡、計画更新、例外処理であり、単なる説明文ではない。
actions の役目は、knowledge base や environment など external sources に触って追加情報を得ることだ。
論文は reasoning-only や acting-only の方法より、両方を組み合わせたほうが effectiveness、interpretability、trustworthiness が上がると述べている。
現代の agent 実装でいう tool use、planner、recovery loop の源流として読めるが、論文自体は現在の JSON schema や API 仕様までは扱わない。そこは後年の実装層だ。

用語

英日キーワード

英語	日本語	補足
ReAct	ReAct	reasoning と acting を交互に回す手法名。今の agent の tool use と再計画の源流として読める。
reasoning traces	推論の軌跡	途中で何を考え、次に何を試すかを整理する中間メモ。説明文ではなく再計画の材料になる。
task-specific actions	タスク固有の行動	問題に応じて外部へ起こす具体的な操作。調査、検索、実行のような外部接触を含む。
external sources	外部情報源	知識ベースや実行環境など、モデル外の情報先。頭の中だけで解けない問題で参照先になる。
action plan	行動計画	次に何を試すかの手順。観測結果に応じて更新される前提で設計したほうが強い。
exception handling	例外処理	想定外の結果が出た後の立て直し。agent では失敗後の再観測と再計画まで含めて考える。

試す

試すなら

今の agent 設計を見て、『考える部分』と『外部へ触る部分』が一つの loop になっているかを確認する。
tool call の成否だけでなく、その前後で plan を更新する記録を残せるかを試す。
browser、search、code execution のどれを使う場合でも、失敗後に再計画する観測点を 1 つ決める。

注意

注意点

ReAct は源流論文として強いが、現在の production API の安全設計や権限制御をそのまま教えてくれる文書ではない。現代実装には別の一次情報が要る。
ここでの公開日は学術雑誌の正式出版日ではなく、arXiv submission date と revision date を基準にしている。