2025年AIエージェント最前線｜OpenAI・Anthropic・DeepMind最新研究の技術的考察

「AIエージェント」という言葉が、2024年のバズワードから2025年には実用技術へと変貌を遂げた。

正直に言えば、1年前まで私もエージェントには懐疑的だった。プロンプトを工夫すれば何とかなる程度の話だろう、と。しかし今年に入って各社から発表された研究成果を追いかけるうちに、その認識を改めざるを得なくなった。

本稿では、OpenAI、Anthropic、Google DeepMindの2025年における主要な研究成果を技術的な観点から整理する。単なるニュースの羅列ではなく、各技術の設計思想や実装上の課題にまで踏み込んで解説していきたい。

1. Computer-Using Agent（CUA）の衝撃

OpenAI Operator/CUAのアーキテクチャ

2025年1月、OpenAIが発表したOperatorは、AIエージェント研究における重要なマイルストーンとなった。その中核を担うComputer-Using Agent（CUA）は、GPT-4oのビジョン能力と強化学習による高度な推論を組み合わせたモデルだ。

CUAの動作原理は、一見シンプルに見える：

Perception（知覚）：スクリーンショットをコンテキストに追加
Reasoning（推論）：Chain-of-Thoughtで次のアクションを決定
Action（行動）：クリック、スクロール、タイピングを実行

しかし、このシンプルさの裏には膨大な技術的挑戦がある。従来のRPA（Robotic Process Automation）がDOM構造やAPIに依存していたのに対し、CUAは純粋に視覚情報だけでGUIを操作する。これは人間がコンピュータを使う方法そのものだ。

ベンチマーク結果を見ると、その性能は明らかだ。OSWorld（フルコンピュータ操作タスク）で38.1%の成功率を達成。これはAnthropicのComputer Useの22.0%を大きく上回る。ただし、人間のスコアは72.4%であり、まだ差がある点は留意すべきだ。

Anthropic Claude Computer Useとの比較

一方のAnthropicは、Claude Opus 4.5で「コーディング、エージェント、コンピュータ操作において世界最高のモデル」を謳う。2025年1月のアップデートでは、computer_20250124ツールにhold_key、left_mouse_down、scroll、triple_click、waitといった新しいコマンドが追加された。

興味深いのは、両社のアプローチの違いだ。OpenAIはエンドユーザー向けの統合製品（Operator→ChatGPT agent）として展開する一方、AnthropicはSDKとAPIを通じた開発者向けプラットフォームとしての性格が強い。どちらが正解かは用途次第だが、技術者としてはAnthropicのアプローチのほうが扱いやすいと感じる場面も多い。

2. マルチエージェントシステムの台頭

Anthropicの90.2%改善という数字の意味

Anthropicの研究チームが発表した数字は衝撃的だった。Claude Opus 4をリードエージェント、Claude Sonnet 4をサブエージェントとするマルチエージェントシステムは、単一のClaude Opus 4と比較して90.2%の性能向上を示したという。

彼らが採用したのはオーケストレーター・ワーカーパターンだ。リードエージェントがプロセス全体を調整し、専門化されたサブエージェントが並列で作業を実行する。この設計パターン自体は新しいものではないが、LLMベースのエージェントでここまでの効果が実証されたのは初めてだ。

フレームワーク比較：LangGraph vs AutoGen vs CrewAI

実際にマルチエージェントシステムを構築する場合、現時点で選択肢となるのは主に3つのフレームワークだ。

LangGraphはLangChainチームによる開発で、グラフベースのワークフロー設計を採用している。各ノードがエージェントやツールを表し、遷移は動的なロジックとメモリに依存する。条件分岐や並列処理を含む複雑なパイプラインには最適だが、学習コストは高い。

AutoGenはMicrosoftが開発した会話型エージェントアーキテクチャ。自然言語でのインタラクションと動的なロールプレイに強みがある。Human-in-the-loopのシステム、例えば人間が監督しながらエージェントがブレインストーミングするような用途に向いている。

CrewAIは軽量なロールベースのフレームワーク。YAMLドリブンな設定で、データフェッチャーからライターへ結果を渡すような明確な役割分担のワークフローを素早く構築できる。ただし、カスタマイズが必要になると追加の工数がかかる。

2025年時点では、LangChain/LangGraphが最も広く使われているが、AutoGenとCrewAIも特にエンタープライズ環境で急速にシェアを伸ばしている。

3. 推論パターンの進化：ReActからMAR（Multi-Agent Reflexion）へ

ReAct（Reasoning + Acting）の限界

ReActパターンは、LLMに「思考」と「行動」を交互に実行させることで、外部ツールとの連携を可能にした画期的な手法だった。しかし、実運用では限界も見えてきた。

最大の問題はエラー伝播だ。ReActは各ステップで推論を行うが、一度間違った方向に進むと軌道修正が難しい。Chain-of-Thoughtと同様、内部知識に依存する部分ではハルシネーションのリスクも残る。

Reflexionによる自己改善

この課題に対するアプローチがReflexionだ。タスク完了後（または失敗後）に、エージェントが自身の実行トレース全体を振り返り、エラーや非効率性を特定する。そしてその「反省」をメモリに保存し、将来の計画に活用する。

これにより、モデル自体を再学習させることなく、コンテキスト内学習によって自己改善が可能になる。Reflexionを適用することで、GPT-3.5のpass@1性能が67.1%から76.4%に向上したというデータがある。

Multi-Agent Reflexion（MAR）の登場

2025年末に発表されたMAR（Multi-Agent Reflexion）は、さらに一歩進んだ。複数のエージェントによる批評を通じて、単一エージェントのReflexionでは脱却できない「思考の固定化」を回避する。

結果として、pass@1性能は82.6%まで向上。単純なReflexionが「同じ推論モードに固執する」傾向があるのに対し、MARは多様な批評を生成することで、より質の高い修正を実現している。

4. Google DeepMindの野心：SIMA 2と汎用エージェント

SIMA 2：言語から行動への変換

Google DeepMindが発表したSIMA 2は、3D仮想世界で動作する汎用エージェントだ。初代SIMAが「言語を3D世界での意味ある行動に変換する」ことを目指したのに対し、SIMA 2はGeminiの推論能力を活用して、多くの専門システムの能力を一つの汎用エージェントに統合した。

注目すべきは、SIMA 2が学習したスキル—ナビゲーション、ツール使用、協調的タスク実行—がロボティクスへの応用を強く示唆している点だ。これは単なるゲームAIではなく、物理世界での知能の具現化に向けた研究だ。

Gemini Deep Research：自律的な研究エージェント

2025年12月、GoogleはGemini 3 Proベースの「再構築された」Deep Researchエージェントを発表した。Interactions APIを通じて、開発者は自社アプリケーションにGoogleの最先端自律研究機能を組み込める。

技術的に興味深いのは、その反復的な計画プロセスだ。「クエリを策定し、結果を読み、知識のギャップを特定し、再検索する」というループを自律的に実行する。これは人間の研究者が行うプロセスそのものだ。

5. 評価とベンチマーク：PaperBenchが示すもの

AIによるAI研究の再現

OpenAIが発表したPaperBenchは、AIエージェントの評価において新しい方向性を示している。ICML 2024のSpotlight/Oral論文20本を、エージェントがゼロから再現できるかを測定するベンチマークだ。

「論文の貢献を理解し、コードベースを開発し、実験を成功裏に実行する」という一連のプロセスが要求される。現時点での最高性能は、Claude 3.5 Sonnet（New）とオープンソースのスキャフォールディングの組み合わせで、平均再現スコア21.0%。

21%という数字は低く見えるかもしれないが、これは「ICML採択論文を自動再現する」という極めて困難なタスクであることを考慮すべきだ。1年前にはほぼ不可能だったことが、限定的とはいえ可能になりつつある。

スマートコントラクト脆弱性の発見

Anthropicの研究チームは、AIエージェントによるスマートコントラクト脆弱性の発見能力を評価した。SCONE-benchという405のコントラクトを含む新しいベンチマークでは、Claude Opus 4.5、Claude Sonnet 4.5、GPT-5が知識カットオフ後のコントラクトに対して合計460万ドル相当のエクスプロイトを開発したという。

わずか1年で、ポスト知識カットオフベンチマークでのエクスプロイト成功率は2%から55.88%へ、総額では5,000ドルから460万ドルへと急増した。これはセキュリティ研究の観点からは朗報だが、同時に悪用リスクの増大も意味している。

6. セーフティとプロンプトインジェクション

エージェント時代の最大の懸念

Anthropicのチーフサイエンティスト、Jared Kaplanは「プロンプトインジェクションは、エージェントの広範な利用を考える上で最も重要な課題の一つ」と述べている。特にコンピュータ操作エージェントでは、悪意のあるウェブサイトがClaudeを操作しようとするリスクがある。

OpenAIもGPT-5.2-Codexのシステムカードで、包括的なセーフティ対策を概説している。有害タスクやプロンプトインジェクションに対する専門的なセーフティトレーニング、エージェントのサンドボックス化、設定可能なネットワークアクセスといった多層防御だ。

Bloomフレームワーク

Anthropicが公開したBloomは、フロンティアAIモデルの行動評価を自動化するオープンソースのエージェントフレームワークだ。研究者が指定した行動に対して、現実的なシナリオでその行動がどの程度の頻度・強度で現れるかを測定する評価を自動構築する。

これは、AIの安全性研究において重要なツールとなる可能性がある。モデルの内部動作を直接解釈する「機械的解釈可能性」と、外部から行動を観察する「行動評価」を組み合わせることで、より包括的な安全性保証が可能になるかもしれない。

7. 2026年への展望

動的オーケストレーションへ

現在の研究が示唆する方向性は明らかだ。「不確実な場面では反省的に、時間制約がある場面では反射的に」と、コンテキストに応じて推論モードを切り替えられる動的オーケストレーションが次のフロンティアとなる。

マルチエージェントシステムの設計パターン、Computer Use能力、高度な推論戦略—これらが統合されたとき、現在の「タスク特化型エージェント」から「汎用エージェント」への飛躍が起きるかもしれない。

開発者として今すべきこと

技術の進化速度を考えると、特定のフレームワークやAPIに過度に依存するのは危険だ。むしろ重要なのは、エージェントシステムの設計原則を理解することだ。

推論と行動のループ（ReActパターン）
自己反省と学習（Reflexionパターン）
タスク分解と委譲（オーケストレーター・ワーカーパターン）
メモリ管理（短期/長期/エピソード記憶）

これらの原則を理解していれば、フレームワークが変わっても、APIが更新されても、適応できる。

AIエージェント研究は、2025年に大きな転換点を迎えた。Computer Useによる汎用的なGUI操作、マルチエージェントによる協調、自己反省による継続的改善—かつてはSFの領域だったことが、今や実装可能な技術になりつつある。

ただし、過度な楽観は禁物だ。OSWorldでの人間のスコア72.4%に対してCUAは38.1%。PaperBenchでの再現スコアは21%。まだ人間の能力には遠く及ばない。

それでも、この1年の進歩を見れば、2026年末にはまた違った景色が見えているはずだ。その変化に乗り遅れないためにも、今から手を動かしておくことを勧める。