o3時代でもエージェントRLは必要か？ ─ Agent Lightningから考える2026年のAI開発

はじめに

2025年はLLMにとって「RLVR（Reinforcement Learning from Verifiable Rewards）」の年でした。OpenAIのo1/o3、DeepSeek R1、そしてClaude 3.7以降の”extended thinking”まで、推論能力の飛躍的向上をもたらしたのはこの技術ですね。

では、ベースモデルがこれほど賢くなった今、エージェントを個別にRLで訓練する意味はあるのでしょうか？

半年ほど前に発表されたMicrosoft Research発の「Agent Lightning」（GitHub 11.5k⭐）を題材に、この問いを考えてみたいと思います。

対象者

この記事は下記のような人を対象にしています。

LLMやエージェント技術の最新動向に興味がある方
RLVRとエージェントRLの違いを理解したい方
Agent Lightningのようなフレームワークの意義を知りたい方
2026年以降のAI開発の方向性を考えたい方

疑問：モデルが賢くなればRLは不要では？

GPT-5、Claude Opus 4.5、Gemini 3といった2025〜2026年のフロンティアモデルは、以前とは比較にならないほど賢くなっています。数学オリンピックで金メダルレベルの問題を解き、複雑なコードを書き、長文の文脈を保持できますね。

こうなると、こんな疑問が浮かびます：

「モデル自体が十分賢ければ、エージェントを別途RLで訓練する必要はないのでは？プロンプトエンジニアリングで十分では？」

結論から言いますと、ベースモデルの賢さとエージェントRLは代替関係ではなく、補完関係にあります。そしてこの構造は2026年以降も変わりません。

RLVRとエージェントRLの違いを整理する

まず、「RL」と一口に言っても、現在のLLM開発には複数のレイヤーが存在します。

レイヤー	何を最適化？	主な手法	誰が実施？
事前学習	言語理解・生成の基礎能力	次トークン予測	AI Lab
RLHF/Constitutional AI	有用性・安全性	人間フィードバック	AI Lab
RLVR	推論・思考能力	検証可能な報酬（数学・コード）	AI Lab
エージェントRL	ツール使用・マルチステップ行動	環境からのフィードバック	開発者も可能

Andrej Karpathyが2025年の振り返りで述べているように、RLVRは「検証可能な報酬に対して訓練することで、人間には”推論”に見える戦略をLLMが自発的に発達させる」技術です。これにより、o3やDeepSeek R1は数学やコーディングで驚異的な性能を発揮しています。

しかし、RLVRが最適化しているのは「思考の質」であって、「行動の信頼性」ではありません。

なぜベースモデルの性能向上だけでは不十分か

Simon Willisonの2025年振り返りに、核心を突く指摘があります：

「Claude Codeのようなシステムには、優れたモデル以上のものが必要です。常に拡大するコンテキストウィンドウの中で、何十回、何百回ものツール呼び出しを確実に実行できる推論モデルが必要なのです。」

ここで重要なのは「確実に」という部分ですね。

単発の賢さ vs 連続した行動の信頼性

フロンティアモデルは、1回のプロンプトに対して素晴らしい回答を返します。しかしエージェントタスクでは、数十〜数百回の連続したツール呼び出しが必要になります。

例えば、Claude Codeでコードベースをリファクタリングする場合を考えてみましょう：

ファイル構造を読む → 2. 依存関係を分析 → 3. 変更計画を立てる → 4. ファイルを編集 → 5. テストを実行 → 6. エラーを修正 → 7. 再テスト → …

この一連の流れで、1ステップでも失敗すると全体が破綻します。99%の精度でも、100ステップあれば36%しか成功しない計算になりますね。

OpenAI o3チームの認識

OpenAIの元Chief Research Officer、Bob McGrewの発言が示唆的です：

「o3のスポットライトはツール使用にある。知能はもはや主要な制約ではない。新しいフロンティアは外部世界との信頼性の高いインタラクションだ。」

つまり、**「賢さ」は解決済みの問題に近づきつつあり、次の課題は「行動の信頼性」**なのです。

Claude Code / Deep Researchの成功要因

2025年後半、Claude CodeはAIコーディングエージェントの事実上のスタンダードとなりました。Karpathyも「LLMエージェントがどのようなものかを初めて説得力を持って示したもの」と評しています。

なぜClaude Codeは成功したか

ローカル実行：ユーザーの環境、データ、コンテキストに直接アクセスできます
継続的なフィードバックループ：テスト結果、エラーメッセージを即座に取り込めます
モデル側の最適化：Anthropicはエージェントタスク用にモデルを継続的に改善しています

特に3点目が重要です。Anthropicの開発者によると：

「Claude Codeのようなエージェントで見られる問題の多くは、特定のサブタスクでの信頼性が50%程度しかないというもの。この場合、新しいデータを生成してモデルの継続訓練に組み込むことで、99%近くまで引き上げることができる。」

これは、汎用的なRLVRとは別に、エージェント特化の訓練が有効であることを示していますね。

Agent Lightningの意義：開発者がエージェントRLを活用できる

ここでAgent Lightningの位置づけが明確になります。

従来の問題

これまで、エージェントRLを行うには以下のハードルがありました：

エージェント実行コードとRL訓練コードが密結合
LangChain、AutoGen、OpenAI Agents SDKなど、フレームワークごとに対応が必要
マルチエージェントや動的ワークフローへの対応が困難
結果として、AI Lab以外には事実上不可能

Agent Lightningの解決策

Agent Lightningは「Training-Agent Disaggregation」というアーキテクチャを採用しています。

Training-Agent Disaggregationアーキテクチャ

重要なのは、既存のエージェントコードをほぼ修正せずにRL訓練を追加できる点です。

検証済みのタスク

論文では以下のタスクで有効性を確認しています：

Text-to-SQL: 自然言語からSQLクエリ生成
RAG: 検索精度と生成品質の最適化
Math tool-use: 計算ツール呼び出しの最適化

いずれも「複数ステップの行動」と「検証可能な結果」を持つタスクですね。

実践：どんなタスクでエージェントRLが有効か

向いているタスク

エージェントRLが有効なのは、以下の条件を満たすタスクです：

複数ステップの行動が必要
- 単発の質問応答ではなく、ツール呼び出しの連鎖
- 例：コード生成→テスト→修正のループ
報酬が検証可能
- テストの成否、SQLの実行結果、検索の適合率など
- 人間のフィードバックに依存しません
現在のモデルで信頼性が不十分
- プロンプトエンジニアリングで解決できません
- 特定のサブタスクで失敗率が高いです

向いていないタスク

逆に、以下のタスクではエージェントRLのROIは低いです：

単発の推論タスク: RLVRで訓練済みのフロンティアモデルで十分です
報酬設計が困難なタスク: 創作、オープンエンドな対話
データ収集コストが高いタスク: 稀な専門ドメイン

2026年の展望

Sebastian Raschkaの予測によると、2026年は以下のトレンドが見込まれます：

RLVRの領域拡大: 数学・コード以外（化学、生物学など）へ
推論時スケーリングの重視: モデル訓練より推論最適化に比重
ツーリングの進化: LLM自体より周辺アプリケーションの改善

これは、ベースモデルの進化は続くが、エージェントRLの重要性も増すという見方と整合的ですね。

Agent Lightning的アプローチの普及

現在、Agent Lightningのようなフレームワークは研究段階ですが、以下の形で普及が進むと予想されます：

フレームワーク統合: LangChain、LlamaIndexなどがRL訓練機能を内蔵
マネージドサービス: クラウドプロバイダーがエージェントRL as a Serviceを提供
特化モデルの登場: コーディング、検索、データ分析など用途別にRL済みのエージェントモデル

おわりに

本記事では、o3時代におけるエージェントRLの必要性についてまとめました。

「モデルが賢くなればエージェントRLは不要になる」という直感は、半分正しく半分間違っています。

正しい部分：

ベースモデルの推論能力向上（RLVR）は確実に進みます
多くの単発タスクはプロンプトエンジニアリングで解決可能になります

間違っている部分：

エージェントタスクでは「連続した行動の信頼性」が別問題として残ります
RLVRとエージェントRLは異なるレイヤーの最適化です

Agent Lightningのようなフレームワークは、AI Labだけでなく開発者がエージェントRLにアクセスできる道を開きました。2026年、エージェントにRLを適用するかどうかは、「モデルの賢さ」ではなく「タスクの性質」で判断すべきですね。

この記事がどなたかの参考になれば幸いです。