APIコスト0円で本格的なAIエージェントを構築する——Ollamaを使えば、それが現実になります。
2025年、Ollamaで利用できるモデルは劇的に進化しました。単なる「推論マシーン」ではなく、ツール使用(Function Calling)やエージェント機能を備えた高性能モデルが続々と登場。NVIDIA Nemotron、Mistral Devstralなど、100以上のモデルがエージェント用途に対応しています。
本記事では、最新のエージェント対応モデルを網羅し、APIコスト0円で本格的なAIエージェントを構築する方法を徹底解説します。
なぜ今「エージェント対応モデル」が重要なのか
従来のLLMとエージェント対応モデルの違い
| 比較項目 | 従来のLLM(推論のみ) | エージェント対応モデル |
|---|---|---|
| テキスト生成 | ○ | ○ |
| ツール使用(Function Calling) | × | ○ |
| 外部API連携 | × | ○ |
| コード実行 | × | ○ |
| マルチステップ推論 | △ | ○ |
| 自律的なタスク遂行 | × | ○ |
エージェント対応モデルは、単に質問に答えるだけでなく、外部ツールを呼び出し、複数のステップを自律的に実行できます。これにより、業務自動化やソフトウェア開発の自動化が実現します。
Ollamaで使えるエージェント対応モデルの進化
2025年現在、Ollamaのモデルライブラリには100以上のモデルが登録されており、その多くがエージェント機能を備えています。特に注目すべきは、NVIDIA Nemotron、OpenAI GPT-OSS、Mistral Devstralなど、エージェント用途に特化した最新モデルです。
【2025年最新】エージェント対応モデル完全ガイド
Ollamaで利用可能なエージェント対応モデルを、用途別に詳しく紹介します。
エージェント特化モデル(Tool Use / Function Calling対応)
Nemotron-3-Nano(NVIDIA)
- パラメータ:30B(アクティブ3.5B)
- アーキテクチャ:ハイブリッドMoE(Mamba-2 + Attention)
- コンテキスト:100万トークン(業界最長クラス)
- 特徴:推論トレース生成、マルチ言語対応(日本語含む)
エージェントベンチマーク:
| ベンチマーク | スコア | 評価 |
|---|---|---|
| SWE-Bench(OpenHands) | 38.8% | ソフトウェア開発タスク |
| BFCL v4(Function Calling) | 53.8% | ツール呼び出し精度 |
| TauBench V2 | 49.0% | エージェント総合評価 |
| AIME25(ツール使用時) | 99.2% | 数学的推論 |
ollama run nemotron-3-nano
GPT-OSS(OpenAI)
- パラメータ:20B / 120B
- コンテキスト:128Kトークン
- ライセンス:Apache 2.0(商用利用可)
エージェント機能:
- ネイティブFunction Calling
- Webブラウジング(組み込み検索)
- Pythonコード実行
- 構造化出力生成
- 推論努力の調整(低/中/高)
ハードウェア要件:
- 20Bモデル:16GB VRAM(MXFP4量子化)
- 120Bモデル:80GB VRAM
ollama run gpt-oss:20b
ollama run gpt-oss:120b
Devstral-small-2 / Devstral-2(Mistral)
- Devstral-small-2:24B、384Kコンテキスト
- Devstral-2:123B、マルチファイル編集対応
- 入力:テキスト + 画像(マルチモーダル)
得意分野:
- コードベース探索(ツール使用)
- 複数ファイルの同時編集
- ソフトウェア開発の自動化
ベンチマーク:
| ベンチマーク | Devstral-small-2 |
|---|---|
| SWE-Bench Verified | 65.8% |
| SWE-Bench Multilingual | 51.6% |
| Terminal Bench | 32.0% |
ollama run devstral-small-2
ollama run devstral-2
Kimi-K2(Moonshot AI)
- パラメータ:1兆(アクティブ32B)
- コンテキスト:256Kトークン
- 特徴:コーディングエージェントタスクで大幅な性能向上
ollama run kimi-k2
推論特化モデル(Reasoning Models)
QwQ(Qwen)
- パラメータ:32B
- コンテキスト:40Kトークン
- 特徴:DeepSeek-R1、o1-miniに匹敵する推論性能
- ロードマップ:エージェント統合による長期推論の実現
ollama run qwq
DeepSeek-R1
- パラメータ:1.5B〜671B(distilled版含む)
- コンテキスト:128K〜160Kトークン
- 特徴:O3やGemini 2.5 Proに匹敵する推論性能
ollama run deepseek-r1:8b # 軽量版
ollama run deepseek-r1:70b # 高性能版
軽量Function Callingモデル
FunctionGemma(Google)
- パラメータ:270M
- サイズ:301MB
- コンテキスト:32Kトークン
- 用途:エッジデバイス、ラップトップでのツール呼び出し
Function Callingベンチマーク:
- 並列関数呼び出し:63.5%
- 関連性検出:61.1%
- 非関連検出:70.6%
ollama run functiongemma
Nemotron-mini(NVIDIA)
- パラメータ:4B
- コンテキスト:4Kトークン
- 特徴:RAG QA、Function Calling、ロールプレイに最適化
- 用途:オンデバイス展開、低レイテンシ要件
ollama run nemotron-mini
Granite 4(IBM)
- パラメータ:350M〜32B
- コンテキスト:最大128Kトークン
- 特徴:エンタープライズ向けツール呼び出し強化
- 言語:12言語対応(日本語含む)
ollama run granite4:3b
ollama run granite4:32b
エージェント対応モデル比較表
| モデル | パラメータ | コンテキスト | ツール使用 | エージェント機能 | 推奨用途 |
|---|---|---|---|---|---|
| Nemotron-3-Nano | 30B (3.5B active) | 1M | ○ | ◎ | 汎用エージェント |
| GPT-OSS 20B | 20B | 128K | ◎ | ◎ | 商用エージェント |
| Devstral-small-2 | 24B | 384K | ◎ | ◎ | コーディングエージェント |
| Kimi-K2 | 1T (32B active) | 256K | ○ | ◎ | コーディングエージェント |
| QwQ | 32B | 40K | △ | ○ | 複雑な推論タスク |
| DeepSeek-R1 | 8B〜671B | 128K | △ | ○ | 推論・問題解決 |
| FunctionGemma | 270M | 32K | ◎ | △ | 軽量ツール呼び出し |
| Nemotron-mini | 4B | 4K | ○ | △ | エッジデバイス |
| Granite 4 | 350M〜32B | 128K | ◎ | ○ | エンタープライズ |
◎=非常に優れている、○=対応、△=限定的
実践:OllamaでAIエージェントを構築する
LangChain + Nemotron-3-Nano
from langchain_ollama import ChatOllama
from langchain.agents import create_tool_calling_agent, AgentExecutor
from langchain_core.tools import tool
# エージェント対応モデルを初期化
llm = ChatOllama(
model="nemotron-3-nano",
temperature=0
)
# ツールを定義
@tool
def search_database(query: str) -> str:
"""社内データベースを検索"""
# 実際のDB検索ロジック
return f"検索結果: {query}"
@tool
def send_email(to: str, subject: str, body: str) -> str:
"""メールを送信"""
# 実際のメール送信ロジック
return f"メール送信完了: {to}"
tools = [search_database, send_email]
# エージェントを作成
agent = create_tool_calling_agent(llm, tools, prompt)
executor = AgentExecutor(agent=agent, tools=tools, verbose=True)
# 実行
result = executor.invoke({
"input": "山田さんに明日の会議について確認メールを送って"
})
CrewAI + GPT-OSS
from crewai import Agent, Task, Crew
from langchain_ollama import ChatOllama
# GPT-OSSをバックエンドに
llm = ChatOllama(model="gpt-oss:20b")
# コードレビューエージェント
code_reviewer = Agent(
role="シニアコードレビュアー",
goal="コードの品質とセキュリティをレビュー",
backstory="10年以上の経験を持つセキュリティエンジニア",
llm=llm,
tools=[code_analysis_tool, security_scanner]
)
# ドキュメント作成エージェント
doc_writer = Agent(
role="テクニカルライター",
goal="技術ドキュメントを作成",
backstory="APIドキュメント専門のテクニカルライター",
llm=llm,
tools=[markdown_generator, api_parser]
)
# クルーを編成
crew = Crew(
agents=[code_reviewer, doc_writer],
tasks=[review_task, document_task]
)
result = crew.kickoff()
Devstralでソフトウェア開発を自動化
from langchain_ollama import ChatOllama
# ソフトウェアエンジニアリング特化モデル
llm = ChatOllama(
model="devstral-small-2",
num_ctx=384000 # 384Kコンテキスト活用
)
# コードベース全体を読み込んでバグ修正
response = llm.invoke("""
以下のPythonコードベースを分析し、
潜在的なバグを特定して修正してください。
[コードベース全体をここに挿入]
""")
ユースケース別おすすめモデル
社内FAQ・カスタマーサポートエージェント
- 推奨モデル:GPT-OSS 20B / Granite 4 3B
- 理由:ツール呼び出しでナレッジベース検索、回答生成
- 必要VRAM:16GB
コードレビュー・開発支援エージェント
- 推奨モデル:Devstral-small-2 / Kimi-K2
- 理由:SWE-Bench高スコア、マルチファイル編集対応
- 必要VRAM:24GB〜48GB
データ分析・レポート作成エージェント
- 推奨モデル:Nemotron-3-Nano
- 理由:100万トークンコンテキストで大量データ処理
- 必要VRAM:24GB
エッジデバイス・軽量エージェント
- 推奨モデル:FunctionGemma / Nemotron-mini
- 理由:270MB〜4Bで動作、オンデバイス展開可能
- 必要VRAM:4GB〜8GB
クラウドAPI vs Ollamaエージェント コスト比較
| 項目 | GPT-4o API | Claude API | Ollama(GPT-OSS 20B) |
|---|---|---|---|
| 初期コスト | 0円 | 0円 | GPU購入費(〜50万円) |
| 月間コスト(10万リクエスト) | 約30万円 | 約25万円 | 電気代のみ(〜1万円) |
| 年間コスト | 約360万円 | 約300万円 | 約12万円 + 初期費用 |
| データプライバシー | 外部送信あり | 外部送信あり | 完全ローカル |
| カスタマイズ | 制限あり | 制限あり | 完全自由 |
試算:年間10万リクエスト以上の利用で、Ollamaは1年目から黒字化。2年目以降は年間90%以上のコスト削減が可能です。
AQUAのOllama AIエージェント構築サービス
「最新のエージェント対応モデルでAIエージェントを構築したい」「どのモデルを選べばいいかわからない」——そんな企業様をAQUAがサポートします。
AQUAのOllamaエージェント構築支援
- モデル選定:用途・予算に最適なエージェント対応モデルを提案
- 環境構築:オンプレミス/クラウドGPUの設計・構築
- エージェント開発:LangChain/CrewAI等でのツール連携実装
- RAG統合:社内ドキュメント・データベース連携
- 運用サポート:モデル更新・パフォーマンスチューニング
低コストでのAIエージェント構築:Ollamaの最新エージェント対応モデルを活用することで、APIコスト0円で本格的なAIエージェントを実現します。
まとめ:エージェント対応モデルで業務自動化を実現
☑️ 2025年のOllamaは単なる推論モデルではなく、エージェント対応モデルが充実
☑️ Nemotron-3-Nano:100万トークンコンテキスト、エージェント特化設計
☑️ GPT-OSS:OpenAI公式オープンウェイト、ネイティブFunction Calling
☑️ Devstral:ソフトウェア開発エージェントに最適(SWE-Bench 65.8%)
☑️ FunctionGemma:わずか270MBでツール呼び出し可能
☑️ APIコスト0円で本格的なAIエージェント構築が可能
☑️ 機密データを外部に送信せずにAI自動化を実現
もはやAIエージェントは高額なAPIコストを払わなければ実現できないものではありません。Ollamaの最新エージェント対応モデルを活用すれば、低コストで本格的な業務自動化が可能です。
AIエージェント開発でお困りの際は、ぜひAQUAにご相談ください。