Ollamaエージェント対応モデル完全ガイド｜Nemotron・GPT-OSS・Devstralで低コストAIエージェント構築

APIコスト0円で本格的なAIエージェントを構築する——Ollamaを使えば、それが現実になります。

2025年、Ollamaで利用できるモデルは劇的に進化しました。単なる「推論マシーン」ではなく、ツール使用（Function Calling）やエージェント機能を備えた高性能モデルが続々と登場。NVIDIA Nemotron、Mistral Devstralなど、100以上のモデルがエージェント用途に対応しています。

本記事では、最新のエージェント対応モデルを網羅し、APIコスト0円で本格的なAIエージェントを構築する方法を徹底解説します。

なぜ今「エージェント対応モデル」が重要なのか

従来のLLMとエージェント対応モデルの違い

比較項目	従来のLLM（推論のみ）	エージェント対応モデル
テキスト生成	○	○
ツール使用（Function Calling）	×	○
外部API連携	×	○
コード実行	×	○
マルチステップ推論	△	○
自律的なタスク遂行	×	○

エージェント対応モデルは、単に質問に答えるだけでなく、外部ツールを呼び出し、複数のステップを自律的に実行できます。これにより、業務自動化やソフトウェア開発の自動化が実現します。

Ollamaで使えるエージェント対応モデルの進化

2025年現在、Ollamaのモデルライブラリには100以上のモデルが登録されており、その多くがエージェント機能を備えています。特に注目すべきは、NVIDIA Nemotron、OpenAI GPT-OSS、Mistral Devstralなど、エージェント用途に特化した最新モデルです。

【2025年最新】エージェント対応モデル完全ガイド

Ollamaで利用可能なエージェント対応モデルを、用途別に詳しく紹介します。

エージェント特化モデル（Tool Use / Function Calling対応）

Nemotron-3-Nano（NVIDIA）

「エージェントのための新標準」として設計された最新モデル

パラメータ：30B（アクティブ3.5B）
アーキテクチャ：ハイブリッドMoE（Mamba-2 + Attention）
コンテキスト：100万トークン（業界最長クラス）
特徴：推論トレース生成、マルチ言語対応（日本語含む）

エージェントベンチマーク：

ベンチマーク	スコア	評価
SWE-Bench（OpenHands）	38.8%	ソフトウェア開発タスク
BFCL v4（Function Calling）	53.8%	ツール呼び出し精度
TauBench V2	49.0%	エージェント総合評価
AIME25（ツール使用時）	99.2%	数学的推論

ollama run nemotron-3-nano

GPT-OSS（OpenAI）

OpenAIが公開したオープンウェイトモデル。エージェントタスクに最適化。

パラメータ：20B / 120B
コンテキスト：128Kトークン
ライセンス：Apache 2.0（商用利用可）

エージェント機能：

ネイティブFunction Calling
Webブラウジング（組み込み検索）
Pythonコード実行
構造化出力生成
推論努力の調整（低/中/高）

ハードウェア要件：

20Bモデル：16GB VRAM（MXFP4量子化）
120Bモデル：80GB VRAM

ollama run gpt-oss:20b
ollama run gpt-oss:120b

Devstral-small-2 / Devstral-2（Mistral）

ソフトウェアエンジニアリングエージェント専用モデル

Devstral-small-2：24B、384Kコンテキスト
Devstral-2：123B、マルチファイル編集対応
入力：テキスト + 画像（マルチモーダル）

得意分野：

コードベース探索（ツール使用）
複数ファイルの同時編集
ソフトウェア開発の自動化

ベンチマーク：

ベンチマーク	Devstral-small-2
SWE-Bench Verified	65.8%
SWE-Bench Multilingual	51.6%
Terminal Bench	32.0%

ollama run devstral-small-2
ollama run devstral-2

Kimi-K2（Moonshot AI）

1兆パラメータのMoEモデル。コーディングエージェントに特化。

パラメータ：1兆（アクティブ32B）
コンテキスト：256Kトークン
特徴：コーディングエージェントタスクで大幅な性能向上

ollama run kimi-k2

推論特化モデル（Reasoning Models）

QwQ（Qwen）

パラメータ：32B
コンテキスト：40Kトークン
特徴：DeepSeek-R1、o1-miniに匹敵する推論性能
ロードマップ：エージェント統合による長期推論の実現

ollama run qwq

DeepSeek-R1

パラメータ：1.5B〜671B（distilled版含む）
コンテキスト：128K〜160Kトークン
特徴：O3やGemini 2.5 Proに匹敵する推論性能

ollama run deepseek-r1:8b    # 軽量版
ollama run deepseek-r1:70b   # 高性能版

軽量Function Callingモデル

FunctionGemma（Google）

わずか270MBでFunction Callingを実現する超軽量モデル

パラメータ：270M
サイズ：301MB
コンテキスト：32Kトークン
用途：エッジデバイス、ラップトップでのツール呼び出し

Function Callingベンチマーク：

並列関数呼び出し：63.5%
関連性検出：61.1%
非関連検出：70.6%

ollama run functiongemma

Nemotron-mini（NVIDIA）

パラメータ：4B
コンテキスト：4Kトークン
特徴：RAG QA、Function Calling、ロールプレイに最適化
用途：オンデバイス展開、低レイテンシ要件

ollama run nemotron-mini

Granite 4（IBM）

パラメータ：350M〜32B
コンテキスト：最大128Kトークン
特徴：エンタープライズ向けツール呼び出し強化
言語：12言語対応（日本語含む）

ollama run granite4:3b
ollama run granite4:32b

エージェント対応モデル比較表

モデル	パラメータ	コンテキスト	ツール使用	エージェント機能	推奨用途
Nemotron-3-Nano	30B (3.5B active)	1M	○	◎	汎用エージェント
GPT-OSS 20B	20B	128K	◎	◎	商用エージェント
Devstral-small-2	24B	384K	◎	◎	コーディングエージェント
Kimi-K2	1T (32B active)	256K	○	◎	コーディングエージェント
QwQ	32B	40K	△	○	複雑な推論タスク
DeepSeek-R1	8B〜671B	128K	△	○	推論・問題解決
FunctionGemma	270M	32K	◎	△	軽量ツール呼び出し
Nemotron-mini	4B	4K	○	△	エッジデバイス
Granite 4	350M〜32B	128K	◎	○	エンタープライズ

◎=非常に優れている、○=対応、△=限定的

実践：OllamaでAIエージェントを構築する

LangChain + Nemotron-3-Nano

from langchain_ollama import ChatOllama
from langchain.agents import create_tool_calling_agent, AgentExecutor
from langchain_core.tools import tool

# エージェント対応モデルを初期化
llm = ChatOllama(
    model="nemotron-3-nano",
    temperature=0
)

# ツールを定義
@tool
def search_database(query: str) -> str:
    """社内データベースを検索"""
    # 実際のDB検索ロジック
    return f"検索結果: {query}"

@tool
def send_email(to: str, subject: str, body: str) -> str:
    """メールを送信"""
    # 実際のメール送信ロジック
    return f"メール送信完了: {to}"

tools = [search_database, send_email]

# エージェントを作成
agent = create_tool_calling_agent(llm, tools, prompt)
executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

# 実行
result = executor.invoke({
    "input": "山田さんに明日の会議について確認メールを送って"
})

CrewAI + GPT-OSS

from crewai import Agent, Task, Crew
from langchain_ollama import ChatOllama

# GPT-OSSをバックエンドに
llm = ChatOllama(model="gpt-oss:20b")

# コードレビューエージェント
code_reviewer = Agent(
    role="シニアコードレビュアー",
    goal="コードの品質とセキュリティをレビュー",
    backstory="10年以上の経験を持つセキュリティエンジニア",
    llm=llm,
    tools=[code_analysis_tool, security_scanner]
)

# ドキュメント作成エージェント
doc_writer = Agent(
    role="テクニカルライター",
    goal="技術ドキュメントを作成",
    backstory="APIドキュメント専門のテクニカルライター",
    llm=llm,
    tools=[markdown_generator, api_parser]
)

# クルーを編成
crew = Crew(
    agents=[code_reviewer, doc_writer],
    tasks=[review_task, document_task]
)

result = crew.kickoff()

Devstralでソフトウェア開発を自動化

from langchain_ollama import ChatOllama

# ソフトウェアエンジニアリング特化モデル
llm = ChatOllama(
    model="devstral-small-2",
    num_ctx=384000  # 384Kコンテキスト活用
)

# コードベース全体を読み込んでバグ修正
response = llm.invoke("""
以下のPythonコードベースを分析し、
潜在的なバグを特定して修正してください。

[コードベース全体をここに挿入]
""")

ユースケース別おすすめモデル

社内FAQ・カスタマーサポートエージェント

推奨モデル：GPT-OSS 20B / Granite 4 3B
理由：ツール呼び出しでナレッジベース検索、回答生成
必要VRAM：16GB

コードレビュー・開発支援エージェント

推奨モデル：Devstral-small-2 / Kimi-K2
理由：SWE-Bench高スコア、マルチファイル編集対応
必要VRAM：24GB〜48GB

データ分析・レポート作成エージェント

推奨モデル：Nemotron-3-Nano
理由：100万トークンコンテキストで大量データ処理
必要VRAM：24GB

エッジデバイス・軽量エージェント

推奨モデル：FunctionGemma / Nemotron-mini
理由：270MB〜4Bで動作、オンデバイス展開可能
必要VRAM：4GB〜8GB

クラウドAPI vs Ollamaエージェントコスト比較

項目	GPT-4o API	Claude API	Ollama（GPT-OSS 20B）
初期コスト	0円	0円	GPU購入費（〜50万円）
月間コスト（10万リクエスト）	約30万円	約25万円	電気代のみ（〜1万円）
年間コスト	約360万円	約300万円	約12万円 + 初期費用
データプライバシー	外部送信あり	外部送信あり	完全ローカル
カスタマイズ	制限あり	制限あり	完全自由

試算：年間10万リクエスト以上の利用で、Ollamaは1年目から黒字化。2年目以降は年間90%以上のコスト削減が可能です。

AQUAのOllama AIエージェント構築サービス

「最新のエージェント対応モデルでAIエージェントを構築したい」「どのモデルを選べばいいかわからない」——そんな企業様をAQUAがサポートします。

AQUAのOllamaエージェント構築支援

モデル選定：用途・予算に最適なエージェント対応モデルを提案
環境構築：オンプレミス/クラウドGPUの設計・構築
エージェント開発：LangChain/CrewAI等でのツール連携実装
RAG統合：社内ドキュメント・データベース連携
運用サポート：モデル更新・パフォーマンスチューニング

低コストでのAIエージェント構築：Ollamaの最新エージェント対応モデルを活用することで、APIコスト0円で本格的なAIエージェントを実現します。

無料相談を申し込む

まとめ：エージェント対応モデルで業務自動化を実現

☑️ 2025年のOllamaは単なる推論モデルではなく、エージェント対応モデルが充実

☑️ Nemotron-3-Nano：100万トークンコンテキスト、エージェント特化設計

☑️ GPT-OSS：OpenAI公式オープンウェイト、ネイティブFunction Calling

☑️ Devstral：ソフトウェア開発エージェントに最適（SWE-Bench 65.8%）

☑️ FunctionGemma：わずか270MBでツール呼び出し可能

☑️ APIコスト0円で本格的なAIエージェント構築が可能

☑️ 機密データを外部に送信せずにAI自動化を実現

もはやAIエージェントは高額なAPIコストを払わなければ実現できないものではありません。Ollamaの最新エージェント対応モデルを活用すれば、低コストで本格的な業務自動化が可能です。

AIエージェント開発でお困りの際は、ぜひAQUAにご相談ください。

Ollamaエージェント対応モデル完全ガイド｜Nemotron・GPT-OSS・Devstralで低コストAIエージェント構築

なぜ今「エージェント対応モデル」が重要なのか

従来のLLMとエージェント対応モデルの違い

Ollamaで使えるエージェント対応モデルの進化

【2025年最新】エージェント対応モデル完全ガイド

エージェント特化モデル（Tool Use / Function Calling対応）

Nemotron-3-Nano（NVIDIA）

GPT-OSS（OpenAI）

Devstral-small-2 / Devstral-2（Mistral）

Kimi-K2（Moonshot AI）

推論特化モデル（Reasoning Models）

QwQ（Qwen）

DeepSeek-R1

軽量Function Callingモデル

FunctionGemma（Google）

Nemotron-mini（NVIDIA）

Granite 4（IBM）

エージェント対応モデル比較表

実践：OllamaでAIエージェントを構築する

LangChain + Nemotron-3-Nano

CrewAI + GPT-OSS

Devstralでソフトウェア開発を自動化

ユースケース別おすすめモデル

社内FAQ・カスタマーサポートエージェント

コードレビュー・開発支援エージェント

データ分析・レポート作成エージェント

エッジデバイス・軽量エージェント

クラウドAPI vs Ollamaエージェントコスト比較

AQUAのOllama AIエージェント構築サービス

AQUAのOllamaエージェント構築支援

まとめ：エージェント対応モデルで業務自動化を実現

AI開発・導入のご相談

AIスクール受講生募集中

なぜ今「エージェント対応モデル」が重要なのか

従来のLLMとエージェント対応モデルの違い

Ollamaで使えるエージェント対応モデルの進化

【2025年最新】エージェント対応モデル完全ガイド

エージェント特化モデル（Tool Use / Function Calling対応）

Nemotron-3-Nano（NVIDIA）

GPT-OSS（OpenAI）

Devstral-small-2 / Devstral-2（Mistral）

Kimi-K2（Moonshot AI）

推論特化モデル（Reasoning Models）

QwQ（Qwen）

DeepSeek-R1

軽量Function Callingモデル

FunctionGemma（Google）

Nemotron-mini（NVIDIA）

Granite 4（IBM）

エージェント対応モデル比較表

実践：OllamaでAIエージェントを構築する

LangChain + Nemotron-3-Nano

CrewAI + GPT-OSS

Devstralでソフトウェア開発を自動化

ユースケース別おすすめモデル

社内FAQ・カスタマーサポートエージェント

コードレビュー・開発支援エージェント

データ分析・レポート作成エージェント

エッジデバイス・軽量エージェント

クラウドAPI vs Ollamaエージェント コスト比較

AQUAのOllama AIエージェント構築サービス

AQUAのOllamaエージェント構築支援

まとめ：エージェント対応モデルで業務自動化を実現

AI開発・導入のご相談

AIスクール受講生募集中

クラウドAPI vs Ollamaエージェントコスト比較