AIエージェント

Ollamaエージェント対応モデル完全ガイド|Nemotron・GPT-OSS・Devstralで低コストAIエージェント構築

2025年12月19日 11分で読める AQUA合同会社
Ollamaエージェント対応モデル完全ガイド|Nemotron・GPT-OSS・Devstralで低コストAIエージェント構築

APIコスト0円で本格的なAIエージェントを構築する——Ollamaを使えば、それが現実になります。

2025年、Ollamaで利用できるモデルは劇的に進化しました。単なる「推論マシーン」ではなく、ツール使用(Function Calling)エージェント機能を備えた高性能モデルが続々と登場。NVIDIA Nemotron、Mistral Devstralなど、100以上のモデルがエージェント用途に対応しています。

本記事では、最新のエージェント対応モデルを網羅し、APIコスト0円で本格的なAIエージェントを構築する方法を徹底解説します。

なぜ今「エージェント対応モデル」が重要なのか

従来のLLMとエージェント対応モデルの違い

比較項目 従来のLLM(推論のみ) エージェント対応モデル
テキスト生成
ツール使用(Function Calling) ×
外部API連携 ×
コード実行 ×
マルチステップ推論
自律的なタスク遂行 ×

エージェント対応モデルは、単に質問に答えるだけでなく、外部ツールを呼び出し、複数のステップを自律的に実行できます。これにより、業務自動化やソフトウェア開発の自動化が実現します。

Ollamaで使えるエージェント対応モデルの進化

2025年現在、Ollamaのモデルライブラリには100以上のモデルが登録されており、その多くがエージェント機能を備えています。特に注目すべきは、NVIDIA NemotronOpenAI GPT-OSSMistral Devstralなど、エージェント用途に特化した最新モデルです。


【2025年最新】エージェント対応モデル完全ガイド

Ollamaで利用可能なエージェント対応モデルを、用途別に詳しく紹介します。

エージェント特化モデル(Tool Use / Function Calling対応)

Nemotron-3-Nano(NVIDIA)

「エージェントのための新標準」として設計された最新モデル
  • パラメータ:30B(アクティブ3.5B)
  • アーキテクチャ:ハイブリッドMoE(Mamba-2 + Attention)
  • コンテキスト100万トークン(業界最長クラス)
  • 特徴:推論トレース生成、マルチ言語対応(日本語含む)

エージェントベンチマーク:

ベンチマーク スコア 評価
SWE-Bench(OpenHands) 38.8% ソフトウェア開発タスク
BFCL v4(Function Calling) 53.8% ツール呼び出し精度
TauBench V2 49.0% エージェント総合評価
AIME25(ツール使用時) 99.2% 数学的推論
ollama run nemotron-3-nano

GPT-OSS(OpenAI)

OpenAIが公開したオープンウェイトモデル。エージェントタスクに最適化。
  • パラメータ:20B / 120B
  • コンテキスト:128Kトークン
  • ライセンス:Apache 2.0(商用利用可)

エージェント機能:

  • ネイティブFunction Calling
  • Webブラウジング(組み込み検索)
  • Pythonコード実行
  • 構造化出力生成
  • 推論努力の調整(低/中/高)

ハードウェア要件:

  • 20Bモデル:16GB VRAM(MXFP4量子化)
  • 120Bモデル:80GB VRAM
ollama run gpt-oss:20b
ollama run gpt-oss:120b

Devstral-small-2 / Devstral-2(Mistral)

ソフトウェアエンジニアリングエージェント専用モデル
  • Devstral-small-2:24B、384Kコンテキスト
  • Devstral-2:123B、マルチファイル編集対応
  • 入力:テキスト + 画像(マルチモーダル)

得意分野:

  • コードベース探索(ツール使用)
  • 複数ファイルの同時編集
  • ソフトウェア開発の自動化

ベンチマーク:

ベンチマーク Devstral-small-2
SWE-Bench Verified 65.8%
SWE-Bench Multilingual 51.6%
Terminal Bench 32.0%
ollama run devstral-small-2
ollama run devstral-2

Kimi-K2(Moonshot AI)

1兆パラメータのMoEモデル。コーディングエージェントに特化。
  • パラメータ:1兆(アクティブ32B)
  • コンテキスト:256Kトークン
  • 特徴:コーディングエージェントタスクで大幅な性能向上
ollama run kimi-k2

推論特化モデル(Reasoning Models)

QwQ(Qwen)

  • パラメータ:32B
  • コンテキスト:40Kトークン
  • 特徴:DeepSeek-R1、o1-miniに匹敵する推論性能
  • ロードマップ:エージェント統合による長期推論の実現
ollama run qwq

DeepSeek-R1

  • パラメータ:1.5B〜671B(distilled版含む)
  • コンテキスト:128K〜160Kトークン
  • 特徴:O3やGemini 2.5 Proに匹敵する推論性能
ollama run deepseek-r1:8b    # 軽量版
ollama run deepseek-r1:70b   # 高性能版

軽量Function Callingモデル

FunctionGemma(Google)

わずか270MBでFunction Callingを実現する超軽量モデル
  • パラメータ:270M
  • サイズ:301MB
  • コンテキスト:32Kトークン
  • 用途:エッジデバイス、ラップトップでのツール呼び出し

Function Callingベンチマーク:

  • 並列関数呼び出し:63.5%
  • 関連性検出:61.1%
  • 非関連検出:70.6%
ollama run functiongemma

Nemotron-mini(NVIDIA)

  • パラメータ:4B
  • コンテキスト:4Kトークン
  • 特徴:RAG QA、Function Calling、ロールプレイに最適化
  • 用途:オンデバイス展開、低レイテンシ要件
ollama run nemotron-mini

Granite 4(IBM)

  • パラメータ:350M〜32B
  • コンテキスト:最大128Kトークン
  • 特徴:エンタープライズ向けツール呼び出し強化
  • 言語:12言語対応(日本語含む)
ollama run granite4:3b
ollama run granite4:32b

エージェント対応モデル比較表

モデル パラメータ コンテキスト ツール使用 エージェント機能 推奨用途
Nemotron-3-Nano 30B (3.5B active) 1M 汎用エージェント
GPT-OSS 20B 20B 128K 商用エージェント
Devstral-small-2 24B 384K コーディングエージェント
Kimi-K2 1T (32B active) 256K コーディングエージェント
QwQ 32B 40K 複雑な推論タスク
DeepSeek-R1 8B〜671B 128K 推論・問題解決
FunctionGemma 270M 32K 軽量ツール呼び出し
Nemotron-mini 4B 4K エッジデバイス
Granite 4 350M〜32B 128K エンタープライズ

◎=非常に優れている、○=対応、△=限定的


実践:OllamaでAIエージェントを構築する

LangChain + Nemotron-3-Nano

from langchain_ollama import ChatOllama
from langchain.agents import create_tool_calling_agent, AgentExecutor
from langchain_core.tools import tool

# エージェント対応モデルを初期化
llm = ChatOllama(
    model="nemotron-3-nano",
    temperature=0
)

# ツールを定義
@tool
def search_database(query: str) -> str:
    """社内データベースを検索"""
    # 実際のDB検索ロジック
    return f"検索結果: {query}"

@tool
def send_email(to: str, subject: str, body: str) -> str:
    """メールを送信"""
    # 実際のメール送信ロジック
    return f"メール送信完了: {to}"

tools = [search_database, send_email]

# エージェントを作成
agent = create_tool_calling_agent(llm, tools, prompt)
executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

# 実行
result = executor.invoke({
    "input": "山田さんに明日の会議について確認メールを送って"
})

CrewAI + GPT-OSS

from crewai import Agent, Task, Crew
from langchain_ollama import ChatOllama

# GPT-OSSをバックエンドに
llm = ChatOllama(model="gpt-oss:20b")

# コードレビューエージェント
code_reviewer = Agent(
    role="シニアコードレビュアー",
    goal="コードの品質とセキュリティをレビュー",
    backstory="10年以上の経験を持つセキュリティエンジニア",
    llm=llm,
    tools=[code_analysis_tool, security_scanner]
)

# ドキュメント作成エージェント
doc_writer = Agent(
    role="テクニカルライター",
    goal="技術ドキュメントを作成",
    backstory="APIドキュメント専門のテクニカルライター",
    llm=llm,
    tools=[markdown_generator, api_parser]
)

# クルーを編成
crew = Crew(
    agents=[code_reviewer, doc_writer],
    tasks=[review_task, document_task]
)

result = crew.kickoff()

Devstralでソフトウェア開発を自動化

from langchain_ollama import ChatOllama

# ソフトウェアエンジニアリング特化モデル
llm = ChatOllama(
    model="devstral-small-2",
    num_ctx=384000  # 384Kコンテキスト活用
)

# コードベース全体を読み込んでバグ修正
response = llm.invoke("""
以下のPythonコードベースを分析し、
潜在的なバグを特定して修正してください。

[コードベース全体をここに挿入]
""")

ユースケース別おすすめモデル

社内FAQ・カスタマーサポートエージェント

  • 推奨モデル:GPT-OSS 20B / Granite 4 3B
  • 理由:ツール呼び出しでナレッジベース検索、回答生成
  • 必要VRAM:16GB

コードレビュー・開発支援エージェント

  • 推奨モデル:Devstral-small-2 / Kimi-K2
  • 理由:SWE-Bench高スコア、マルチファイル編集対応
  • 必要VRAM:24GB〜48GB

データ分析・レポート作成エージェント

  • 推奨モデル:Nemotron-3-Nano
  • 理由:100万トークンコンテキストで大量データ処理
  • 必要VRAM:24GB

エッジデバイス・軽量エージェント

  • 推奨モデル:FunctionGemma / Nemotron-mini
  • 理由:270MB〜4Bで動作、オンデバイス展開可能
  • 必要VRAM:4GB〜8GB

クラウドAPI vs Ollamaエージェント コスト比較

項目 GPT-4o API Claude API Ollama(GPT-OSS 20B)
初期コスト 0円 0円 GPU購入費(〜50万円)
月間コスト(10万リクエスト) 約30万円 約25万円 電気代のみ(〜1万円)
年間コスト 約360万円 約300万円 約12万円 + 初期費用
データプライバシー 外部送信あり 外部送信あり 完全ローカル
カスタマイズ 制限あり 制限あり 完全自由

試算:年間10万リクエスト以上の利用で、Ollamaは1年目から黒字化。2年目以降は年間90%以上のコスト削減が可能です。


AQUAのOllama AIエージェント構築サービス

「最新のエージェント対応モデルでAIエージェントを構築したい」「どのモデルを選べばいいかわからない」——そんな企業様をAQUAがサポートします。

AQUAのOllamaエージェント構築支援

  • モデル選定:用途・予算に最適なエージェント対応モデルを提案
  • 環境構築:オンプレミス/クラウドGPUの設計・構築
  • エージェント開発:LangChain/CrewAI等でのツール連携実装
  • RAG統合:社内ドキュメント・データベース連携
  • 運用サポート:モデル更新・パフォーマンスチューニング

低コストでのAIエージェント構築:Ollamaの最新エージェント対応モデルを活用することで、APIコスト0円で本格的なAIエージェントを実現します。

無料相談を申し込む


まとめ:エージェント対応モデルで業務自動化を実現

☑️ 2025年のOllamaは単なる推論モデルではなく、エージェント対応モデルが充実

☑️ Nemotron-3-Nano:100万トークンコンテキスト、エージェント特化設計

☑️ GPT-OSS:OpenAI公式オープンウェイト、ネイティブFunction Calling

☑️ Devstral:ソフトウェア開発エージェントに最適(SWE-Bench 65.8%)

☑️ FunctionGemma:わずか270MBでツール呼び出し可能

☑️ APIコスト0円で本格的なAIエージェント構築が可能

☑️ 機密データを外部に送信せずにAI自動化を実現

もはやAIエージェントは高額なAPIコストを払わなければ実現できないものではありません。Ollamaの最新エージェント対応モデルを活用すれば、低コストで本格的な業務自動化が可能です。

AIエージェント開発でお困りの際は、ぜひAQUAにご相談ください。

AI開発・導入のご相談はAQUA合同会社へ

「何から始めればいいか分からない」「費用感を知りたい」など、AI導入に関するご相談を無料で承っております。
大手SIerのような高額な費用は不要。経験豊富なエンジニアが直接対応します。

メール: desk@aquallc.jp

この記事をシェア