2026年3月6日時点 / 公式ソース確認済み / ChatGPT・API・Codexを分けて評価
GPT-5.4は「新モデルが出た」で終わる話ではない。AIが“答える道具”から“仕事を進める実務OS”へ寄った転換点だ
先に結論を書くと、GPT-5.4は現時点でOpenAIの“professional work”本命モデルです。ただし、「どんな用途でも最強」と雑に書くと記事の質が落ちます。実際には、知的作業の総合戦ではGPT-5.4が強く、端末中心の純コーディングや一部ベンチではGPT-5.3-Codexにまだ分がある。さらに、GPT-5.4 Proは常に通常版より上とは限らない。この記事では、その微妙な差まで含めて、仕事でどう使い分けるべきかを整理します。
- 公開日: 2026年3月5日
- 展開先: ChatGPT、API、Codex
- 強み: 知識労働、computer use、tool search、長いワークフロー
- 注意点: API料金は高め。ChatGPT課金とAPI課金は別物。純コーディングは比較が必要
この記事の読みどころ
- GPT-5.4の強みを「仕事の種類」ベースで判断できる
- GPT-5.4 Pro と GPT-5.3-Codex をどう比較すべきか分かる
- ChatGPT課金とAPI課金の違いが整理できる
- 30分で価値を見極める実務テスト手順まで分かる
1. 現時点の結論
2026年3月5日に公開されたGPT-5.4は、OpenAIが公式に「professional workのための最も有能なモデル」として打ち出した新フロンティアモデルです。ChatGPT、API、Codexにまたがって提供され、知識労働、computer use、tool search、長い文脈を伴う複合タスクで強さを発揮します。
ただし、高品質な解説記事にするなら、ここで持ち上げすぎてはいけません。GPT-5.4は強いですが、すべての場面で単純上位互換ではありません。OpenAIの比較表でも、Terminal-Bench 2.0ではGPT-5.3-Codexが75.1%のGPT-5.4を上回る77.3%を記録しています。つまり、この記事で本当に重要なのは「何がすごいか」ではなく、どの仕事で、どのプラン/モデルを選ぶべきかです。
私の現時点の結論は次の通りです。
- 実務総合力で選ぶならGPT-5.4
- とにかくコードと端末に寄せるなら、GPT-5.3-Codex比較はまだ必要
- 修正コストの高い重要文書や難問だけGPT-5.4 Proを使う
- ChatGPT課金とAPI課金を混ぜて語らない
2. GPT-5.4で本当に変わったこと
GPT-5.4のアップデートを一言でまとめるなら、「一問一答に強いモデル」から「長い仕事をやり切るモデル」へ寄ったことです。OpenAIの製品発表には、その変化がかなりはっきり出ています。
知識労働に寄った
GPT-5.4は、文書、表計算、プレゼン、調査、法務・財務・分析のような“ホワイトカラー実務”を強く意識したモデルです。OpenAIは、投資銀行アナリスト相当の表計算タスクで87.3%、GDPvalで83.0%という数字を出しています。これは、ただ賢いというより、使える仕事の形に落とし込む力を重視していることの表れです。
computer useがネイティブになった
GPT-5.4は、OpenAIの一般用途モデルとして初めてネイティブのcomputer useを搭載しました。これは単なる付加機能ではありません。ブラウザやソフトウェア画面を読み取り、状態を追いながら操作を続ける能力は、エージェントの現実運用に直結します。
tool searchが入った
ツール定義を最初から全部プロンプトに詰め込む従来方式では、ツール数が増えるほどコストと遅延が増え、文脈も汚れます。GPT-5.4のtool searchは、必要なときだけツール定義を引く発想です。OpenAIはこの方式で、同じ精度のまま総トークン使用量を47%削減したと報告しています。
長文・長期タスクの設計が明確になった
API docsでは、gpt-5.4 と gpt-5.4-pro は1,050,000コンテキスト、128,000出力に対応しています。ここまで来ると、仕様書、議事録、分析メモ、既存ドキュメント、過去会話をまとめて渡した上で、長い仕事を一貫して進める設計が見えてきます。
ChatGPT側の使い勝手も変わった
ChatGPTのGPT-5.4 Thinkingは、長く難しいタスクで最初に進め方を示し、途中で方向修正しやすい設計に寄っています。これは地味に大きい。高性能モデルの価値は“勝手に考えること”ではなく、人のレビューと軌道修正に付き合えることだからです。
3. ベンチマークをどう読むべきか
GPT-5.4の記事でありがちな失敗は、数字を羅列して終わることです。大事なのは、どの数字が“仕事の成果”に近いかです。
| 領域 | 指標 | GPT-5.4 | 比較対象 | 読み方 |
|---|---|---|---|---|
| 知識労働 | GDPval | 83.0% | GPT-5.2: 70.9% | 資料・分析・文書作成の総合戦で強い |
| 表計算 | Investment Banking Modeling Tasks | 87.3% | GPT-5.2: 68.4% | スプレッドシート実務に強化が入っている |
| computer use | OSWorld-Verified | 75.0% | 人間: 72.4% / GPT-5.2: 47.3% | UI操作系エージェントの現実味が増した |
| 調査 | BrowseComp | 82.7% | GPT-5.2: 65.8% | Webを横断して探す仕事が強い |
| ツール実行 | Toolathlon | 54.6% | GPT-5.2: 45.7% | 多段ツール実行で前世代より前進 |
| コーディング | SWE-Bench Pro | 57.7% | GPT-5.3-Codex: 56.8% | 総合モデルとしてはかなり強い |
特に重いのは、GDPval、OSWorld-Verified、BrowseCompです。なぜなら、この3つはそれぞれ成果物の質、UIをまたぐ実行力、Web上の難しい調査を見ているからです。現場で効くかどうかを測るなら、抽象的な学力テストよりこちらが重要です。
さらに注目したいのは、OpenAIがGPT-5.4を「最も事実性が高いモデル」と位置づけている点です。ユーザーが誤りを指摘した匿名プロンプト群に対して、GPT-5.2比で個別主張の誤りが33%減り、回答全体が誤りを含む割合も18%減ったとされています。情報発信や業務文書では、この差はかなり大きいです。
4. それでも万能最強ではない理由
ここをきちんと書けるかどうかで、記事の信頼性は大きく変わります。GPT-5.4は強いですが、OpenAI自身の比較表でも、全面勝利にはなっていません。
Terminal-Bench 2.0ではGPT-5.3-Codexが上
Terminal-Bench 2.0は、端末中心の実行や修正に寄った評価として読みやすい指標です。このベンチでは、GPT-5.4が75.1%なのに対し、GPT-5.3-Codexは77.3%です。つまり、「実装と端末の往復だけを最適化したい」なら、まだ5.3-Codex比較の余地があります。
GPT-5.4 Proも“何でも上”ではない
Proという名前を見ると、通常版の完全上位互換だと思いがちです。しかし、GPT-5.4 Proは常に通常版より上とは限りません。OpenAIの表では、GDPvalでGPT-5.4が83.0%、GPT-5.4 Proが82.0%です。投資銀行モデリング系の内部評価でも、通常版87.3%に対してProは83.6%です。
逆に、BrowseCompではProが89.3%で通常版82.7%を大きく上回ります。ここから分かるのは、Proは“何でも万能”ではなく、深い思考や執拗な探索が効く問題で真価を出しやすいということです。
公開直後のドキュメント差分もある
ここは少し注意が必要です。2026年3月6日時点で、ChatGPTの料金ページには一部でGPT-5.2表記が残っている一方、GPT-5.4の製品発表ではPlus/Team/Proへのロールアウトが明記されています。私はこの点について、モデル提供状況は発売告知の方を優先して読むべきと考えています。これは公式同士の差分からの推論です。
5. どの仕事で一番効くか
GPT-5.4の価値は、複数の工程がつながっている仕事で最大化されます。単発の要約や短い雑談だけなら、ここまでの性能は不要です。
| 職種・役割 | GPT-5.4が効く場面 | 理由 |
|---|---|---|
| 経営企画・事業企画 | 競合調査、論点整理、資料化、意思決定メモ | 調査からアウトプットまでを一貫して進めやすい |
| オペレーション | 管理画面操作、チェック業務、手順実行 | computer useでUI操作系の自動化余地が広がる |
| アナリスト | スプレッドシート、数表解釈、文書横断 | 表計算・長文・整合確認の改善が目立つ |
| 法務・バックオフィス | 契約・規程・要件整理 | 長文文書をまたぐ精度と事実性の改善が効く |
| 編集・マーケ | 構成、リサーチ、比較記事、差別化ポイント抽出 | Web探索と長文再構成の相性が良い |
特に強いのは、「調べる」「考える」「整える」「必要なら触る」という工程が連続する仕事です。今までのLLMは、このうち2つくらいは得意でも、全部を高水準で一貫させるのが苦手でした。GPT-5.4はそこを埋めに来ています。
6. 開発者は何をどう使い分けるべきか
開発者視点では、GPT-5.4を一つの万能モデルとして扱うより、仕事の粒度ごとに使い分ける方が正解です。
- 仕様整理から実装まで一気通貫: GPT-5.4
- 修正コストの高い重要な設計・レビュー・意思決定メモ: GPT-5.4 Pro
- 端末中心の純コーディング、長い実装修正、CLI主体: GPT-5.3-Codex比較
GPT-5.4はSWE-Bench ProでGPT-5.3-Codexをわずかに上回っていますが、Terminal-Bench 2.0では逆転しています。つまり、コードを読む・調べる・設計する・画面も触るならGPT-5.4の総合力が光る一方、端末と差分に張り付くタスクではCodex系の優位が残る、という理解が実務的です。
OpenAIのAPI docsでも、GPT-5.4はcomputer use、hosted shell、apply patch、skills、tool search、MCPをサポートしています。一方でGPT-5.4 ProはResponses API専用で、code interpreterやhosted shell、skillsは非対応です。Proは“全部入り上位版”ではなく、深く考えるための高価な特化版です。
7. ChatGPTのプランと日本円の見方
まず大前提として、ChatGPTのサブスク料金とAPI料金はまったく別です。ChatGPTはプラン課金、APIは従量課金です。この区別を曖昧にすると、記事も判断もすぐ雑になります。
OpenAIの公開情報では、2026年1月16日のChatGPT Go発表時点で、個人向けの主要プランはGo $8、Plus $20、Pro $200と案内されています。2026年3月6日時点のChatGPT pricingページでも、Plusは月額20ドル、Proは月額200ドルとして表示されています。
一方で、OpenAIの公開料金ページは主にドル表示です。日本語の料金ページや実際の購入画面では、通貨・税・地域条件に応じて見え方が変わる場合があります。日本円ベースで判断したい読者向けに、国内表示の参考値として次のように整理しておくと分かりやすいです。
| ChatGPTプラン | 日本円の参考表示 | 向いている人 |
|---|---|---|
| Go | 1,400円 | まず低コストで常用したい人 |
| Plus | 3,000円 | 個人で仕事に本格導入したい人 |
| Pro | 30,000円 | 最高レベルのアクセスを業務で回収できる人 |
| Plus年額(表示がある場合) | 30,000円 | 年間で固定して使う前提の人 |
この日本円表記は、国内の実際の表示価格や請求条件を前提に判断するための参考値として読むのが安全です。最終的な請求額は、申込画面、ストア、税、地域設定で変わり得ます。公開記事では、ドル建ての公式料金と、国内表示の参考値を混ぜて断定しない方が信頼性は上がります。
モデル提供状況も整理しておきます。GPT-5.4の製品発表では、GPT-5.4 Thinkingは2026年3月5日からPlus / Team / Pro向けに提供開始、GPT-5.4 ProはProとEnterprise向け、そしてGPT-5.2 Thinkingは2026年6月5日に退役予定と明記されています。
8. API料金と設計上の注意点
API側の判断は、ChatGPTよりはるかにシビアです。理由はシンプルで、性能の差がそのままコスト差になるからです。
| APIモデル | 入力 | Cached input | 出力 | 注記 |
|---|---|---|---|---|
gpt-5.4 |
$2.50 / 1M | $0.25 / 1M | $15 / 1M | 標準主力。computer use / MCP / tool search 対応 |
gpt-5.4-pro |
$30 / 1M | – | $180 / 1M | Responses API only。時間がかかる重い推論向け |
この料金差はかなり大きいです。単純比較で、GPT-5.4 Proの入力単価はGPT-5.4の12倍、出力単価も12倍です。したがって、「最も良いモデルだから全部Proで」という設計は、よほど高付加価値でない限り雑です。
さらに見落としやすいのが、1.05Mコンテキスト対応モデルでは、272K入力トークンを超えると入力2倍・出力1.5倍の料金倍率がかかることです。長文ログや巨大RAGをそのまま毎回渡す設計は、精度以前にコスト事故の原因になります。
もう一つ大事なのは、GPT-5.4 ProはResponses API専用だという点です。しかもdocsには、一部リクエストが数分かかる可能性があるためbackground modeを使うよう推奨とあります。つまりProは、「レスポンス速度より精度」「即時対話より非同期処理」に向いたモデルです。
設計判断を一言でまとめるならこうです。
- 通常業務の主力は
gpt-5.4 - 極端に重要な難問だけ
gpt-5.4-pro - 大規模ツール群では tool search を前提にする
- 長文入力は272K超のコスト倍率を監視する
9. 30分で価値を見極める評価手順
最高品質の記事は、「すごいらしい」で終わりません。実際にどう評価すべきかまで落とします。GPT-5.4を試すなら、次の4本で十分です。
- 調査+要約: 最新性が必要なテーマを調べさせ、結論、変化点、リスク、出典を1回で出させる
- 長文再構成: 仕様書や議事録を渡し、実行計画、リスク、未確定点までまとめさせる
- UI/操作系: 画面や管理フローを想定し、成功判定条件と失敗検知まで含めて手順を出させる
- 開発タスク: 要件整理、実装方針、差分案、検証項目まで一気通貫で出させる
プロンプト例も置いておきます。
あなたは実務用のアシスタントです。
テーマ: [トピック]
目的: 意思決定に使える要約がほしい
出力:
1. Bottom line(3文)
2. 何が変わったか / 変わっていないか
3. 実務への影響
4. 誤読しやすい点
5. 信頼できる出典3本
私はこのタスクを1回で前に進めたいです。
Context: [背景]
Constraints: [制約]
Do this in one pass:
- 本当に必要なときだけ質問
- 実行計画
- 最初の成果物
- 検証項目
- 失敗ポイント
このテストで見るべきなのは、単純な文章のうまさではありません。
- 途中で論点がぶれないか
- 長い文脈を保てるか
- 実行・検証の観点があるか
- 手戻りが減るか
ここで差が出るなら、GPT-5.4はあなたの仕事に効く可能性が高いです。
10. GPT-5.2 Thinkingからの移行チェックリスト
GPT-5.2 Thinkingを使っていた人は、2026年6月5日 までに次を確認しておくべきです。
- モデル名を固定している箇所はないか
- 長文プロンプトがコスト過大になっていないか
- tool use / search / computer use 前提のワークフローに置き換えられないか
- 「何度も往復して詰める」運用を、「最初から計画付きで出す」運用に変えられないか
- 純コーディング部分だけはCodex系の比較を残すべきではないか
特に、従来のThinking運用は「深く考える」こと自体に価値を置きがちでした。しかしGPT-5.4で本当に効くのは、深く考えた結果をどう実行・検証・完遂するかです。運用設計の主語を“思考”から“完了”へ寄せ直すと、導入効果が出やすくなります。
11. 記事制作者・情報発信者にとっての意味
情報発信側から見ると、GPT-5.4の価値はかなり大きいです。高品質な記事は、文章力だけで決まりません。テーマ設定、競合とのズレ、事実確認、最新情報の吸い上げ、反証、構成、表や図への変換まで含めてはじめて品質が上がります。
GPT-5.4は、特に次のような記事と相性が良いです。
- 新モデルや新制度の比較解説
- 「誰に向いているか」を判断させる買い物・導入記事
- 最新情報と既存知識を統合する分析記事
- 図表や箇条書きへの再構成が重要な実務記事
逆に、ここで差がつくのは「AIに書かせたか」ではありません。AIにどこまで編集工程を持たせるかです。GPT-5.4は、調査、論点整理、比較、反証、構成再設計まで寄せやすいので、浅い量産記事より、今回のような“判断を伴う解説記事”に向いています。
この観点で見ると、GPT-5.4を扱う記事自体も、ただの速報では弱いです。最高品質を狙うなら、何が変わったかより、どう判断すべきかまで踏み込む必要があります。
12. 結論
GPT-5.4の本質は、OpenAIがAIを「答えるモデル」から「仕事を進めるモデル」へ一段進めたことにあります。知識労働、computer use、tool search、長い文脈、コーディングが一つの仕事の流れとして繋がり始めました。
その一方で、高品質な評価をするなら次の3点を同時に書くべきです。
- GPT-5.4は総合力で非常に強い
- GPT-5.3-Codexが依然強い領域もある
- GPT-5.4 Proは高価で、常に通常版より上とは限らない
つまり結論は、「GPT-5.4が最強」ではありません。GPT-5.4によって、AIの最適配置を“仕事の種類”で考える時代がさらに進んだ、です。
もし今の仕事が、調査、構成、執筆、表計算、UI操作、実装、レビューのように複数工程でできているなら、GPT-5.4は一度本気で試す価値があります。逆に、用途が短い会話や単純なコード補完に偏るなら、プランもモデルももっと冷静に選んだ方がいい。そこまで含めて判断できて、初めてこのモデルの価値が見えます。