2026年2月5日、OpenAIは最新コーディングモデル「GPT-5.3-Codex」を正式リリースしました。同日にAnthropicがClaude Opus 4.6を発表したことで、メディアはこの日を「AIコーディング戦争の始まり」と報じています。
GPT-5.3-Codexの最大の衝撃は2つあります。1つは、自分自身の開発に貢献した「史上初の自己開発型AIモデル」であること。もう1つは、OpenAI史上初めてサイバーセキュリティ能力が「High(高リスク)」に分類されたことです。
本記事では、公式情報・システムカード・海外メディア・開発者レビューを徹底的に調査し、GPT-5.3-Codexの全貌を解説します。
目次
- GPT-5.3-Codexとは?基本スペックまとめ
- 「自分で自分を作ったAI」の真実
- ベンチマーク徹底比較:Claude Opus 4.6・Gemini 3 Proとの差
- OpenAI史上初「サイバーセキュリティHigh」の衝撃
- Codex CLIとは?Claude Codeとの違い
- 料金体系:API・サブスクリプション完全解説
- GPT-5.2-Codexから何が変わったのか
- OpenAI Frontierプラットフォーム
- 開発者の本音レビュー:称賛と不満
- GPT-5.3-Codex vs Claude Opus 4.6:どちらを選ぶべきか
- GPT-5.3-Codexを使うべき人・使わなくていい人
- まとめ:AIコーディング戦争の新章
1. GPT-5.3-Codexとは?基本スペックまとめ
GPT-5.3-Codexは、OpenAIが開発するGPT-5ファミリーの最新コーディング特化モデルです。従来のGPT-5.2のフロンティア推論能力と、GPT-5.2-Codexのコーディング能力を1つのモデルに統合し、さらに25%高速化を実現しました。
基本スペック一覧
| 項目 | GPT-5.3-Codex | GPT-5.2-Codex(前モデル) |
|---|---|---|
| モデルID | gpt-5.3-codex |
gpt-5.2-codex |
| リリース日 | 2026年2月5日 | 2025年 |
| コンテキストウィンドウ | 400,000トークン | 400,000トークン |
| 最大出力トークン | 128,000トークン | 128,000トークン |
| 推論速度 | 25%高速化 | ベースライン |
| トークン効率 | 前モデルの半分以下 | ベースライン |
| 自己開発 | 対応(史上初) | 非対応 |
| サイバーセキュリティ評価 | High(高リスク) | Highに未到達 |
| API料金(推定) | $1.75入力 / $14.00出力 | $1.75入力 / $14.00出力 |
注目ポイント: 同じタスクを完了するのに使うトークン数が前モデルの半分以下。SWE-Bench Proでは2.09倍少ないトークンで同等の結果を出し、推論速度も40%向上。総合的に約3倍のコスパ改善を実現しています。
利用可能なプラットフォーム
- Codexアプリ(Webインターフェース)
- Codex CLI(ターミナル)
- IDE拡張機能(VS Code等)
- ChatGPT(Plus / Pro / Business / Enterpriseプラン)
- API(数週間以内に提供開始予定)
重要: API経由のアクセスはリリース時点では未提供。OpenAIは「数週間以内」にロールアウト予定としています。
2. 「自分で自分を作ったAI」の真実
OpenAIの公式発表
OpenAIはGPT-5.3-Codexを「自分自身の開発に貢献した史上初のモデル」と位置づけています。CEOのSam Altman氏はこうコメントしました。
「5.3-Codexを使って5.3-Codexをどれだけ早く出荷できたかは驚くべきことだった。これは確実に今後のトレンドの兆しだ。」
具体的に何をしたのか
GPT-5.3-Codexの初期バージョンは、開発チームによって以下の用途に使用されました。
- トレーニングのデバッグ: 学習アルゴリズムのエラーを特定・修正。トレーニングデータの品質分析とクリーニング
- デプロイメントの管理: GPUクラスターの動的スケーリング。レイテンシの最適化。トラフィック急増時のインフラ調整
- テスト結果の診断: ベンチマーク結果の分析。パフォーマンスパターンの特定。研究者向け可視化ツールの構築
- 推論フレームワークの最適化: コンテキストレンダリングのバグ特定。キャッシュヒット率低下の根本原因分析
「自律的な自己改善」ではない
重要な点として、これはAIが自律的に自分を改善したわけではありません。人間のエンジニアがモデルの初期バージョンを「ツール」として使い、モデル自身のインフラやトレーニングコードの作業を加速させた ―― いわば高度な「ドッグフーディング(自社製品の自社利用)」です。
ただし、OpenAIのエンジニアは「わずか2ヶ月で仕事の仕方が根本的に変わった」と報告しており、AIが自身の開発プロセスを加速する時代の始まりであることは間違いありません。
3. ベンチマーク徹底比較:Claude Opus 4.6・Gemini 3 Proとの差
主要ベンチマーク一覧
| ベンチマーク | 測定内容 | GPT-5.3-Codex | Claude Opus 4.6 | GPT-5.2-Codex |
|---|---|---|---|---|
| SWE-Bench Pro | ソフトウェア工学(4言語) | 56.8% | — | 56.4% |
| SWE-Bench Verified | ソフトウェア工学 | — | 80.8% | — |
| Terminal-Bench 2.0 | ターミナル操作 | 77.3% | 65.4% | 64.0% |
| OSWorld-Verified | PC操作の自動化 | 64.7% | 72.7% | 38.2% |
| サイバーセキュリティCTF | 脆弱性攻略 | 77.6% | — | 67.4% |
| SWE-Lancer IC Diamond | 実務コーディング | 81.4% | — | 76.0% |
| GDPval | ナレッジワーク | 70.9% | 1,606 Elo | — |
| ARC-AGI-2 | 抽象推論 | — | 68.8% | — |
| GPQA Diamond | 大学院レベル推論 | — | 91.3% | — |
ベンチマーク分析:3つの重要ポイント
1. Terminal-Bench 2.0でGPT-5.3-Codexが圧勝
77.3%は、Claude Opus 4.6(65.4%)を約12ポイント引き離す圧倒的なスコアです。ターミナル操作、シェルスクリプティング、システム管理タスクではGPT-5.3-Codexが明確に優位です。
2. OSWorldではClaude Opus 4.6がリード
PC操作の自動化ベンチマークでは、Claude Opus 4.6が72.7%で人間のベースライン(約72%)に匹敵。GPT-5.3-Codexは64.7%で大幅改善(前モデル38.2%から+26.5ポイント)ですが、まだClaudeに及びません。
3. SWE-Benchの比較には注意が必要
OpenAIはSWE-Bench Pro(56.8%)を、AnthropicはSWE-Bench Verified(80.8%)を報告しています。これらは異なるベンチマークであり、直接比較はできません。SWE-Bench Proは4言語対応でより現実的ですが、Verifiedとは問題セットが異なります。
OpenAIが報告しなかったベンチマーク
注目すべきは、OpenAIがARC-AGI-2、GPQA Diamond、AIME 2025、Humanity’s Last ExamなどのスコアをGPT-5.3-Codexについて公表していないことです。これらはClaude Opus 4.6が強い分野であり、選択的な報告である可能性があります。
4. OpenAI史上初「サイバーセキュリティHigh」の衝撃
何が起きたのか
GPT-5.3-Codexは、OpenAIのPreparedness Framework(準備体制フレームワーク)において、サイバーセキュリティ分野で「High(高リスク)」に分類された史上初のOpenAIモデルです。
Sam Altman氏自身が「サイバーセキュリティに関して準備体制フレームワークの『高』に達した初のモデル」と認めています。
「High」の定義
OpenAIのフレームワークでは、「High」は以下のように定義されています。
「十分に防御されたターゲットに対するエンドツーエンドのサイバー作戦を自動化するか、運用上重要な脆弱性の発見と悪用を自動化することで、サイバー作戦のスケーリングにおける既存のボトルネックを除去する能力」
具体的に何ができるのか
システムカードに記載された能力は以下の通りです。
- バイナリ逆解析: コンパイル済みプログラムのリバースエンジニアリングと脆弱性特定
- 自律的エクスプロイト生成: 発見した脆弱性に対する攻撃コードの作成
- エンドツーエンドの攻撃チェーン: バイナリの特定→逆解析→サーバーの悪用→リモートコード実行を、人間のステップバイステップの指示なしで完了
- 長時間の自律運用: 数時間〜数日にわたるセキュリティ目標への自律的な作業
OpenAIの安全対策
「High」分類に伴い、OpenAIは「過去最も包括的なサイバーセキュリティ安全対策」を導入しました。
| 対策 | 内容 |
|---|---|
| 安全性トレーニング | クレデンシャル窃取、マルウェア作成/展開、データ窃取、無許可テストを明示的に拒否するよう訓練 |
| 自動モニタリング | 疑わしいサイバー活動をリアルタイムで検出する分類器ベースの監視 |
| Trusted Access for Cyber | 3段階の信頼アクセスプログラム(個人認証 / 企業SOC / 招待制研究者) |
| API提供の遅延 | 大規模自動化を防ぐため、完全なAPIアクセスを即座に提供せず段階的にロールアウト |
| $1,000万のAPI無料枠 | サイバーセキュリティ助成プログラムを通じて、防御側のチームにAPI利用枠を提供 |
Claude Opus 4.6のゼロデイ発見との違い
同日リリースのClaude Opus 4.6が500件以上のゼロデイ脆弱性を発見(防御的アプローチ)したのに対し、GPT-5.3-Codexは攻撃チェーンの自動化能力(攻撃的ポテンシャル)が問題視されています。
2つのモデルは、サイバーセキュリティに対して正反対のアプローチで注目を集めました。Anthropicは「脆弱性を見つけて責任ある開示を行った」、OpenAIは「攻撃を自動化できる能力を認め、前例のないアクセス制限を導入した」のです。
5. Codex CLIとは?Claude Codeとの違い
Codex CLI概要
Codex CLIは、OpenAIが公開するオープンソースのターミナルベースコーディングエージェントです。97.6%がRustで記述されており、高速かつ効率的に動作します。
- インストール:
npm i -g @openai/codexまたはbrew install --cask codex - ソースコード: GitHub(MIT License)
- 対応OS: macOS、Linux(Windowsは実験的サポート)
- 認証: ChatGPTアカウントまたはAPIキー
Codex CLI vs Claude Code 比較
| 項目 | Codex CLI | Claude Code |
|---|---|---|
| ソースコード | オープンソース(GitHub公開) | クローズドソース |
| 実装言語 | Rust(97.6%) | 非公開 |
| 開発哲学 | 「素早く動いてイテレーション」 | 「二度測って一度切る」 |
| 操作スタイル | リアルタイムで途中から方向転換可能 | 質問で確認してから着手 |
| クラウド実行 | 対応(クラウドタスク委任) | ローカル中心 |
| MCP対応 | 対応(MCPサーバーとしても動作) | 対応(サブエージェント、カスタムフック) |
| コンテキスト | 400Kトークン | 200K(Opus 4.6で1Mベータ) |
| 最低月額 | $20(Plus) | $20(Pro)/ $100(Max) |
| コード品質 | 高速だが手直し必要な場合あり | より洗練された保守性の高いコード |
| 得意分野 | ターミナル操作、バックエンド、セキュリティ | 大規模リファクタリング、抽象推論、フロントエンド |
主な機能
- 対話型コーディング: フルスクリーンTUI(Terminal User Interface)でリポジトリの読み取り、ファイル編集、コマンド実行
/reviewコマンド: 作業ツリーを変更せずにコードレビュー- Web検索: OpenAIのインデックスキャッシュまたはライブ検索結果
- 画像入力: デザインスペックのスクリーンショットを添付可能
- セッション再開:
codex resume --lastで前回のセッションを継続 - 非対話モード:
codex execでスクリプトからの自動実行
6. 料金体系:API・サブスクリプション完全解説
ChatGPTサブスクリプションプラン
| プラン | 月額 | GPT-5.3-Codex | ローカルメッセージ/5時間 | クラウドタスク/5時間 | コードレビュー/週 |
|---|---|---|---|---|---|
| Free | 無料 | 利用不可 | — | — | — |
| Go | $8 | 利用不可 | — | — | — |
| Plus | $20 | 利用可能 | 45〜225 | 10〜60 | 10〜25 |
| Pro | $200 | 優先アクセス | 300〜1,500 | 50〜400 | 100〜250 |
| Business | $25〜30/人 | 利用可能 | 45〜225 | 10〜60 | 10〜25 |
| Enterprise | 要問合せ | フルアクセス | クレジットに準拠 | クレジットに準拠 | クレジットに準拠 |
重要: GPT-5.3-Codexを使う最低コストはChatGPT Plus($20/月)です。無料プランとGoプランでは利用できません。
API料金(参考:GPT-5.2-Codex準拠)
GPT-5.3-CodexのAPI料金はリリース時点で未発表ですが、前モデルのGPT-5.2-Codexと同価格帯になると見られています。
| モデル | 入力/100万トークン | キャッシュ入力 | 出力/100万トークン |
|---|---|---|---|
| GPT-5.3-Codex(推定) | $1.75 | $0.175(90%割引) | $14.00 |
| GPT-5.2 / GPT-5.2-Codex | $1.75 | $0.175 | $14.00 |
| GPT-5.2 Pro | $21.00 | — | $168.00 |
| GPT-5 / GPT-5.1 | $1.25 | $0.125 | $10.00 |
| GPT-5-mini | $0.25 | $0.025 | $2.00 |
Claude Opus 4.6との料金比較
| GPT-5.3-Codex(推定) | Claude Opus 4.6 | 差額 | |
|---|---|---|---|
| 入力/100万トークン | $1.75 | $5.00 | Opus 4.6が約2.9倍高い |
| 出力/100万トークン | $14.00 | $25.00 | Opus 4.6が約1.8倍高い |
| 1日の想定コスト(10M入力+2M出力) | 約$45.50 | 約$100.00 | Opus 4.6が約2.2倍高い |
API料金だけで比較すると、GPT-5.3-CodexはClaude Opus 4.6の約半額以下で利用可能です。ただし、トークン効率の改善により、同じタスクでの消費トークン数はGPT-5.3-Codexの方が少なくなるため、実質的なコスト差はさらに広がります。
7. GPT-5.2-Codexから何が変わったのか
主な改善点
| 改善点 | GPT-5.2-Codex | GPT-5.3-Codex | 改善幅 |
|---|---|---|---|
| Terminal-Bench 2.0 | 64.0% | 77.3% | +13.3ポイント |
| OSWorld-Verified | 38.2% | 64.7% | +26.5ポイント |
| サイバーセキュリティCTF | 67.4% | 77.6% | +10.2ポイント |
| SWE-Lancer IC Diamond | 76.0% | 81.4% | +5.4ポイント |
| 推論速度 | ベースライン | 25%高速 | — |
| トークン消費 | ベースライン | 半分以下 | 2倍以上効率化 |
開発者体験の改善
- リンティングループの削減: 前モデルで問題だった無限リントエラー修正ループが大幅に減少
- Deep Diffs: コードパッチの変更理由を詳細に説明する機能を強化
- 早期完了の抑制: テストが不安定な場合に早まって「完了」と判断する問題を改善
- Interactive Steering: タスク実行中にコンテキストを失わずに方向転換可能(設定 > 一般 > フォローアップ動作で設定)
- Web/フロントエンド生成: プロンプトからプロダクション品質のWebサイトを自動生成
8. OpenAI Frontierプラットフォーム
GPT-5.3-Codexと同時に発表されたFrontierは、エンタープライズ向けのAIエージェント管理プラットフォームです。
主な特徴
- AIエージェントに「従業員ID」を付与: スコープされた権限で業務を遂行
- 自然言語でエージェント設定: ChatGPTライクなインターフェースでカスタマイズ
- CRM・データウェアハウスと統合: 統一「セマンティックレイヤー」で社内システムにアクセス
- カスタムスキル・メモリ構築: エージェントが業務知識を蓄積
- 監査ログ・パフォーマンスダッシュボード: エンタープライズ向けガバナンス
セキュリティ認証: SOC 2 Type II、ISO/IEC 27001/27017/27018/27701、CSA STAR認証済み。
初期導入企業: Oracle、HP、State Farm、Uber。一般提供は今後数ヶ月以内に拡大予定です。
これはAIエージェントのエンタープライズ導入を加速するプラットフォームとして注目されています。
9. 開発者の本音レビュー:称賛と不満
称賛の声
- Every.to(Dan Shipper): 「タスク完了速度はClaude Opus 4.6より約25%速い。コードはクリーンで整理されており、テストで最高品質」
- Naveen Naidu(開発者): 「デザインリニューアルタスクをビルドエラーゼロで完了。Claudeにはビルドエラーが数件あった」
- Hacker Newsユーザー: 「GPT-5.2-Codexと通常の5.2が何日も堂々巡りしていた3つの問題を、5.3-Codexが一発で修正した」
- Sam Altman: 「このモデルでの開発が大好き。ベンチマークが示す以上の進歩を感じる」
批判の声
- Every.to(同レビュー): 「Claude Opus 4.6はリトライなしでの成功率が約2倍高い。Codexは一貫性にムラがある」
- Analytics Vidhya: 「Text to 3Dシーンジェネレーターは機能するがイテレーションが必要。開発者として『とても満足』とは言えない」
- Hacker News開発者: 「*-codexバリアントよりベースのGPT-5.2 Highモデルの方が好み」
- ファイル削除の報告: リファクタリング中にファイルを削除して書き直す際、重要な詳細が欠落するケースが報告されている
使い分けのコンセンサス
開発者コミュニティで形成されつつあるコンセンサスは以下の通りです。
- GPT-5.3-Codex: 明確な仕様のタスク、ターミナル操作、バックエンド開発、高速イテレーション
- Claude Opus 4.6: 曖昧な要件の探索的開発、大規模リファクタリング、フロントエンドデザイン、長時間の自律作業
10. GPT-5.3-Codex vs Claude Opus 4.6:どちらを選ぶべきか
GPT-5.3-CodexとClaude Opus 4.6は同日(2026年2月5日)にリリースされました。Claude Opus 4.6の詳細はClaude Opus 4.6完全ガイドで解説しています。
| 比較項目 | GPT-5.3-Codex | Claude Opus 4.6 | 勝者 |
|---|---|---|---|
| ターミナル操作 | 77.3% | 65.4% | GPT-5.3-Codex |
| PC操作自動化 | 64.7% | 72.7% | Claude Opus 4.6 |
| 抽象推論 | 未公表 | 68.8%(ARC-AGI-2) | Claude Opus 4.6 |
| セキュリティCTF | 77.6% | — | GPT-5.3-Codex |
| コンテキスト | 400K | 200K(1Mベータ) | 引き分け |
| 推論速度 | 25%高速化 | — | GPT-5.3-Codex |
| トークン効率 | 前モデルの半分以下 | — | GPT-5.3-Codex |
| API料金 | $1.75 / $14.00 | $5.00 / $25.00 | GPT-5.3-Codex(約半額) |
| CLIツール | Codex CLI(OSS) | Claude Code | 好みによる |
| マルチエージェント | Frontierプラットフォーム | Agent Team(プレビュー) | 引き分け |
| リトライなし成功率 | 中程度 | 高い(約2倍) | Claude Opus 4.6 |
結論
- コスト重視・速度重視 → GPT-5.3-Codex: API料金が約半額で、推論速度も25%速い。明確な仕様のタスクを高速に処理したい場合に最適
- 品質重視・信頼性重視 → Claude Opus 4.6: リトライなしでの成功率が約2倍高く、大規模プロジェクトの自律作業に強い。Claude Code vs Codexの詳細比較も参照
- 最適解は「両方使う」: 多くの開発者が、タスクの性質に応じて使い分けるハイブリッドアプローチを採用しています
AIモデル全般の比較についてはChatGPT vs Claude vs Gemini 徹底比較も参照してください。
11. GPT-5.3-Codexを使うべき人・使わなくていい人
使うべき人
- バックエンド開発者: Terminal-Bench 77.3%が示すターミナル操作能力は業界最強
- コスパを重視する開発者: Claude Opus 4.6の約半額で、トークン効率も2倍以上
- セキュリティ研究者: CTF 77.6%の脆弱性分析能力。Trusted Access for Cyberプログラムに登録すれば高度な機能も利用可能
- 高速イテレーションが必要な場面: 25%の速度向上とInteractive Steeringで素早く方向転換可能
- 既にChatGPT Plusに加入している人: 追加コストなしでGPT-5.3-Codexを利用可能
Claude Opus 4.6やSonnetで十分な人
- 曖昧な要件の探索的開発: Claude Opus 4.6の方が「考えてから行動する」スタイルで信頼性が高い
- 大規模リファクタリング: Agent Teamと100万トークンコンテキストの組み合わせはClaudeが優位
- フロントエンドデザイン: 開発者レビューでClaude Codeの方がUIデザインの出力品質が高いと報告
- 学術研究・複雑な推論: GPQA Diamond 91.3%のClaude Opus 4.6が明確に優位
12. まとめ:AIコーディング戦争の新章
2026年2月5日は、AI業界にとって歴史的な日となりました。OpenAIとAnthropicがわずか20分差でそれぞれの最新モデルをリリースし、「AIコーディング戦争」が本格化したのです。
GPT-5.3-Codexの5つの核心
- 自己開発: 自身の開発に貢献した史上初のOpenAIモデル
- 3倍のコスパ: 半分のトークン × 25%高速 × 同価格
- Terminal-Bench首位: 77.3%で全AIモデル中最高のターミナル操作能力
- サイバーセキュリティHigh: OpenAI史上初の高リスク分類と前例のない安全対策
- コーディング×推論の統合: コード専門能力とプロフェッショナル推論を1モデルに
2026年のAIコーディング市場は「1つのツールで全て」の時代から、タスクの性質に応じて最適なモデルを選ぶ時代へ移行しています。GPT-5.3-Codexは、そのポートフォリオの中で不可欠な選択肢となるでしょう。
GPT-5.2/Sora 2/Codex完全ガイドとあわせて、OpenAIエコシステム全体の理解にご活用ください。
参考文献:
- Introducing GPT-5.3-Codex – OpenAI公式
- GPT-5.3-Codex System Card – OpenAI
- Trusted Access for Cyber – OpenAI
- Codex Pricing – OpenAI Developers
- Codex CLI – GitHub
- OpenAI GPT-5.3-Codex Warns of Unprecedented Cybersecurity Risks – Fortune
- AI Coding Wars Heat Up – VentureBeat
- OpenAI Says New Codex Model Helped Build Itself – NBC News
- GPT-5.3 Codex: The 10x Engineer – Every.to
- OpenAI Frontier – エンタープライズAIエージェントプラットフォーム