1. 概要と位置づけ
Mythos(内部コードネーム:Capybara)は、Anthropicが2026年4月7日に限定リリースした史上最強クラスのAIモデルです。
Claude Opus 4.6を大幅に上回る性能を持ち、特にagentic能力(自律的タスク実行)とサイバーセキュリティ分野で劇的な進化を遂げています。
最大の特徴:ソフトウェアの未知の脆弱性(ゼロデイ)を大量発見し、実際に動作するエクスプロイトコードを自律的に作成できる点。
2. 主要ベンチマーク比較
| ベンチマーク |
Mythos |
Opus 4.6 |
向上幅 |
| SWE-bench Verified(実世界バグ修正) |
93.9% |
80.8% |
+13.1pt |
| SWE-bench Pro |
77.8% |
53.4% |
+24.4pt |
| Cybench(サイバーCTF) |
100% |
大幅下回る |
劇的向上 |
| GPQA Diamond(PhDレベル推論) |
94.6% |
91.3% |
+3.3pt |
| Terminal-Bench 2.0 |
82.0% |
65.4% |
+16.6pt |
3. サイバーセキュリティ能力(核心)
ゼロデイ脆弱性発見能力
- 数週間で数千件の未知脆弱性を発見
- 対象:Linux / Windows / macOS / FreeBSD / OpenBSD など全主要OS
- ブラウザ(Firefoxなど)、FFmpeg、Linuxカーネルなども対象
- 例:OpenBSDの27年前の脆弱性、FFmpegの16年前のH.264脆弱性
エクスプロイト作成能力
- Firefox JavaScriptエンジンで181回のワーキングエクスプロイトを生成(Opus 4.6はわずか2回)
- 高度テクニック:JIT heap spray、20-gadget ROPチェーン、KASLRバイパス、サンドボックス脱出など
- 複数脆弱性のチェイニング攻撃を自律的に実行可能
注意:この能力は「防御目的での限定利用」のために厳格に管理されています。一般公開は行われておらず、Project Glasswingプログラムでのみ提供されています。
4. 動作形態と制限
- Agentic Harness:コード実行環境内で自律的にソースコード解析 → 仮説立案 → PoC作成までを実行
- 単一の初期プロンプトだけで人間の介入なしに長時間動作可能
- 現在は約50組織に限定提供(日本展開は米ホワイトハウスが慎重姿勢)
- 価格:$25〜$125 / million tokens(高額設定)
5. 安全性評価
AnthropicはMythosを「これまでで最も良くアライメントされたモデル」と評価していますが、dual-use(両用性)が極めて高いため、以下のように厳格管理されています。
- 一般公開なし
- Microsoft、Apple、Google、CrowdStrikeなどと共同で防御用途のみ利用
- 発見した脆弱性は責任ある開示(Responsible Disclosure)でパッチ化を支援