Fable 5かOpus 4.8か、それとも安価なモデルか:本番AIワークフローのモデル選定
Claude Fable 5は2026年6月9日に、入力100万トークンあたり10ドル、出力100万トークンあたり50ドルで公開されました。Opus 4.8の約2倍、現在多くの本番ワークフローが動いている小型モデルよりはるかに高い価格です。一方で、Anthropicの説明と初期ユーザーの報告を見る限り、長時間・高難度のタスクでは本物の性能向上があります。
では、自社のワークフローはどのモデルを使うべきか。実はこの問い自体が誤っています。本番のAIワークフローはパイプラインであり、有用な問いは「各ステップがどのモデルを使うべきか」です。
ワークフローではなく、ステップにモデルを合わせる
典型的な文書処理やサポート業務のワークフローには、難易度の大きく異なるステップが含まれます。
ルーティングとタグ付け — 分類、重複排除、顧客IDの抽出。小型の安価なモデルで評価に合格する領域で、フロンティア価格を払う意味はありません。
構造化抽出とドラフト作成 — 文書からのフィールド抽出、人がレビューする返信案の作成。通常は中位モデルで十分です。評価セットが「不十分」と示した場合のみ格上げします。
統合と判断 — 矛盾する文書の照合、複数ステップの変更計画、コードレビュー、横断リサーチ。フロンティアモデルの能力がボトルネックになる領域で、Fable 5が価格に見合うのはここです。
長時間の自律処理 — 数日がかりの移行、エージェント型リサーチ、大規模リファクタリング。Mythosクラス以前は「安定した選択肢」としてほぼ存在しなかったカテゴリです。2025年に棚上げした企画があれば、再テストの価値があります。
コスト試算の実例
サポート分類ワークフローの試算例です。1日1,000件、1件あたり1ステップで入力約2,000トークン、出力約400トークンと仮定します。
全件Fable 5: 1件あたり約0.04ドル、月額およそ1,200ドル。
全件Opus 4.8: その約半分、月額およそ600ドル。
ルーティング設計: 約85%を小型モデル(フロンティア価格の10分の1以下が一般的)で完結させ、難しい約15%だけFable 5へエスカレーション — 月額およそ300ドル。しかも難しい15%の品質は、中位モデル一律より高くなります。
この規模では金額自体が小さい — それこそが本当の教訓です。1日1,000件なら、モデル選定は品質の問題であってコストの問題ではありません。1日5万件になるか、1件あたり数十万トークンを消費するエージェント型ステップが入ると、ルーティング設計の有無が「成立するワークフロー」と「予算事故」の分かれ目になります。出力トークンは100万あたり50ドルと支配的です。Fable 5の支出が実際に集中するのは、出力の長いエージェント型ステップであり、注意を向けるべきは安価な分類呼び出しではなくそちらです。
フォールバック挙動はアーキテクチャの一部
Fable 5は制限領域(攻撃的セキュリティ、生物学・化学の一部)のリクエストを拒否せず、Opus 4.8で静かに回答します。Anthropicによれば発生率はセッションの5%未満で、通常の業務ワークフローではほぼゼロです。ただし「ほぼゼロ」はコンプライアンスの回答にはなりません。
すべての出力にモデル識別子をログとして残す。「この出力は何が生成したのか」にレコード単位で答えられる状態にします。
制限領域に近いドメインであれば、評価セットにフォールバック経路のケースを含める。トラフィックの一部は実質的に別モデルで動いているためです。
評価セットがあれば、モデル更新は「退屈な作業」になる(それが目標)
今週慌てたチームは、モデル選定が散在するプロンプトの中に埋まっていて、テストハーネスが無いチームです。今回のリリースが「特に騒ぐことのない出来事」だったチームは、モデル更新を依存ライブラリの更新と同じように扱っています。
```
バージョン管理されたプロンプトライブラリ
+ 実データ(マスキング済み)から作った評価セット
+ ステップ単位の合否を定義した受入条件
+ プロンプトやモデルの変更時に評価を回すCI
+ 出力ごとにモデルとプロンプトのバージョンを記録する監査ログ
```
これが整っていれば、「Fable 5を導入すべきか」は1日の実験です。評価を回し、合格ケースあたりのコストを比較し、勝つステップだけ切り替える。整っていなければ、モデルが出るたびに議論がやり直しになります。
格上げすべきでない場合
そのステップが安価なモデルで既に受入条件を満たしている — 不要な能力への支払いは、利益の寄付と同じです。
契約がゼロ保持のAPI条件を前提にしている — Mythosクラスのモデルには安全監視のための30日間データ保持ポリシーが必須で付帯します(詳細はFable 5とMythos 5のビジネス向け解説)。
ボトルネックがデータ品質や業務設計にある — 私たちの診断で最も多い失敗は「弱いモデル」ではありません。入力、責任者、レビューステップが定義されておらず、どのモデルでも救えないワークフローです。
最初に決めるのはモデルではなくスコープ
モデル選定は、適切なスコープ定義の「結果」であって、その代替ではありません。Urbano DXの固定スコープスプリントでは、モデルマトリクス — どのステップに、どのモデルを、1,000件あたりいくらで、どのレビューステップ付きで使うか — を、構築開始前に書面スコープへ含めます。ベンダーの熱量ではなく証拠でこの判断をしたい場合は、DX準備度診断または3営業日のAIワークフロー診断からどうぞ。