一番賢いAIには、実装させない——「設計書の書き溜め」戦略・全プロンプト公開版

うちの会社では、一番賢いAI（Claude の最上位モデル Fable 5）に、コードをほとんど書かせていない。書かせているのは設計書。書き溜めた設計書のうち5本を1つ下のモデルに順に委任して、1日で全部一発検収に通した。この記事では、その役割分担の判断表から、実際に検収を通った設計書の実物、コピペで使えるプロンプト4本まで、全部公開する。

一番賢いAIに、コードを書かせていない

「一番賢いAIには、一番難しい作業をさせる」が普通の発想だと思う。うちも最初はそうだった。最上位モデルが出たらまず一番重い実装を任せて、出てきたコードに感心して終わり。でも毎日使い倒すうちに、逆のほうが得だと気づいた。

理由は単純で、会話の中の賢さは消えるが、設計書はファイルで残るから。

どんなに賢い回答をもらっても、セッションを閉じれば消える。会話が長くなれば劣化もする（このあたりはcompact で会話が壊れていく話で書いた）。一方、賢いモデルに書かせた設計書・ルール・手順書は、モデルが変わっても動き続ける資産になる。モデルは放っておいても進化して安くなるけど、設計資産は自分が書かせた分しか貯まらない。

だから最上位モデルが使えるうちに、その賢さを「消えない形」に変換しておく。うちではこれを「設計書の書き溜め」と呼んで、運用の軸にしている。

「どのAIに何をやらせるか」の判断表

役割分担は、迷わないように表で固定している。

作業	任せる先	理由
発案・壁打ち	最上位モデル	曖昧な要望から要件を引き出す力が一番効く場面
設計書（SPEC）を書く	最上位モデル	ここの品質が実装の成否をほぼ全部決める
実装	1つ下のモデル	良い設計書があれば、実装は下位モデルで足りる
検収	最上位モデル	「できました」を疑って検証する仕事。ここは賢さが要る
typo・1〜2行の修正	どのモデルでも直接	設計書を書くほうが高くつく

ポイントは、実装だけを下位モデルに落としていること。上流（何を作るか・どう作るか）と下流（できたものの検証）は最上位に握らせて、真ん中の量産部分を安いほうに流す。人間の組織で言えば、設計とレビューをベテランが持って、実装を若手に任せる形に近い。

あわせて「そもそも設計書を書くべきか」も基準を決めている。全部の依頼に設計書を書いていたら、それはそれで回らない。

依頼の種類	設計書	理由
typo修正・数行の変更	書かない	会話で直接頼めばいい
独立した機能をまるごと作る	書く	ファイルで渡せば、別の会話・別のモデルでも回せる
複数ファイルにまたがる変更	書く	「触っていいファイル」を先に確定しないと事故る
設計判断そのものが必要	壁打ち→書く	採用案だけでなく、捨てた案と理由も残す

設計書は「6要素」で書かせる——実物つき

設計書のフォーマットは6要素で固定している。

背景 — なぜやるか。この設計書だけ読めば文脈がわかるように
変更対象ファイル表 — どのファイルを触るか。裏返すと「これ以外触らない」宣言
具体的変更内容 — 実装者が迷わない粒度で
完成条件（DoD） — 「動く」ではなく「テスト◯件通過」のような検証できる形
非スコープ — やったら違反になる変更。ついで修正・勝手な整理を含む
報告形式 — 「✅検証済（根拠付き）/ ❌不明 / 🟡仮定」の3値で報告させる

抽象論だとイメージしづらいので、実物を見せる。今週うちで実際に一発検収を通った設計書のうち1本（ブログ記事の素材集めを自動化する小さな機能）から、②と⑤の抜粋。

## 変更対象ファイル表（これ以外触らない）

| ファイル | 操作 |
|---|---|
| blog_material.py       | Write（新規・週次素材パッケージ生成） |
| config.py              | Edit（設定2行の追加のみ） |
| tests/test_blog_material.py | Write（新規） |
| specs/RESULT-SPEC-05e.md    | Write（報告） |

## 非スコープ（やったら違反）

- 記事本文の生成・HTML化・デプロイ（既存フローの領分）
- X への投稿・告知文の生成（別機能の領分。呼び出しもしない）
- タスクスケジューラへの組み込み（自動化は運用が回ってから判断）

6要素のうち、効いているのは②と⑤だと思っている。AIに仕事を頼むと、頼んでいない箇所まで「良かれと思って」直してしまう事故が起きる。動いていたコードのリファクタ、勝手なファイル整理、関係ない箇所のスタイル統一。「これ以外触らない」「やったら違反」を先に文書で確定させると、これがほぼ消える。操作の粒度も「Edit（設定2行の追加のみ）」まで絞るのがコツで、ここが緩いと解釈の余地が生まれる。

コピペで使えるプロンプト3本（設計→実装→検収）

この型は、プロンプト3本で今日から試せる。まず、実装を頼む前に設計書を書かせる。

この依頼を実装する前に、設計書を1枚書いて。要素は6つ。
①背景(この設計書だけで文脈がわかるように)
②変更対象ファイル表(パスと操作。これ以外触らない宣言)
③具体的変更内容(実装者が迷わない粒度で)
④完成条件(『動く』ではなく『テストX件通過』のような検証可能な形)
⑤非スコープ(やったら違反になる変更。ついで修正・リファクタ含む)
⑥報告形式(✅確認済=根拠付き/❌不明/🟡仮定の3値)
設計書だけ出して、私がOKと言うまで実装しないで

最後の1行が肝で、設計と実装を区切って、間に人間の承認を挟む。設計書ができたら、実装は別の会話（下位モデルでいい）に渡す。

SPEC-XX.mdを読んで、記載の変更だけ実装して。
設計書と実ファイルが食い違ったら止めて❌報告。
完成条件は1項目ずつ検証してから✅(未検証は🔄のまま)。
終わったらRESULT.mdにDoD照合表+変更ファイル一覧を3値ラベルで

「できました」の報告を受け取ったら、検収する。これもプロンプト1本。

RESULT.mdのDoD照合表で、✅の根拠が薄い項目を1つ選んで
自分で再実行して確かめて。
変更対象ファイル表と実際の変更を突合して、
表にないファイルが変わってたら報告して

コツは、「できました」を信じない仕組みごと渡すこと。AIは「たぶん動く」を「できました」と報告する癖がある。悪気はなくて、そういう生き物だと思って運用を設計する。だから報告は3値（検証済/不明/仮定）に縛り、検収では抜き打ちで再実行させる。

検証は3段。「もう一回同じ操作」まで

実装が終わっても、それで完了にしない。うちの検証は3段に分けている。

コードはテスト必須 — 今週時点で自動テスト21件が通っている状態を維持。テストが通るまで「完了」と言わせない
画面があるものはブラウザで実操作 — AIにブラウザを実際に操作させて確認する。今週も「承認した2件だけが書き出されて、未承認の4件が混ざらない」ことを実ブラウザで確認させ、スクリーンショットまで残させた
公開物は6観点の最終チェック — 論理・セキュリティ・法的・技術・SEO・ブランドの6つで別のAIにレビューさせて、重大指摘ゼロになるまで出さない（この記事も通してから公開している）

教訓をひとつ。以前「1回目の読み込みは正常、2回目でクラッシュ」というバグを実際に踏んだことがある。1回動かして満足するテストだと、これは通ってしまう。だから検証には「もう一回同じ操作をする」まで入れている。

実録：5本書き溜めて、1日で全部一発合格

この型が実際どう回ったか、今週の実録を時系列で置いておく。

日	やったこと
7/2	最上位モデルと壁打ちしながら、機能7本分の設計書パックを生成
7/3	方針変更（露出優先への組み替え）に合わせて設計書側を改訂。実装前なので直すのはファイルだけ
7/4 昼	うち5本を、1つ下のモデルに順に委任
7/4 夕	5本すべて一発で検収合格。自動テスト累計21件 green

正直に書くと、「一発合格」は実装側のモデルが優秀だったというより、設計書の時点で失敗パターンを潰してあったのが大きい。差し戻しの原因になりがちな「頼んでいない変更」「未検証の完了報告」が、⑤非スコープと⑥3値報告で先回りして封じてある。実装中に仕様の曖昧さで手が止まることも、②と③で潰してある。設計書の品質が、そのまま検収の通過率になる。

途中の方針変更に強いのも書き溜めの利点だった。7/3に投稿戦略を組み替えたとき、直したのは設計書ファイルだけ。実装に入った後の方針変更は手戻りコストが大きいけど、設計書の段階なら書き換えて済む。

全部を一発で立ち上げるプロンプト

最後に、この仕組み全体を自分の環境に作らせるプロンプトを置いておく。いま使っている一番賢いAIに、これを打つところから始めればいい。

あなたに私のAI開発環境の設計者になってほしい。順に設計して:
①ルールの2層化: 常駐ルール(毎回読む・上限行数を先に決める)と
　場面別ルール(キーワードで必要時だけ読む)に分けて、既存の指示書を仕分けして
②作業の型: 実装依頼は必ず『6要素の設計書→私の承認→実装→3値ラベル報告→検収』の流れに。
　各段階のテンプレを作って
③検証の型: 変更にはテスト必須。UIがあるものはブラウザ自動テスト(E2E)まで。
　『テストが通るまで完了と言わない』をルール化して
④手順のSkill化: 毎回やる作業(リリース前チェック等)を起動条件付きの手順書ファイルに
まず現状の私の環境を調査して、4つの設計案と移行手順を出して。実装は私のOK後

うちはこの型で、常駐ルールを6ファイル・合計700行以下に絞り、場面別ルール15本を必要な時だけ読み込む形にして、繰り返し手順は63本のSkill（起動条件付きの手順書）として貯めてきた。ここまでの仕組みは全部、AI自身に設計させたものだ。環境整備の具体的な進め方は自分仕様化の7ステップに分けて書いてある。

まとめると、こうなる。

最上位モデルには、今日のコードを書かせるより、設計書とルールと検収の型を書かせる
会話の賢さは消える。ファイルは残る
設計資産は書いた分しか貯まらない。始めるなら早いほうがいい

モデルの賢さそのものは、どの会社も同じ値段で買える時代になった。差が付くのは賢さを何に変換して貯めるかで（この話はAI活用の本当の分かれ目として別記事に書いた）、設計書の書き溜めはその一番実践的な形だと思っている。あなたがいま使っている一番賢いAIに、何を「残る形」で作らせますか。