先に結論
Claude Code の最近の違和感は、気のせいではなく Anthropic が公式に原因を切り分けて修正した事象でした。
押さえるべき点は3つです。
- 既定 reasoning effort を下げた変更で、賢さより待ち時間を優先しすぎた
- 1時間以上 idle の session で reasoning を毎ターン落とすバグがあり、忘れやすさと usage 消費増につながった
- 回答を短くしすぎる system prompt 変更が coding quality を削った
3件とも 2026-04-20 時点で解消済みとされ、Anthropic は 2026-04-23 に subscriber の usage limit reset も告知しました。
いま利用者が見るべきなのは、今の default effort、長時間 idle 後の再開挙動、自社の短文化ルールです。
何が起きていたのか
Anthropic の説明では、影響を受けたのは Claude Code、Claude Agent SDK、Claude Cowork です。
一方で、API と inference layer は未影響 と明言されています。
つまり今回の話は、モデル全体が急に悪化したというより、Claude Code の product layer と harness 側の変更が積み重なって見え方を崩した という整理です。
しかも3件は同じ日に同じユーザーへ一斉に当たったわけではありませんでした。
影響範囲もタイミングも違ったため、利用者からは「全体的に少しずつ変だが、再現条件がはっきりしない」形に見えやすかったようです。
原因1: default reasoning effort を下げた
最初の原因は、Claude Code の既定 reasoning effort を high から medium に下げた変更です。
Anthropic は、high effort だと UI が固まったように見える長い待ち時間や、usage 消費の重さが出るケースを減らしたかったと説明しています。
ただ、結果として多くの利用者は「速くなった」よりも「賢さが落ちた」と感じました。
この変更は 2026-03-04 に入り、2026-04-07 に巻き戻されています。
postmortem 時点では、Opus 4.7 は xhigh、他モデルは high が既定になっています。
ここで大事なのは、モデル性能そのものと既定 effort は別の論点 だということです。
Claude Code、Codex、GitHub Copilot を比べるときも、表に出る賢さは product 側の既定値でかなり変わります。
原因2: idle 後の context drop バグ
2つ目は、1時間以上 idle になった session の再開時に起きた context 管理バグです。
本来は、古い reasoning を一度だけ整理して再開コストを下げる設計でした。
ところが実装バグで、古い reasoning が毎ターン削られ続けました。
その結果、Claude は作業を続けているのに、なぜその編集や tool call を選んだのかを徐々に忘れる 状態になっていました。
利用者から見える症状はわかりやすいです。
- 同じことを繰り返す
- 文脈を忘れやすい
- tool choice が変になる
- usage limit の減りが妙に早い
Anthropic は、この不具合が cache miss を増やし、usage 消費増の体感にもつながった可能性が高いと説明しています。
修正日は 2026-04-10、対象バージョンは v2.1.101 です。
Claude Code を長時間使う人や、定期実行や継続運用 に寄せている人ほど、この問題の影響は大きかったはずです。
原因3: verbosity prompt が coding quality を落とした
3つ目は、回答を短くするために system prompt へ入れた制約です。
Anthropic は Opus 4.7 の verbose さを抑えるために、tool call 間の文章を 25 words 以下、最終回答を 100 words 以下に寄せる指示を追加しました。
これが他の prompt 変更と重なり、Claude Code の coding quality を落としました。
内部テストでは見逃されましたが、あとから広い eval で見直したところ、Opus 4.6 と 4.7 の両方で 3% の低下が見えたと説明されています。
この prompt は 2026-04-16 に入り、2026-04-20 に巻き戻されています。
ここは Claude Code 利用者にもかなり示唆があります。
自社 wrapper や system prompt 的な運用で、短く、簡潔に、要点だけ返せ を強く入れすぎると、読みやすさの代わりに実装の質を削ることがあります。
いま何を見直すべきか
Anthropic 側では修正済みでも、自分たちの運用で似た条件を作っていることがあります。
先に見るべきなのは次の3点です。
1. default effort を前提で決め打ちしていないか
過去の session や社内説明が medium 前提のまま残っているなら、いまの挙動とズレます。
「最近また重い」「前より賢いが遅い」と感じたら、まず既定 effort の前提を確認した方が早いです。
2. 長時間 idle 後の session をそのまま信用していないか
2026-04-10 以前の問題は修正済みですが、長い session 再開時に違和感が出たら、session を切り直した方が早い場面は今でもあります。
特に複数人で再現確認するときは、新規 session と再開 session を分けて比較する と原因を切り分けやすいです。
3. 独自 prompt や wrapper が短くしすぎていないか
社内の CLI wrapper、review bot、出力整形ルールで「短く返す」を強く掛けているなら、一度外して差を見た方がいいです。
短さは UX を整えますが、設計判断や修正理由まで削ると、実装の質まで落ちます。
再発防止策として何が出たか
Anthropic は、今後の再発防止策もかなり具体的に書いています。
中心は次の4つです。
- system prompt change ごとに、より広い per-model eval を回す
- prompt の各行の影響を見る ablation を続ける
- model-specific な変更を狙ったモデルだけに gate する
- intelligence と引き換えになる変更は、soak period と gradual rollout を入れる
加えて、社内で使う build と公開 build の差を減らし、Code Review の改善も進めるとしています。
これは Claude Code 単体の話に見えて、実際には他の coding agent を選ぶときの判断材料にもなります。
たとえば、監査導線を重く見るなら GitHub Copilot coding agent と Claude Code、Codex の比較 がつながりますし、普段使いの全体像なら Cursor、Copilot、Claude Code の比較 も見た方が整理しやすいです。
この postmortem をどう読むべきか
今回の価値は、Anthropic が「品質低下はなかった」と押し切らず、何を変え、どこで失敗し、いつ戻したか をかなり具体的に出したことです。
Claude Code を導入する側にとって重要なのは、完璧な無事故よりも、問題が起きたときにどこまで原因が開示されるかです。
その意味でこの postmortem は、単なる謝罪文ではなく、Claude Code の運用リスクを見積もる材料として読む価値があります。
まとめ
Claude Code の品質低下は、3つの product layer 変更が重なって起きていました。
- default reasoning effort を下げた変更
- idle 後の reasoning drop バグ
- 短くしすぎた verbosity prompt
3件とも 2026-04-20 時点で解消済みです。
いま利用者がやるべきことは、Claude Code を疑って離れることより、自分の運用に同じ再現条件が残っていないかを見ること です。
比較から入りたいなら Cursor vs GitHub Copilot vs Claude Code、運用統制まで見たいなら GitHub Copilot coding agent vs Claude Code vs Codex、継続ジョブまで広げたいなら AIコーディングの定期実行比較 も合わせて読むと流れがつかみやすいです。