本文へスキップ
Best AI Service

Claude Code quality regression postmortem|reasoning effort・context drop・verbosity prompt で何が直ったか

Anthropic公式のpostmortemをもとに、Claude Codeの品質低下で何が起き、いつ直り、いま何を見直すべきかを整理します。API未影響やusage resetも短く確認できます。

公開: 最終確認: 2026年5月23日
最終確認: 2026年5月23日 根拠: 11件の公開情報 確認メモを見る 編集方針
Claude Code の品質低下 postmortem と修正内容を整理するイメージ

先に結論

Claude Code の最近の違和感は、気のせいではなく Anthropic が公式に原因を切り分けて修正した事象でした。

押さえるべき点は3つです。

  1. 既定 reasoning effort を下げた変更で、賢さより待ち時間を優先しすぎた
  2. 1時間以上 idle の session で reasoning を毎ターン落とすバグがあり、忘れやすさと usage 消費増につながった
  3. 回答を短くしすぎる system prompt 変更が coding quality を削った

3件とも 2026-04-20 時点で解消済みとされ、Anthropic は 2026-04-23 に subscriber の usage limit reset も告知しました。

いま利用者が見るべきなのは、今の default effort、長時間 idle 後の再開挙動、自社の短文化ルールです。

何が起きていたのか

Anthropic の説明では、影響を受けたのは Claude Code、Claude Agent SDK、Claude Cowork です。

一方で、API と inference layer は未影響 と明言されています。

つまり今回の話は、モデル全体が急に悪化したというより、Claude Code の product layer と harness 側の変更が積み重なって見え方を崩した という整理です。

しかも3件は同じ日に同じユーザーへ一斉に当たったわけではありませんでした。

影響範囲もタイミングも違ったため、利用者からは「全体的に少しずつ変だが、再現条件がはっきりしない」形に見えやすかったようです。

原因1: default reasoning effort を下げた

最初の原因は、Claude Code の既定 reasoning effort を high から medium に下げた変更です。

Anthropic は、high effort だと UI が固まったように見える長い待ち時間や、usage 消費の重さが出るケースを減らしたかったと説明しています。

ただ、結果として多くの利用者は「速くなった」よりも「賢さが落ちた」と感じました。

この変更は 2026-03-04 に入り、2026-04-07 に巻き戻されています。

postmortem 時点では、Opus 4.7 は xhigh、他モデルは high が既定になっています。

ここで大事なのは、モデル性能そのものと既定 effort は別の論点 だということです。

Claude Code、CodexGitHub Copilot を比べるときも、表に出る賢さは product 側の既定値でかなり変わります。

原因2: idle 後の context drop バグ

2つ目は、1時間以上 idle になった session の再開時に起きた context 管理バグです。

本来は、古い reasoning を一度だけ整理して再開コストを下げる設計でした。

ところが実装バグで、古い reasoning が毎ターン削られ続けました。

その結果、Claude は作業を続けているのに、なぜその編集や tool call を選んだのかを徐々に忘れる 状態になっていました。

利用者から見える症状はわかりやすいです。

  • 同じことを繰り返す
  • 文脈を忘れやすい
  • tool choice が変になる
  • usage limit の減りが妙に早い

Anthropic は、この不具合が cache miss を増やし、usage 消費増の体感にもつながった可能性が高いと説明しています。

修正日は 2026-04-10、対象バージョンは v2.1.101 です。

Claude Code を長時間使う人や、定期実行や継続運用 に寄せている人ほど、この問題の影響は大きかったはずです。

原因3: verbosity prompt が coding quality を落とした

3つ目は、回答を短くするために system prompt へ入れた制約です。

Anthropic は Opus 4.7 の verbose さを抑えるために、tool call 間の文章を 25 words 以下、最終回答を 100 words 以下に寄せる指示を追加しました。

これが他の prompt 変更と重なり、Claude Code の coding quality を落としました。

内部テストでは見逃されましたが、あとから広い eval で見直したところ、Opus 4.6 と 4.7 の両方で 3% の低下が見えたと説明されています。

この prompt は 2026-04-16 に入り、2026-04-20 に巻き戻されています。

ここは Claude Code 利用者にもかなり示唆があります。

自社 wrapper や system prompt 的な運用で、短く、簡潔に、要点だけ返せ を強く入れすぎると、読みやすさの代わりに実装の質を削ることがあります。

いま何を見直すべきか

Anthropic 側では修正済みでも、自分たちの運用で似た条件を作っていることがあります。

先に見るべきなのは次の3点です。

1. default effort を前提で決め打ちしていないか

過去の session や社内説明が medium 前提のまま残っているなら、いまの挙動とズレます。

「最近また重い」「前より賢いが遅い」と感じたら、まず既定 effort の前提を確認した方が早いです。

2. 長時間 idle 後の session をそのまま信用していないか

2026-04-10 以前の問題は修正済みですが、長い session 再開時に違和感が出たら、session を切り直した方が早い場面は今でもあります。

特に複数人で再現確認するときは、新規 session と再開 session を分けて比較する と原因を切り分けやすいです。

3. 独自 prompt や wrapper が短くしすぎていないか

社内の CLI wrapper、review bot、出力整形ルールで「短く返す」を強く掛けているなら、一度外して差を見た方がいいです。

短さは UX を整えますが、設計判断や修正理由まで削ると、実装の質まで落ちます。

再発防止策として何が出たか

Anthropic は、今後の再発防止策もかなり具体的に書いています。

中心は次の4つです。

  • system prompt change ごとに、より広い per-model eval を回す
  • prompt の各行の影響を見る ablation を続ける
  • model-specific な変更を狙ったモデルだけに gate する
  • intelligence と引き換えになる変更は、soak period と gradual rollout を入れる

加えて、社内で使う build と公開 build の差を減らし、Code Review の改善も進めるとしています。

これは Claude Code 単体の話に見えて、実際には他の coding agent を選ぶときの判断材料にもなります。

たとえば、監査導線を重く見るなら GitHub Copilot coding agent と Claude Code、Codex の比較 がつながりますし、普段使いの全体像なら Cursor、Copilot、Claude Code の比較 も見た方が整理しやすいです。

この postmortem をどう読むべきか

今回の価値は、Anthropic が「品質低下はなかった」と押し切らず、何を変え、どこで失敗し、いつ戻したか をかなり具体的に出したことです。

Claude Code を導入する側にとって重要なのは、完璧な無事故よりも、問題が起きたときにどこまで原因が開示されるかです。

その意味でこの postmortem は、単なる謝罪文ではなく、Claude Code の運用リスクを見積もる材料として読む価値があります。

まとめ

Claude Code の品質低下は、3つの product layer 変更が重なって起きていました。

  • default reasoning effort を下げた変更
  • idle 後の reasoning drop バグ
  • 短くしすぎた verbosity prompt

3件とも 2026-04-20 時点で解消済みです。

いま利用者がやるべきことは、Claude Code を疑って離れることより、自分の運用に同じ再現条件が残っていないかを見ること です。

比較から入りたいなら Cursor vs GitHub Copilot vs Claude Code、運用統制まで見たいなら GitHub Copilot coding agent vs Claude Code vs Codex、継続ジョブまで広げたいなら AIコーディングの定期実行比較 も合わせて読むと流れがつかみやすいです。

最後に確認すること

先に確認すべきなのは、現行の default effort と長時間 idle 後の再開挙動です。Claude Code の品質低下はモデルそのものより product layer の変更で起きていたので、自分の運用で同じ条件を作っていないかを見るのが早いです。

向いている人

  • ・Claude Code を日常利用していて、最近の賢さ低下や忘れやすさの理由を短く確認したい人
  • ・Claude Code と Codex、GitHub Copilot を比較中で、モデル性能ではなく product layer の揺れも見たい技術責任者
  • ・社内 wrapper や独自 prompt を足しており、短文化ルールや context 管理が品質を落としていないか見直したいチーム

避けたい人

  • ・Claude API 側の回帰や推論品質全般の障害報告を探している人
  • ・Claude Code の全変更履歴を長い release note として時系列で追いたい人
  • ・比較表だけで購買判断を済ませたい人

確認メモ

根拠、確認日、まだ扱っていない範囲を本文の後ろにまとめています。

編集方針を見る

確認日

2026年5月23日

確認ソース数

11件

編集責任

@best-ai-service-editorial-review

研究責任 @best-ai-service-research / 編集責任 @best-ai-service-editorial-review

Verification links

まず開く公式リンク

公式発表、Docs、Pricing など、導入判断で先に見るリンクだけを残しています。

postmortem reviewdocumentation review

確認した公開情報

  • official engineering postmortem
  • official model update note
  • official documentation

比較観点

  • root-cause clarity
  • operational impact
  • reproducibility for readers
  • internal-link relevance

まだ扱っていないこと

  • • 各ユーザー環境の wrapper や local prompt による追加影響
  • • 社内導入環境ごとの usage 消費差