Claude API まで品質低下していたのですか？

いいえ。Anthropic の postmortem では、影響範囲は Claude Code、Claude Agent SDK、Claude Cowork で、API と inference layer は未影響と説明されています。

何が原因だったのですか？

大きく3つです。既定 reasoning effort を high から medium に落とした変更、1時間以上 idle 後に古い reasoning を毎ターン捨ててしまうバグ、短くしすぎる system prompt 変更です。

いま利用者が見直すべきことは何ですか？

現在の default effort、長時間 idle 後のセッション再開、社内 prompt や wrapper が回答を短くしすぎていないかの3点です。最近の違和感が残っているなら、そのどれかが再現条件になっている可能性があります。

Claude Code quality regression postmortem｜reasoning effort・context drop・verbosity prompt で何が直ったか

先に結論

Claude Code の最近の違和感は、気のせいではなく Anthropic が公式に原因を切り分けて修正した事象でした。

押さえるべき点は3つです。

既定 reasoning effort を下げた変更で、賢さより待ち時間を優先しすぎた
1時間以上 idle の session で reasoning を毎ターン落とすバグがあり、忘れやすさと usage 消費増につながった
回答を短くしすぎる system prompt 変更が coding quality を削った

3件とも 2026-04-20 時点で解消済みとされ、Anthropic は 2026-04-23 に subscriber の usage limit reset も告知しました。

いま利用者が見るべきなのは、今の default effort、長時間 idle 後の再開挙動、自社の短文化ルールです。

何が起きていたのか

Anthropic の説明では、影響を受けたのは Claude Code、Claude Agent SDK、Claude Cowork です。

一方で、API と inference layer は未影響 と明言されています。

つまり今回の話は、モデル全体が急に悪化したというより、Claude Code の product layer と harness 側の変更が積み重なって見え方を崩した という整理です。

しかも3件は同じ日に同じユーザーへ一斉に当たったわけではありませんでした。

影響範囲もタイミングも違ったため、利用者からは「全体的に少しずつ変だが、再現条件がはっきりしない」形に見えやすかったようです。

原因1: default reasoning effort を下げた

最初の原因は、Claude Code の既定 reasoning effort を high から medium に下げた変更です。

Anthropic は、high effort だと UI が固まったように見える長い待ち時間や、usage 消費の重さが出るケースを減らしたかったと説明しています。

ただ、結果として多くの利用者は「速くなった」よりも「賢さが落ちた」と感じました。

この変更は 2026-03-04 に入り、2026-04-07 に巻き戻されています。

postmortem 時点では、Opus 4.7 は xhigh、他モデルは high が既定になっています。

ここで大事なのは、モデル性能そのものと既定 effort は別の論点 だということです。

Claude Code、Codex、GitHub Copilot を比べるときも、表に出る賢さは product 側の既定値でかなり変わります。

原因2: idle 後の context drop バグ

2つ目は、1時間以上 idle になった session の再開時に起きた context 管理バグです。

本来は、古い reasoning を一度だけ整理して再開コストを下げる設計でした。

ところが実装バグで、古い reasoning が毎ターン削られ続けました。

その結果、Claude は作業を続けているのに、なぜその編集や tool call を選んだのかを徐々に忘れる 状態になっていました。

利用者から見える症状はわかりやすいです。

同じことを繰り返す
文脈を忘れやすい
tool choice が変になる
usage limit の減りが妙に早い

Anthropic は、この不具合が cache miss を増やし、usage 消費増の体感にもつながった可能性が高いと説明しています。

修正日は 2026-04-10、対象バージョンは v2.1.101 です。

Claude Code を長時間使う人や、定期実行や継続運用に寄せている人ほど、この問題の影響は大きかったはずです。

原因3: verbosity prompt が coding quality を落とした

3つ目は、回答を短くするために system prompt へ入れた制約です。

Anthropic は Opus 4.7 の verbose さを抑えるために、tool call 間の文章を 25 words 以下、最終回答を 100 words 以下に寄せる指示を追加しました。

これが他の prompt 変更と重なり、Claude Code の coding quality を落としました。

内部テストでは見逃されましたが、あとから広い eval で見直したところ、Opus 4.6 と 4.7 の両方で 3% の低下が見えたと説明されています。

この prompt は 2026-04-16 に入り、2026-04-20 に巻き戻されています。

ここは Claude Code 利用者にもかなり示唆があります。

自社 wrapper や system prompt 的な運用で、短く、簡潔に、要点だけ返せ を強く入れすぎると、読みやすさの代わりに実装の質を削ることがあります。

いま何を見直すべきか

Anthropic 側では修正済みでも、自分たちの運用で似た条件を作っていることがあります。

先に見るべきなのは次の3点です。

1. default effort を前提で決め打ちしていないか

過去の session や社内説明が medium 前提のまま残っているなら、いまの挙動とズレます。

「最近また重い」「前より賢いが遅い」と感じたら、まず既定 effort の前提を確認した方が早いです。

2. 長時間 idle 後の session をそのまま信用していないか

2026-04-10 以前の問題は修正済みですが、長い session 再開時に違和感が出たら、session を切り直した方が早い場面は今でもあります。

特に複数人で再現確認するときは、新規 session と再開 session を分けて比較する と原因を切り分けやすいです。

3. 独自 prompt や wrapper が短くしすぎていないか

社内の CLI wrapper、review bot、出力整形ルールで「短く返す」を強く掛けているなら、一度外して差を見た方がいいです。

短さは UX を整えますが、設計判断や修正理由まで削ると、実装の質まで落ちます。

再発防止策として何が出たか

Anthropic は、今後の再発防止策もかなり具体的に書いています。

中心は次の4つです。

system prompt change ごとに、より広い per-model eval を回す
prompt の各行の影響を見る ablation を続ける
model-specific な変更を狙ったモデルだけに gate する
intelligence と引き換えになる変更は、soak period と gradual rollout を入れる

加えて、社内で使う build と公開 build の差を減らし、Code Review の改善も進めるとしています。

これは Claude Code 単体の話に見えて、実際には他の coding agent を選ぶときの判断材料にもなります。

たとえば、監査導線を重く見るなら GitHub Copilot coding agent と Claude Code、Codex の比較がつながりますし、普段使いの全体像なら Cursor、Copilot、Claude Code の比較も見た方が整理しやすいです。

この postmortem をどう読むべきか

今回の価値は、Anthropic が「品質低下はなかった」と押し切らず、何を変え、どこで失敗し、いつ戻したか をかなり具体的に出したことです。

Claude Code を導入する側にとって重要なのは、完璧な無事故よりも、問題が起きたときにどこまで原因が開示されるかです。

その意味でこの postmortem は、単なる謝罪文ではなく、Claude Code の運用リスクを見積もる材料として読む価値があります。

まとめ

Claude Code の品質低下は、3つの product layer 変更が重なって起きていました。

default reasoning effort を下げた変更
idle 後の reasoning drop バグ
短くしすぎた verbosity prompt

3件とも 2026-04-20 時点で解消済みです。

いま利用者がやるべきことは、Claude Code を疑って離れることより、自分の運用に同じ再現条件が残っていないかを見ること です。

比較から入りたいなら Cursor vs GitHub Copilot vs Claude Code、運用統制まで見たいなら GitHub Copilot coding agent vs Claude Code vs Codex、継続ジョブまで広げたいなら AIコーディングの定期実行比較も合わせて読むと流れがつかみやすいです。