テクノロジー 注目度 64

Claude Codeの「物忘れ」現象を検証:Anthropicの公式ポストモーテムとユーザー体感の照合

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

本記事は、筆者が過去1ヶ月間に感じていたAIエージェント「Claude Code」の挙動の違和感(ルール無視、テスト自動生成の欠落、コンテキストの忘却など)と、Anthropic社が2026年4月23日に公表した公式ポストモーテム(事後検証)の結果を照合し、その原因を分析したものである。筆者は、自身の体感した「Claude Codeが頭が悪くなった」という症状が、基盤モデル本体の劣化ではなく、製品レイヤー(harness層)の3つの変更に起因すると結論付けている。

公式ポストモーテムによると、影響を受けたのはClaude Code / Claude Agent SDK / Claude Coworkの3製品であり、原因は以下の通りである。①「reasoning effort」のデフォルト設定がhighからmediumに引き下げられたこと(3/4〜4/7)。②キャッシュ最適化のバグにより、セッション再開時に思考履歴(thinking history)が毎回消去されたこと(3/26〜4/10)。③Opus 4.7の冗長性抑制のため、システムプロンプトに「ツール呼び出し間の説明は25語以下、最終応答は原則100語以下」という制約が追加されたこと(4/16〜4/20)。

筆者は、自身の体感症状をこれらの原因に紐づけた。例えば、「developへの直接push禁止ルールを忘れる」現象は、思考履歴の消失(②キャッシュバグ)が原因であり、「テスト自動生成が抜ける」現象は、短文化志向の制約(③verbosity抑制)が自発的な追加作業を抑制したためと分析した。これらの共通点は、AIエージェント製品の品質低下が、広範で一貫しない「harness層の調整」に起因する可能性を示している。

結論として、筆者はAIエージェント製品との付き合い方として、①年間のサブスクリプションプランへの過信を避け、月払いで機動性を保つこと、②CodexやGemini CLIなど他サービスのCLIでの「素振り」を継続し、ベンダーロックインへの備えを怠らないこと、③重要なルールはCLAUDE.mdだけでなく、フックやテンプレなど強制的に適用されるレイヤーに固定化すること、の3点を提言している。


背景

大規模言語モデル(LLM)を搭載したAIエージェント製品は、機能追加や最適化の過程で、ユーザーが体感する挙動が急激に変化することがある。本記事は、Anthropic社が公表した「ポストモーテム(事後検証)」という形式を通じて、その技術的な経緯と、ユーザーが感じた品質低下のメカニズムを詳細に分析している。

重要用語解説

  • ポストモーテム: (Postmortem)システムやサービスが障害を起こした後、その原因、経緯、再発防止策を徹底的に分析し、文書化するプロセス。技術的な信頼回復に不可欠な手順。
  • harness層: 基盤となるAIモデル(LLM)自体ではなく、そのモデルを動かすためのインターフェース、プロンプト、キャッシュ、推論パラメータなどの周辺的な制御層や枠組みを指す。品質劣化の原因がモデル本体ではなくここにあることを示唆している。
  • reasoning effort: AIモデルが推論を行う際の「思考の深さ」や「努力量」を示すパラメータ。この値が変更されると、モデルの出力の賢さや複雑なタスク処理能力に直接影響を及ぼす。

今後の影響

AIエージェント製品の利用者は、単に「機能が使えない」という問題だけでなく、「いつ、なぜ、どのように挙動が変わったのか」という透明性の確保が求められる。本記事の教訓は、ユーザー側が製品の内部構造(harness層)の変化を理解し、複数のツールやワークフローを並行して試すことで、ベンダーロックインのリスクを低減する必要性を示している。これは、AI開発ワークフローの標準的な設計指針となるだろう。