テクノロジー注目度 66

AIの出力が毎回異なるのはなぜか？「非決定性」を理解し、実務で対処するガイド

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

生成AI（LLM）が同じプロンプトに対して毎回異なる出力を返す現象は、「バグ」ではなく、モデルの根源的な性質である「非決定性（Non-determinism）」によるものです。この記事では、そのメカニズムと実務での対処法を詳細に解説しています。

**【原因となる技術的背景】**

AIが文章を生成する際、「次に来そうな単語」の候補それぞれに確率（重み）をつけ、その確率に基づいて単語を一つずつ選択します。この「どれくらいランダム性を効かせるか」を制御するのが`temperature`設定です。一般的に、`temperature=0`に設定しても完全な再現性は保証されません。これは以下の3つの層の要因が絡むためです。

1. **サンプリングのランダム性**: `seed`（乱数の種）を設定することで安定化できますが、これだけでは不十分です。

2. **浮動小数点数の非結合性**: コンピュータが小数を近似値で扱うため、計算（特に足し算）の順番が変わると結果が微妙にズレることがあります。GPUによる並列計算はこの影響を受けやすいです。

3. **サーバーのバッチ処理問題**: クラウドAPIでは、複数のユーザーのリクエストを動的にまとめて（dynamic batching）一括で計算します。この「まとめ方」や内部的な計算順序が、結果に変動をもたらすことが最大の要因であり、2025年のレポートでも実証されています。

**【実務での対処法】**

非決定性をゼロにすることは困難なため、「どこを締めて（安定させ）、どこを緩めるか（多様性を持たせる）」という設計が重要です。用途に応じて`temperature`や`top_p`などの設定を使い分けます。

* **創造的利用（アイデア出しなど）**: `temperature`を高めに設定し、ブレ＝多様性を歓迎します。

* **分類・抽出（金額抜き出しなど）**: 安定性が求められるため、`temperature`を低く保ちつつ、「完全一致」のテストではなく「不変条件」（例：JSON形式であること）や「自己整合性」（多数決）で検証することが必須です。

さらに、AIが外部に作用する（決済、メール送信など）場合は、二重実行による実害を防ぐため、「冪等性（Idempotency）」の概念を導入し、操作ごとにブレない鍵（idempotency key）を設定する必要があります。最後に、再現条件として`seed`や`system_fingerprint`などのログを残すことが、デバッグにおいて極めて重要であると結論づけています。

背景

生成AI（LLM）の利用が広がるにつれ、「同じ質問に毎回違う答えが返ってくる」という現象が実務上の大きな課題となっています。当初はバグと誤解されがちでしたが、これはモデルの確率的な性質や、クラウドインフラストラクチャ特有の計算メカニズム（浮動小数点演算、バッチ処理）に起因する「非決定性」であることが判明しました。

重要用語解説

非決定性（Non-determinism）: 同じ入力に対して実行しても、結果が毎回異なる性質のこと。生成AIの出力変動の主な原因であり、技術的な課題として認識されています。
temperature（温度）: AIモデルが出力する単語の選択におけるランダム性の度合いを制御するパラメータ。値が高いほど多様で創造的ですが、ブレやすくなります。
冪等性（Idempotency）: 同じ操作やリクエストを何回繰り返しても、システムの状態や結果が1回分しか変化しない性質のこと。二重課金などの副作用を防ぐために重要です。

今後の影響

この知識は、AIを活用したアプリケーション開発の設計思想を根本的に変えます。単に「安定させる」だけでなく、「どの部分でブレを許容し、どこで厳密なルール（不変条件）を適用するか」という高度なシステム設計能力が求められるようになり、信頼性の高いAIシステムの構築に不可欠となります。

Information Sources:

https://zenn.dev/akira_papa/articles/aae2458b546167