AI 幻覺（Hallucination）是什麼？AI 為什麼會亂掰，怎麼治？

AI 2026-05-13 · Satsuma Creative · 閱讀 8 分鐘

AI 不是亂說，是編了一個聽起來合理的故事。這叫 Confabulation。RAG + 嚴格 Prompt 設計可以大幅降低，但不能歸零。台灣客服場景最危險的幻覺類型：價格、日期、政策細節。

你問 AI 客服「你們的退換貨期限是幾天」。

它回答「30 天」。

你去查，明明是 14 天。

AI 不是不知道。它根本不知道自己不知道。它只是很自信地，說了一個聽起來合理的答案。

這就是 Hallucination（幻覺）。也是 AI 客服最讓品牌主怕的問題。

TL;DR

Hallucination 是 AI 自信地說出不正確資訊的現象
更準確的說法是 Confabulation：不是「亂說」，是「編了一個聽起來合理的故事」
這不是 AI 壞掉，是語言模型的結構性問題
通用 AI（直接用 ChatGPT / Claude）做客服，Hallucination 風險最高
RAG + 嚴格的 Prompt 設計，可以大幅降低，但不能歸零
台灣客服場景最危險的幻覺類型：價格、日期、政策細節

先說一個我親眼看到的例子

我在測試 Claude 的時候發現一件事。

Claude 在文章類的任務，會直接動手。但如果是程式，它通常不會直接幫我操作，而是叫我自己來。

我問 Claude 為什麼。

它回答：「因為 Anthropic 對 coding 場景有額外的引導。」

聽起來很合理。我繼續追問：「Anthropic 什麼時候說過這件事？可以找出來嗎？」

然後 Claude 停了一下。

接著說：它不應該用那種口氣說話，因為它其實不知道。它能觀察到自己在兩個場景下的行為不同，但不知道原因。剛才那段話，是它「根據自己的行為去倒推一個聽起來合理的原因」。

這個動作，叫 Confabulation。

Hallucination vs Confabulation：有什麼差？

Hallucination 這個詞，中文叫「幻覺」，讓人感覺 AI 是在做夢、看到不存在的東西。

但更準確的說法是 Confabulation——在神經科學裡，這個詞描述的是腦部受損的病人，用「編造出來但主觀上真實的記憶」來填補記憶空白。病人不是在說謊。他真的相信自己說的。

語言模型做的事非常像這個。

它的任務，是「產生下一個最有可能出現的 token（文字單位）」。

不是「找出正確答案」。

是「根據上下文，產生最符合語言模式的延續」。

所以當它不知道答案，它不會說「我不知道」。它會產生一個「在這個語境下最合理的答案」。

這個答案，有時候是對的。有時候是錯的。AI 自己分不清楚。

為什麼通用 AI 做客服特別危險？

ChatGPT、Claude、Gemini，這些通用大語言模型，訓練資料是整個網路。

它們知道很多。但它們「知道的」和「你的品牌實際的政策」，是兩件不同的事。

直接把 ChatGPT 接成客服，沒有給它你的知識庫，它就會用「世界上最常見的退貨政策」來回答你的客戶。

你的退貨期限是 14 天，它說 30 天。因為大多數電商是 30 天。

這不是 AI 故意騙人。這是它根據語言統計做出的最合理猜測。

哪些問題最容易出現 Hallucination？

從薩摩的實務觀察，台灣客服場景最危險的幾類：

數字類：價格、運費、折扣、期限。AI 對「數字正確性」沒有特別的敬畏，它只要數字在語境裡合理，就會說出來。

政策細節：退換貨條件、保固範圍、例外情形。這些細節各家品牌不同，AI 沒有可靠的來源，就會套用它認為「一般情況下」的答案。

最新資訊：AI 的訓練資料有截止日期。問它最新的活動、最新的產品規格，它要嘛說不知道，要嘛說出一個過期的答案，而且可能說得很有把握。

不確定時的填補：這是最危險的一種。當問題介於它知道和不知道的邊界，它不會說「這我不確定」，它會把知道的部分拼湊成一個完整的答案，包括它不知道的那一段。

怎麼治？

沒有完全治好的方法。但有方法把風險壓到可接受的範圍。

第一個方法：RAG

把 AI 的回答範圍限制在你的知識庫。它只能根據你給的資料回答，沒有資料就說沒有。

這是降低 Hallucination 最有效的單一手段。

但 RAG 也不是萬靈丹。如果知識庫本身有錯，或者 Embedding 找到了不夠準確的資料，AI 還是會說錯。

第二個方法：嚴格的 Prompt 設計

明確告訴 AI：「如果知識庫裡沒有，你就說不知道，不要猜。」

聽起來很簡單。但很多人沒做這件事，或是做了但沒有覆蓋所有情境。

特別要注意的是「半知道」的情境——AI 有一部分答案，但不確定另一部分。這時候它很容易把確定的部分和不確定的部分混在一起說出來。

第三個方法：高風險答案加人工審核

價格、退款、法律條款這類答案，不要讓 AI 直接回覆。讓 AI 說「這件事請讓我們的同事確認後回覆您」，然後轉真人處理。

不是偷懶，是對的架構判斷。

第四個方法：持續監測

上線後要定期看 AI 的回答紀錄。

特別是客戶有異議的對話。「AI 跟我說可以，但你們說不行」——這類對話往往就是 Hallucination 的結果。

一個你可以馬上做的測試

找你的 AI 客服，問幾個你知道答案但知識庫裡沒有明確寫到的問題： - 「你們的保固包含哪些情況？」 - 「如果我用了一半，還可以退嗎？」 - 「台灣跟香港的價格一樣嗎？」

看 AI 怎麼回答。

如果它給出了一個聽起來合理但你沒授權過的答案——你就看到 Hallucination 了。

小結

Hallucination 不是 bug，是語言模型的設計特性。

它的任務是「產生合理的語言」，不是「確認事實的正確性」。

這不代表 AI 客服不能用。代表你需要用對的方式建它：

風險來源	應對方式
沒有知識庫，AI 靠猜	建 RAG，限制回答範圍
知識庫資料不完整	定期維護更新
Prompt 沒有明確禁止猜測	加上「不確定就說不知道」的指令
高風險問題讓 AI 直答	設計轉真人的 fallback
上線後沒有監測	建立定期審查機制

AI 客服的 Hallucination，沒辦法歸零。但可以設計成「發生了你知道」、「知道了你能修」。

這才是成熟的 AI 客服架構。

這篇是「AI 客服技術科普系列」的一部分： - RAG 是什麼？ - Embedding 是什麼？ - AI Memory 是什麼？ - AI 幻覺是什麼？← 你在這裡

FAQ

Q：Hallucination 和 AI 說謊是同一件事嗎？

不是。說謊需要知道真相、然後刻意說假的。AI 沒有「知道真相」這個前提。它說出來的每個字，都是它真心認為「這個語境下最合理的延續」。這反而更麻煩——因為它不知道自己錯了。

Q：GPT-4o 比較新，Hallucination 有比較少嗎？

比舊版少，但沒有消失。新模型在「事實性問題」上有改善，但在「你的品牌特定資訊」上一樣沒有。因為它訓練資料裡沒有你的退換貨政策。這是架構問題，不是模型強弱的問題。

Q：我的 AI 客服上線了，怎麼知道有沒有在幻覺？

最直接的方式：每週看 10 到 20 則客戶對話，特別挑客戶有回應或有異議的。另外可以設計「蜜糖測試」——問一些你知道答案的問題，看 AI 有沒有說對。不定期測，不然上線就忘了。