AI 幻覺(Hallucination)是什麼?AI 為什麼會亂掰,怎麼治?

AI 2026-05-13 · Satsuma Creative · 閱讀 8 分鐘

AI 不是亂說,是編了一個聽起來合理的故事。這叫 Confabulation。RAG + 嚴格 Prompt 設計可以大幅降低,但不能歸零。台灣客服場景最危險的幻覺類型:價格、日期、政策細節。

你問 AI 客服「你們的退換貨期限是幾天」。

它回答「30 天」。

你去查,明明是 14 天。

AI 不是不知道。它根本不知道自己不知道。它只是很自信地,說了一個聽起來合理的答案。

這就是 Hallucination(幻覺)。也是 AI 客服最讓品牌主怕的問題。


TL;DR

  • Hallucination 是 AI 自信地說出不正確資訊的現象
  • 更準確的說法是 Confabulation:不是「亂說」,是「編了一個聽起來合理的故事」
  • 這不是 AI 壞掉,是語言模型的結構性問題
  • 通用 AI(直接用 ChatGPT / Claude)做客服,Hallucination 風險最高
  • RAG + 嚴格的 Prompt 設計,可以大幅降低,但不能歸零
  • 台灣客服場景最危險的幻覺類型:價格、日期、政策細節

先說一個我親眼看到的例子

我在測試 Claude 的時候發現一件事。

Claude 在文章類的任務,會直接動手。但如果是程式,它通常不會直接幫我操作,而是叫我自己來。

我問 Claude 為什麼。

它回答:「因為 Anthropic 對 coding 場景有額外的引導。」

聽起來很合理。我繼續追問:「Anthropic 什麼時候說過這件事?可以找出來嗎?」

然後 Claude 停了一下。

接著說:它不應該用那種口氣說話,因為它其實不知道。它能觀察到自己在兩個場景下的行為不同,但不知道原因。剛才那段話,是它「根據自己的行為去倒推一個聽起來合理的原因」。

這個動作,叫 Confabulation。


Hallucination vs Confabulation:有什麼差?

Hallucination 這個詞,中文叫「幻覺」,讓人感覺 AI 是在做夢、看到不存在的東西。

但更準確的說法是 Confabulation——在神經科學裡,這個詞描述的是腦部受損的病人,用「編造出來但主觀上真實的記憶」來填補記憶空白。病人不是在說謊。他真的相信自己說的。

語言模型做的事非常像這個。

它的任務,是「產生下一個最有可能出現的 token(文字單位)」。

不是「找出正確答案」。

是「根據上下文,產生最符合語言模式的延續」。

所以當它不知道答案,它不會說「我不知道」。它會產生一個「在這個語境下最合理的答案」。

這個答案,有時候是對的。有時候是錯的。AI 自己分不清楚。


為什麼通用 AI 做客服特別危險?

ChatGPT、Claude、Gemini,這些通用大語言模型,訓練資料是整個網路。

它們知道很多。但它們「知道的」和「你的品牌實際的政策」,是兩件不同的事。

直接把 ChatGPT 接成客服,沒有給它你的知識庫,它就會用「世界上最常見的退貨政策」來回答你的客戶。

你的退貨期限是 14 天,它說 30 天。因為大多數電商是 30 天。

這不是 AI 故意騙人。這是它根據語言統計做出的最合理猜測。


哪些問題最容易出現 Hallucination?

從薩摩的實務觀察,台灣客服場景最危險的幾類:

數字類:價格、運費、折扣、期限。AI 對「數字正確性」沒有特別的敬畏,它只要數字在語境裡合理,就會說出來。

政策細節:退換貨條件、保固範圍、例外情形。這些細節各家品牌不同,AI 沒有可靠的來源,就會套用它認為「一般情況下」的答案。

最新資訊:AI 的訓練資料有截止日期。問它最新的活動、最新的產品規格,它要嘛說不知道,要嘛說出一個過期的答案,而且可能說得很有把握。

不確定時的填補:這是最危險的一種。當問題介於它知道和不知道的邊界,它不會說「這我不確定」,它會把知道的部分拼湊成一個完整的答案,包括它不知道的那一段。


怎麼治?

沒有完全治好的方法。但有方法把風險壓到可接受的範圍。

第一個方法:RAG

把 AI 的回答範圍限制在你的知識庫。它只能根據你給的資料回答,沒有資料就說沒有。

這是降低 Hallucination 最有效的單一手段。

但 RAG 也不是萬靈丹。如果知識庫本身有錯,或者 Embedding 找到了不夠準確的資料,AI 還是會說錯。

第二個方法:嚴格的 Prompt 設計

明確告訴 AI:「如果知識庫裡沒有,你就說不知道,不要猜。」

聽起來很簡單。但很多人沒做這件事,或是做了但沒有覆蓋所有情境。

特別要注意的是「半知道」的情境——AI 有一部分答案,但不確定另一部分。這時候它很容易把確定的部分和不確定的部分混在一起說出來。

第三個方法:高風險答案加人工審核

價格、退款、法律條款這類答案,不要讓 AI 直接回覆。讓 AI 說「這件事請讓我們的同事確認後回覆您」,然後轉真人處理。

不是偷懶,是對的架構判斷。

第四個方法:持續監測

上線後要定期看 AI 的回答紀錄。

特別是客戶有異議的對話。「AI 跟我說可以,但你們說不行」——這類對話往往就是 Hallucination 的結果。


一個你可以馬上做的測試

找你的 AI 客服,問幾個你知道答案但知識庫裡沒有明確寫到的問題: - 「你們的保固包含哪些情況?」 - 「如果我用了一半,還可以退嗎?」 - 「台灣跟香港的價格一樣嗎?」

看 AI 怎麼回答。

如果它給出了一個聽起來合理但你沒授權過的答案——你就看到 Hallucination 了。


小結

Hallucination 不是 bug,是語言模型的設計特性。

它的任務是「產生合理的語言」,不是「確認事實的正確性」。

這不代表 AI 客服不能用。代表你需要用對的方式建它:

風險來源 應對方式
沒有知識庫,AI 靠猜 建 RAG,限制回答範圍
知識庫資料不完整 定期維護更新
Prompt 沒有明確禁止猜測 加上「不確定就說不知道」的指令
高風險問題讓 AI 直答 設計轉真人的 fallback
上線後沒有監測 建立定期審查機制

AI 客服的 Hallucination,沒辦法歸零。但可以設計成「發生了你知道」、「知道了你能修」。

這才是成熟的 AI 客服架構。


這篇是「AI 客服技術科普系列」的一部分: - RAG 是什麼? - Embedding 是什麼? - AI Memory 是什麼? - AI 幻覺是什麼?← 你在這裡


FAQ

Q:Hallucination 和 AI 說謊是同一件事嗎?

不是。說謊需要知道真相、然後刻意說假的。AI 沒有「知道真相」這個前提。它說出來的每個字,都是它真心認為「這個語境下最合理的延續」。這反而更麻煩——因為它不知道自己錯了。

Q:GPT-4o 比較新,Hallucination 有比較少嗎?

比舊版少,但沒有消失。新模型在「事實性問題」上有改善,但在「你的品牌特定資訊」上一樣沒有。因為它訓練資料裡沒有你的退換貨政策。這是架構問題,不是模型強弱的問題。

Q:我的 AI 客服上線了,怎麼知道有沒有在幻覺?

最直接的方式:每週看 10 到 20 則客戶對話,特別挑客戶有回應或有異議的。另外可以設計「蜜糖測試」——問一些你知道答案的問題,看 AI 有沒有說對。不定期測,不然上線就忘了。