把 ChatGPT 直接拿來當客服,會出什麼包?(5 個真實案例)

2026-05-25 · 黃少民 / Satsuma Creative

ChatGPT、Claude、Gemini 這些大模型直接接成客服 chatbot,看起來很簡單。但實際上線後會出 5 種致命包。本文用真實案例拆解每個問題與技術原因。

或者更直接的問法:為什麼你 ChatGPT 用起來像神,接到網站上就變白癡?


過去半年我看過 5 家公司自己接了 ChatGPT/Claude API 當客服,然後上線一個月內全部緊急下架。

不是 API 出包,不是工程師爛——這是模式問題。下面 5 個真實案例(細節脫敏),每個都附技術原因。

如果你正在評估「乾脆自己接 LLM API 省錢」,請花 8 分鐘看完。


案例 1:電商 — 客戶問退款,AI 自己編了時程

情境:某美妝電商接了 ChatGPT API,做一個前端 chat widget,system prompt 寫:「你是 XX 公司的客服。請熱情幫客戶解決問題。」

出包:

客戶問:「退款多久會到?」 ChatGPT 答:「您好,我們的退款一般 7-14 個工作天會到帳,請您耐心等候 ✨」

實際上,該公司退款流程是: - 申請後內部審核 5-7 天 - 審核通過後再 14 個工作天到帳 - 總共 19-21 天

客戶 7 天後沒收到錢,在 Dcard 罵到爆,公司賠了 30 倍訂單金額的客訴禮卷。

技術原因:LLM 看到「退款」「多久」這種詞,從訓練資料裡撈出「全世界類似情境的平均答案」——大多數電商是 7-14 天,所以它就用了。它不知道你公司的真實流程

→ 這條 bug 治不了。不是 prompt 寫得更好就能修。


案例 2:SaaS 公司 — 客戶問方案差異,AI 跨產品線錯接

情境:某 B2B SaaS 同時賣「企業版」(月 NT$3,000)跟「Enterprise」(月 NT$15,000)。差別在於 SLA、SSO、API quota。

接了 Claude API,把官網所有產品介紹丟進 prompt。

出包:

客戶問:「企業版有 SSO 嗎?」 Claude 答:「有的!企業版完整支援 SSO,以及 SAML 2.0 整合。」

實際上: - 企業版沒有 SSO(那是 Enterprise 才有) - 客戶簽約後發現,直接合約解除 + 客訴 - 業務跑去買鹹酥雞陪笑

技術原因:Claude 看到一份混合兩個產品的長文檔,它沒辦法準確區分「SSO 屬於哪一個 plan」。當問題本身模糊(「企業版」可指兩個產品),它選了「看起來功能比較多的那個」——這叫 plausibility bias(合理性偏誤)。

→ 解法不是更長的 prompt,是結構化檢索(RAG)+ 明確的產品分類元數據。LLM 不該自己猜哪個是「企業版」,該由系統先做產品識別,再餵正確段落。


案例 3:遊戲公司 — 客戶問補償,AI 隨口承諾

情境:某遊戲公司剛上線新活動,儲值禮包有 bug。客戶湧入問。

工程師急著把 GPT-4 接成第一線過濾。system prompt:「請耐心安撫玩家情緒,協助解決問題。」

出包:

玩家:「我儲了 1,500 但禮包沒拿到!!」 AI:「真的很抱歉造成您的困擾!我幫您補發兩份禮包作為補償,並另外贈送 5 顆神祕水晶請您查收 🎁」

實際上: - 該遊戲沒有「補發兩份」這種補償制度 - 「神祕水晶」不是這款遊戲的道具(LLM 自己編的) - 玩家截圖傳社群 → 病毒式擴散 → 真的不補就被告詐欺,真的補的話之後每個玩家都要這待遇

→ 慘案。客服總監當天被約談。

技術原因:LLM 學過大量「安撫客戶」的範例(來自亞馬遜、星巴克等 CS 訓練語料),它的「親切感」就是承諾。它不知道你公司的補償政策,就用「最像最善意的承諾」當預設值。

→ 治法:除了 RAG 約束知識庫,還要在 system prompt 寫明:「不准承諾任何補償、贈品、優惠。」並且設 ACTION tag,只要偵測到「補償類」字眼就直接 [ESCALATE] 轉真人。


案例 4:金融 — AI 把法律條款講錯

情境:某線上券商,接 GPT-4 答開戶、交易、稅務問題。

出包:

客戶問:「股息要不要扣 30% 稅?」 AI 答:「外國公司股息會被扣 30% 美國預扣稅,但您可以選擇 Form W-8BEN 申報降到 10%。」

聽起來很專業對吧?但這個答案: - 適用美國,但台灣個人投資人 W-8BEN 的折算邏輯不同 - 而且這券商是台灣本土券商,沒做美股業務

→ 客戶按 AI 講的去問會計師,會計師覺得他在亂講;客戶投訴券商「AI 給錯資訊」;券商發金管會合規警示函

技術原因:法律 / 稅務 / 醫療等高度監管領域,LLM 答得「很像對」但其實是訓練資料時段的舊版錯誤地域。這在 high-stakes 行業是致命的。

→ 這類產業 99% 不該用通用 LLM 當客服一線。應該: 1. 知識庫只放「經法務審核」的固定段落 2. 任何法律 / 稅務問題強制 [ESCALATE] 給合規認證的真人 3. 後台有合規記錄(誰問了什麼、AI 回了什麼)


案例 5:訂閱服務 — AI 把競品功能說成自家有

情境:某 SaaS 訂閱服務,接 OpenAI API,system prompt 丟了 30 頁產品介紹。

出包:

客戶問:「你們有支援 Slack 整合嗎?」 AI 答:「有的!我們完整支援 Slack 整合,可以做即時通知、bot 互動、和Slash command。」

實際上:該產品沒有 Slack 整合。LLM 從訓練資料抓了競品(Asana、Notion、Linear)的 Slack 整合說明,套到這家頭上。

→ 客戶簽了月約後發現,要求退費。而且把這事寫在 Twitter,被 1.2 萬人轉

技術原因:LLM 沒有「不知道」的本能。當問題的答案不在它看過的特定資料中,它會去找功能上類似的競品的答案,套過來。這在「功能比較」、「整合性」、「API 支援」這類問題上最嚴重。

→ 治法:嚴格的 RAG + 在 system prompt 寫死「只能答下方知識庫有寫的功能。沒有寫的一律回『此功能我們目前不確定,我幫您轉給專員確認』」。


五個包的共同根因

把上面攤平,你會發現都是同一個機制在作怪:

LLM 的訓練目標是「生出聽起來合理的文字」,不是「只在知道答案時才開口」。

「不知道」對 LLM 來說是個反直覺的訓練目標——大多數的 fine-tuning 資料,助理都「盡量幫忙」。所以你不寫死規則,它預設就是幫客戶解決問題的態度——even when 它根本不知道答案。

這個機制在「幫一個學生寫作業」的場景沒問題(學生會自己 verify)。但在「幫公司答客戶問題」的場景,生死攸關


治得了嗎?可以,但不是「接 API」就好

下面這套架構任何一家公司花錢都做得起來(請工程師三個月也能做):

1. RAG retrieval(向量資料庫,只回答有寫的事)
   參考 → blog/02-rag-shi-shen-me.html

2. system prompt 寫死:「沒寫的事一律 [UNKNOWN],不准補腦,
                       不准承諾任何補償/優惠/功能」

3. ACTION tag 強制路由:
   [ANSWER]  → 顯示回答
   [UNKNOWN] → 轉真人或引導留聯絡
   [ESCALATE]→ 高風險詞自動觸發(法律/稅務/補償)

4. citation 系統:每個答案附「來自知識庫第 X 條」,
                  約束 LLM 不亂講

5. 後台 audit:管理員可看每一輪對話,
                揪出「答對問題但語氣不對」、「KB 缺漏」等問題

我們薩摩自家小愛就是這套架構。訪客刁難她一個 KB 沒寫的問題,她不會掰——這是我們花最多力氣保證的事。

親手刁難看看 →


那為什麼大家還是急著接 ChatGPT?

我訪談過上面那 5 家公司,4 家當初都是工程師主導

工程師的邏輯通常是: 1. 「OpenAI API 不就幾行 code 嗎,我寫一下就好」 2. 「上面老闆說要做 AI,我們先丟個 demo 看」 3. 「成本就 API token,很便宜」 4. 「prompt 多寫一點就能控制了吧」

每一條都不錯,但合起來會死人。原因是工程師沒被訓練做「對外的服務」——他們做的是「對內的工具」。

「對內工具」可以容忍 hallucination(寫 code 助理 bug 自己 debug)。 「對外服務」每個 hallucination 都直接打到品牌信任。

這不是工程問題,是商業設計問題


結論:不要省這個錢

「自己接 ChatGPT 當客服」短期看似省 60% 預算(SaaS 月費 vs OpenAI token 費),但你會在以下隱性成本上付兩倍:

隱性成本 估算
第一次出包(客訴禮卷 / 退費 / 法律) NT$50,000 - 500,000
工程師花的時間(prompt 調、KB 整理) 200-400 小時
客戶信任度傷害(沒辦法 quantify 但很真)
修 bug 後重建知識庫 80-160 小時

多數情境下,直接買 SaaS 或找客製化廠商,反而便宜。

如果你還是想自己接,至少做到本文上面說的那 5 件事。


想清楚的話

  • 可以承受幻覺風險:純內部工具、原型 demo,OK
  • 電商 / SaaS / 訂閱服務 / 一般服務業:用我們的 選型指南 判斷該找 SaaS 還是客製
  • 金融 / 醫療 / 法律 / 遊戲補償:絕對不能用通用 LLM 當一線。要做也是高度約束的客製方案,我們適合的話可以聊聊
  • 想看真實 demo:薩摩小愛,她會誠實告訴你「不知道」

參考閱讀: - 為什麼 AI 客服總是答非所問? → - RAG 是什麼? → - 不要再買 AI 客服 SaaS →


黃少民 / Satsuma Creative

整合行銷創意公司。看過太多公司因為「想省錢」反而花更多錢的故事。