問大語言模型 LLM 它自己是怎麼運作的：問題是我的,答案是我們的,文章是誰的？

AI 2026-05-24 · Satsuma Creative · 閱讀 7 分鐘

找 Claude 問了一個下午:LLM 到底怎麼運作?從『預測下一個詞』講到 Self-Attention、QKV,然後到一個更不舒服的問題——AI 哪些事情已經不再需要人類了。

——問題是我的,答案是我們的,文章是誰的？

試著搞懂 LLM 這件事,我找了 Claude 來問。

不是工作上的問題,是那種坐下來、泡杯茶、純粹想搞清楚一件事的問題。

我問:大語言模型,到底是怎麼運作的？

然後我們聊了很長一段時間。

從「預測下一個詞」開始

LLM 做的事,說起來很簡單。

它看著一段文字,猜下一個詞是什麼。猜對了,強化這個方向。猜錯了,調整。重複幾十億次。

就這樣。

但「就這樣」這三個字,藏了很多東西。

要能持續猜對「下一個詞」,模型必須在內部建立對語言的某種理解,對世界的某種模型。它不是真的在查字典,它是在一個幾千維的向量空間裡,計算每個詞和其他詞的距離與方向。

「animal」和「dog」距離近,因為它們常出現在同樣的語境裡。「animal」和「street」距離遠,因為它們的前後文完全不同。沒有人告訴模型這件事。模型從統計規律裡,自己發現了。

這是重點。語義不是定義進去的,是浮現出來的。

QKV,一個詞怎麼問其他詞

Transformer 架構裡有個核心機制,叫 Self-Attention。

每個詞進入這個機制,會同時扮演三個角色:

Q（Query）——我在找什麼？
K（Key）——我能回答什麼？
V（Value）——找到了,我傳遞什麼？

舉個例子:

「The animal didn't cross the street because it was too tired」

「it」這個詞,它的 Q 向量去和句子裡每個詞的 K 向量做點積,算出相關性分數。「animal」的 K 和「it」的 Q 方向接近,分數高。「street」的 K 方向不同,分數低。

Softmax 把這些分數轉成機率,再用機率決定「it」要從哪些詞借多少語義。

最後「it」這個詞,吸收了大部分「animal」的語義,繼續往下走。

這不是查表。不是規則。是向量之間的幾何關係,訓練出來的幾何關係。

那「正確」是誰說了算？

訓練分幾個階段。

第一階段:預訓練。模型吃下幾乎所有人類寫過的文字,一直猜下一個詞,一直調整。這個階段沒有人介入,完全自動。

第二階段:微調和 RLHF。讓人類評估員告訴模型,哪個回答比較好,用這個信號繼續訓練。

第一階段,模型學到語言規律和世界知識。第二階段,模型學到「人類覺得什麼叫有幫助、什麼叫安全」。

這裡有個根本的限制:

模型學到的不是真理,是人類文字的統計規律。網路上的文字,包含錯誤、偏見、矛盾。模型全部吸收了。RLHF 能校正一部分,但不是全部。

這就是為什麼 LLM 會幻覺——它生成的是「聽起來最合理的續寫」,不是「查過資料庫的事實」。

AlphaGo 跟 LLM 的根本差異

我問 Claude:模型能不能像 AlphaGo Zero 那樣,自己跟自己對話來訓練？

Claude 說,不太行。

AlphaGo Zero 能自我強化,因為圍棋有客觀的勝負標準。自己下棋,輸贏一清二楚,信號乾淨。

語言沒有勝負。「這句話好不好」沒有唯一答案。如果讓模型自己跟自己對話來訓練,它會強化自己原有的偏見,沒有外部信號糾正它。這個問題叫 Model Collapse。

但我覺得 Claude 說的不夠完整

我想了一下,說:

「猜對下一個詞,這本身就是有答案的吧？在能不能用這個維度上,為什麼不能自我強化？」

Claude 停了一下。

然後說,你說得對。

在「能不能用」這個維度——程式碼能不能跑、數學證明對不對、邏輯有沒有矛盾——這些都有客觀答案,機器自己可以驗證。這些領域,AI 已經不需要人類提供新的原生內容來進步了。

這就是 o1、o3、DeepSeek-R1 能力突然跳躍的原因。它們用的是「可驗證獎勵的強化學習」,讓模型在有明確答案的任務上自我強化,不需要人類評估每一步。

2024 年,AlphaProof 在國際數學奧林匹亞拿到接近金牌的成績。那些證明,正確答案不在人類的記錄裡,是模型自己創造出來的。

那條線在哪裡？

圍棋有明確勝負,AI 超越人類了。

數學有形式驗證,AI 開始超越人類了。

程式碼有測試系統,AI 在很多場景超越人類了。

語言、創意、價值判斷——這些還沒有客觀標準,AI 還是以人類為天花板。

但這條線正在移動。

越來越多的任務被轉換成「可驗證」的形式,AI 就能在越來越多的領域脫離對人類語料的依賴,開始真正的自我超越。

所以問題不是「AI 什麼時候會超越人類」,而是:

哪些東西,可以被轉換成有客觀答案的問題？

能轉換的,AI 就能超越人類。不能轉換的,AI 還是需要人類。

讓我不舒服的地方

現在網路上充斥著大量 AI 生成的文字。

2020 年以前的網路,幾乎全是人類寫的。現在不是。

下一代模型爬這些資料來訓練,就會部分「讀到自己的後代寫的東西」。人類原創語料,正在成為稀缺資源。

這不是末日預言,是一個真實的問題,AI 訓練界正在面對的問題。

而且這個問題沒有簡單的解答,因為你很難在網路上標記「這是人寫的」「那是機器寫的」。

問題是我的,答案是我們的,文章是誰的？

在「能不能用」的範圍裡——AI 已經快不需要人類了。

在「好不好、對不對、值不值得」的範圍裡——還需要。

但那個範圍在縮小。

然後說回這篇文章本身。

問題是我問的。過程是我們一起走的。最後這篇文章,是 Claude 整理的——用我的語氣,沿著我們對話的順序,把今天發生的事情寫下來。

我沒有假裝這是我一個人寫的。

但我也沒有辦法說這完全不是我的。問題的方向是我決定的,哪裡不對我抓出來了,哪個地方值得深挖是我判斷的。那個判斷,現在還是我在做。

至於這算不算「寫作」,我不知道。

這篇文章的產生方式,本身就是今天我們聊的內容的一個例子。你自己判斷。

延伸閱讀: - 我怎麼稱呼 Claude？以及,我們怎麼相處 - AI 是鏡子,還是另一個人？ - 中文骨頭裡是英文:我們用中文跟 AI 工作,失去了什麼？ - 與 Claude.ai 相處半年的感想