怎麼做一個專屬自己的 LLM:以及這件事真正在問的問題是什麼

AI 2026-05-29 · Satsuma Creative · 閱讀 8 分鐘

從零做 LLM 一億美金,但 system prompt / RAG / LoRA 三條路門檻不高。真正的問題不是怎麼做,是「把自己放進去」需要哪三層。

——以及這件事真正在問的問題是什麼

我問了 Claude 一個問題。

一般人有辦法做自己的 LLM 嗎？

不是「用 LLM」，是「做一個自己的」。

然後我們聊了很長一段時間。聊到最後，我發現這個問題的答案不重要，重要的是這個問題背後在問什麼。

從技術開始說

做一個從零開始的 LLM，門檻是這樣的：

資料   → TB 級的乾淨文字
算力   → 幾千顆高端 GPU，跑幾個月
錢     → 訓練一次 GPT-4 級別，估計超過一億美金
人     → 幾十到幾百個頂尖研究員

一般人做不到。這條路不用想。

但「自己的 LLM」有幾種不同的意思。

最輕量的是 System Prompt——告訴模型你是誰、你的語氣、你的框架，每次對話它就帶著這個進來。不是改變模型，是每次給它穿一件衣服。

中間是 RAG——把你寫過的所有東西向量化，做成知識庫，模型回答問題時從你的文字裡找參考。它說的話會帶著你說過的東西的影子。

真正改變模型本身的是 LoRA 微調——拿一個開源模型（比如 Qwen2.5-7B），用你的資料再訓練一次，讓它在骨子裡往你的方向漂移。

微調怎麼做

選模型的話，中文場景用 Qwen2.5-7B 最合理。中文能力開源裡最強，7B 在一般硬體上跑得動。

資料格式很簡單：

{
  "instruction": "用你的語氣寫一段關於意義的思考",
  "output": "意義不是找到的。是在差異裡浮現的......"
}

幾百筆到幾千筆這樣的資料對。來源是你所有寫過的東西——部落格、論文、創作、對話記錄。

訓練不需要自己有 GPU。開一個 GCP 的 T4 instance，跑兩三個小時，幾十塊美金，跑完關掉。用 Unsloth 這個工具，記憶體省、速度快，門檻不高。

跑完把模型搬回本地，用 Ollama 在自己的機器上跑。完全離線，資料不出去。

LoRA 在做什麼，用一句話說

一般的 Qwen，學的是對所有人來說最合理的下一個 token。它的「合理」來自幾乎所有人類寫過的文字的統計平均。

LoRA 做的事，是在這個平均值上面，疊加一個往你偏移的方向。

原始模型：對人類整體最合理的猜想
    +
LoRA 層： 修正向量，把「合理」的定義往你漂移
    =
微調後：  對黃少民最合理的猜想

但「最合理」這三個字值得停一下。

你的「最合理」，不是統計意義上的合理。是幾十年積累之後，你看一件事會有的那個第一個反應。那個反應有時候不是最常見的，有時候反而是繞過常識、跳到別人想不到的地方。

LoRA 能學到你的偏移方向，但那個偏移裡最有價值的部分——你為什麼這樣想、這個想法從哪裡來——它學不到。它學到的是結果的形狀，不是產生這個結果的路徑。

更準確的說法是：

往我說過的話裡，最常出現的那個合理。

你還沒說出來的合理，它猜不到。你改變想法之後的合理，它要重新學。你在某個當下、某個處境裡才會有的合理，它沒有辦法處理。

這就是為什麼這個東西需要持續餵養。你繼續寫，它繼續學，它的「對你最合理的猜想」才會跟著你走。沒有痕跡的地方，它還是會用人類平均來填。

但模型大小很重要

我問：模型再大會更好嗎？

會。但有個轉折點。

7B  → 能學到語氣和表達模式
14B → 開始能學到思考結構
32B → 能學到推理方式和價值判斷
70B → 接近知識深度和論述邏輯

模型越大，對資料質量的要求越高。幾百篇文章餵給 70B，學到的還是表面。不如把同樣的資料餵給 14B，反而更集中。

但老實說，在「像不像你」這件事上，大模型加好的 context，會贏過微調小模型。Claude 或 GPT-4 加上你的知識庫和仔細的 system prompt，效果比微調 7B 更接近你想要的。

微調小模型真正的價值是：完全離線、低成本、大量運行。

然後問題變了

我說，我想要的不只是語氣像我。我想要骨子裡像我。

Claude 說了一件事讓我停下來。

微調能學到語氣、框架、偏好、風格。但它學不到的是：三十年劇場經驗裡身體的記憶、某個下午讀到一句話突然通了的感覺、對某件事的猶豫和那個猶豫背後的原因、還沒有寫出來的東西。

「骨子裡像你」需要兩件事同時做。

一個有深度的基礎模型——因為你的思考有深度，需要一個有深度的模型才能接住。加上把你的東西結構化餵進去——不只是文章，還有你怎麼看一件事的過程、你改變想法的時刻、你覺得重要但還沒說清楚的東西。

而且這不是一次性的工程。是持續積累。你繼續寫，每一篇文章每一次對話都進知識庫，模型對你的理解會越來越深。

每個人都可以有專屬的 LLM

這件事已經在發生。

記憶系統、個人知識庫 RAG、持續微調——幾個大方向都在往這裡走。Apple Intelligence 在你的裝置上看你的行事曆和習慣，NotebookLM 讓模型活在你上傳的文件裡，Claude 的記憶系統越用越了解你。

技術問題已經不是問題。

但它帶出了另一個問題。

當每個人都有一個越來越像自己的模型，這個模型說的話算是你說的嗎？它代表你做的決定算是你的決定嗎？它比你更了解你的模式，那它是你的工具，還是你的一部分？

這和上一篇說的「文章是誰的」是同一個問題，往前推了一步。

我真正想做的事

我在 saomin.tw 有一個小小的對話功能。

我一直在想像著某一天我掛了，還會有一個東西，可以按我的思考、記憶，回答或是和活著的人互動。

這不是聊天機器人。是一個認知的外化——把我怎麼看世界、怎麼思考、怎麼回應，變成一個可以持續運作的東西。

這個想法有個名字，有人叫它 Digital Afterlife，也有人叫 Persona AI。現在已經有公司在做，但沒有人做到這個深度——因為那些都是通用的，不是從一個人幾十年的積累長出來的。

「把自己放進去」需要什麼

分三個層次。

第一層：我說過的話。 部落格文章、論文、塔羅文字、劇場文字、對話記錄。這是最容易收集的，也是最表面的一層。

第二層：我怎麼思考。 遇到一個問題，我的第一個反應是什麼。我習慣從哪個角度切入。我什麼時候會停下來，什麼時候會繼續推。我怎麼處理自己不確定的事。這層比較難，需要刻意記錄。今天這整個對話，就是很好的材料——不只是結論，是問問題的方式。

第三層：我的價值判斷。 我覺得什麼重要。我不在乎什麼。我對某些事的立場。我的矛盾和猶豫。這層最難，也最關鍵。沒有這層，出來的東西說話像我，但遇到真正的問題會給錯答案。

所以現在可以開始的第一步

不是技術，是記錄。

開始有意識地把你怎麼思考這件事寫下來。不是結論，是過程。

今天這個對話就是一個例子。從 LLM 怎麼運作問到德希達問到意識難題問到想把自己外化進一個模型。這條線，這個跳躍的方式，比任何結論都更能代表你是誰。

以前一個人的思維方式，死了就消失了。留下來的只有文字，但沒有辦法互動。

現在有了另一種可能——不只是留下文字，而是留下某種可以繼續對話的東西。

這是好事還是壞事，我不知道。

但它正在變成可能。而我想試試看。

延伸閱讀： - 我們不知道意識怎麼來的，LLM 只是讓這件事無法繼續假裝 - 文章是誰的？讀者的。 - 問一個東西它自己是怎麼運作的