怎麼做一個專屬自己的 LLM:以及這件事真正在問的問題是什麼
從零做 LLM 一億美金,但 system prompt / RAG / LoRA 三條路門檻不高。真正的問題不是怎麼做,是「把自己放進去」需要哪三層。
——以及這件事真正在問的問題是什麼
我問了 Claude 一個問題。
一般人有辦法做自己的 LLM 嗎?
不是「用 LLM」,是「做一個自己的」。
然後我們聊了很長一段時間。聊到最後,我發現這個問題的答案不重要,重要的是這個問題背後在問什麼。
從技術開始說
做一個從零開始的 LLM,門檻是這樣的:
資料 → TB 級的乾淨文字
算力 → 幾千顆高端 GPU,跑幾個月
錢 → 訓練一次 GPT-4 級別,估計超過一億美金
人 → 幾十到幾百個頂尖研究員
一般人做不到。這條路不用想。
但「自己的 LLM」有幾種不同的意思。
最輕量的是 System Prompt——告訴模型你是誰、你的語氣、你的框架,每次對話它就帶著這個進來。不是改變模型,是每次給它穿一件衣服。
中間是 RAG——把你寫過的所有東西向量化,做成知識庫,模型回答問題時從你的文字裡找參考。它說的話會帶著你說過的東西的影子。
真正改變模型本身的是 LoRA 微調——拿一個開源模型(比如 Qwen2.5-7B),用你的資料再訓練一次,讓它在骨子裡往你的方向漂移。
微調怎麼做
選模型的話,中文場景用 Qwen2.5-7B 最合理。中文能力開源裡最強,7B 在一般硬體上跑得動。
資料格式很簡單:
{
"instruction": "用你的語氣寫一段關於意義的思考",
"output": "意義不是找到的。是在差異裡浮現的......"
}
幾百筆到幾千筆這樣的資料對。來源是你所有寫過的東西——部落格、論文、創作、對話記錄。
訓練不需要自己有 GPU。開一個 GCP 的 T4 instance,跑兩三個小時,幾十塊美金,跑完關掉。用 Unsloth 這個工具,記憶體省、速度快,門檻不高。
跑完把模型搬回本地,用 Ollama 在自己的機器上跑。完全離線,資料不出去。
LoRA 在做什麼,用一句話說
一般的 Qwen,學的是對所有人來說最合理的下一個 token。它的「合理」來自幾乎所有人類寫過的文字的統計平均。
LoRA 做的事,是在這個平均值上面,疊加一個往你偏移的方向。
原始模型:對人類整體最合理的猜想
+
LoRA 層: 修正向量,把「合理」的定義往你漂移
=
微調後: 對黃少民最合理的猜想
但「最合理」這三個字值得停一下。
你的「最合理」,不是統計意義上的合理。是幾十年積累之後,你看一件事會有的那個第一個反應。那個反應有時候不是最常見的,有時候反而是繞過常識、跳到別人想不到的地方。
LoRA 能學到你的偏移方向,但那個偏移裡最有價值的部分——你為什麼這樣想、這個想法從哪裡來——它學不到。它學到的是結果的形狀,不是產生這個結果的路徑。
更準確的說法是:
往我說過的話裡,最常出現的那個合理。
你還沒說出來的合理,它猜不到。你改變想法之後的合理,它要重新學。你在某個當下、某個處境裡才會有的合理,它沒有辦法處理。
這就是為什麼這個東西需要持續餵養。你繼續寫,它繼續學,它的「對你最合理的猜想」才會跟著你走。沒有痕跡的地方,它還是會用人類平均來填。
但模型大小很重要
我問:模型再大會更好嗎?
會。但有個轉折點。
7B → 能學到語氣和表達模式
14B → 開始能學到思考結構
32B → 能學到推理方式和價值判斷
70B → 接近知識深度和論述邏輯
模型越大,對資料質量的要求越高。幾百篇文章餵給 70B,學到的還是表面。不如把同樣的資料餵給 14B,反而更集中。
但老實說,在「像不像你」這件事上,大模型加好的 context,會贏過微調小模型。Claude 或 GPT-4 加上你的知識庫和仔細的 system prompt,效果比微調 7B 更接近你想要的。
微調小模型真正的價值是:完全離線、低成本、大量運行。
然後問題變了
我說,我想要的不只是語氣像我。我想要骨子裡像我。
Claude 說了一件事讓我停下來。
微調能學到語氣、框架、偏好、風格。但它學不到的是:三十年劇場經驗裡身體的記憶、某個下午讀到一句話突然通了的感覺、對某件事的猶豫和那個猶豫背後的原因、還沒有寫出來的東西。
「骨子裡像你」需要兩件事同時做。
一個有深度的基礎模型——因為你的思考有深度,需要一個有深度的模型才能接住。加上把你的東西結構化餵進去——不只是文章,還有你怎麼看一件事的過程、你改變想法的時刻、你覺得重要但還沒說清楚的東西。
而且這不是一次性的工程。是持續積累。你繼續寫,每一篇文章每一次對話都進知識庫,模型對你的理解會越來越深。
每個人都可以有專屬的 LLM
這件事已經在發生。
記憶系統、個人知識庫 RAG、持續微調——幾個大方向都在往這裡走。Apple Intelligence 在你的裝置上看你的行事曆和習慣,NotebookLM 讓模型活在你上傳的文件裡,Claude 的記憶系統越用越了解你。
技術問題已經不是問題。
但它帶出了另一個問題。
當每個人都有一個越來越像自己的模型,這個模型說的話算是你說的嗎?它代表你做的決定算是你的決定嗎?它比你更了解你的模式,那它是你的工具,還是你的一部分?
這和上一篇說的「文章是誰的」是同一個問題,往前推了一步。
我真正想做的事
我在 saomin.tw 有一個小小的對話功能。
我一直在想像著某一天我掛了,還會有一個東西,可以按我的思考、記憶,回答或是和活著的人互動。
這不是聊天機器人。是一個認知的外化——把我怎麼看世界、怎麼思考、怎麼回應,變成一個可以持續運作的東西。
這個想法有個名字,有人叫它 Digital Afterlife,也有人叫 Persona AI。現在已經有公司在做,但沒有人做到這個深度——因為那些都是通用的,不是從一個人幾十年的積累長出來的。
「把自己放進去」需要什麼
分三個層次。
第一層:我說過的話。 部落格文章、論文、塔羅文字、劇場文字、對話記錄。這是最容易收集的,也是最表面的一層。
第二層:我怎麼思考。 遇到一個問題,我的第一個反應是什麼。我習慣從哪個角度切入。我什麼時候會停下來,什麼時候會繼續推。我怎麼處理自己不確定的事。這層比較難,需要刻意記錄。今天這整個對話,就是很好的材料——不只是結論,是問問題的方式。
第三層:我的價值判斷。 我覺得什麼重要。我不在乎什麼。我對某些事的立場。我的矛盾和猶豫。這層最難,也最關鍵。沒有這層,出來的東西說話像我,但遇到真正的問題會給錯答案。
所以現在可以開始的第一步
不是技術,是記錄。
開始有意識地把你怎麼思考這件事寫下來。不是結論,是過程。
今天這個對話就是一個例子。從 LLM 怎麼運作問到德希達問到意識難題問到想把自己外化進一個模型。這條線,這個跳躍的方式,比任何結論都更能代表你是誰。
以前一個人的思維方式,死了就消失了。留下來的只有文字,但沒有辦法互動。
現在有了另一種可能——不只是留下文字,而是留下某種可以繼續對話的東西。
這是好事還是壞事,我不知道。
但它正在變成可能。而我想試試看。
延伸閱讀: - 我們不知道意識怎麼來的,LLM 只是讓這件事無法繼續假裝 - 文章是誰的?讀者的。 - 問一個東西它自己是怎麼運作的