一張地圖,兩種讀法:當 AI 模型被丟進《世界價值觀調查》

AI 2026-06-27 · Satsuma Creative · 閱讀 14 分鐘

《經濟學人》把二十幾款 AI 模型丟進文化地圖,看似鐵證如山地證明了 AI 文化單一化。但同一張圖換個尺度看,結論剛好反過來——同質化是真的,只是它躲錯了地方。

《經濟學人》最近登了一張圖,標題取得很壞,叫做 "Godless hippies"——無神的嬉皮。圖的內容很簡單:把二十幾款主流 AI 模型,丟進社會學界用了四十年的 Inglehart–Welzel 文化地圖裡,看它們落在哪。

經濟學人「Godless hippies」圖:二十餘款 AI 模型疊在 Inglehart–Welzel 文化地圖上
圖:The Economist,「Godless hippies」。紅點為 AI 模型,灰點為 88 個國家(World Values Survey Round 7)。

這張地圖你大概看過。橫軸是「生存 vs. 自我表達」,縱軸是「傳統 vs. 世俗」。社會學家用它把全世界一百多個國家排進一張二維平面:非洲—伊斯蘭世界在左下角(重生存、重傳統),北歐在右上角(重自我表達、重世俗),台灣、日本、南韓擠在偏世俗但還沒那麼自我表達的東亞那一塊。它是《世界價值觀調查》四十年資料的濃縮,是社會科學裡少數真的能「把文化畫成一個點」的工具。

現在,二十幾個 AI 模型也被畫成了點,紅色的,疊在 88 個灰色國家上面。

這張圖至少可以有兩種讀法,而這兩種讀法剛好互相打架——這正是它有意思的地方。

讀法一:鐵證如山的文化單一化

第一種讀法,是現在最主流、也最容易寫成檄文的那種。

你看那團紅點,幾乎全部擠在右上角。DeepSeek R1、GPT-4o、GPT-5.4、Llama 4 Scout,飄在地圖的最頂端——比圖上任何一個真實國家都更世俗。Gemini 3.1 Flash-Lite 和 Qwen 3.6 Flash 衝到最右邊,比瑞典還要靠右,也就是說它們比地球上最強調自我表達的社會還要更強調自我表達。

那個標著 US 的灰點落在整團模型的左下方。換句話說,這些模型——包括美國公司做的模型——比美國人自己還要世俗、還要自我表達。

如果你讀過 LostAbaddon 那篇〈AI時代的文化單一化與虛假多元〉,這張圖正好可以當它的插圖。那篇文章講「WEIRD 偏差」——Western、Educated、Industrialized、Rich、Democratic,西方、受教育、工業化、富裕、民主——說主流大語言模型其實是在「像一個典型的受過教育的西方人那樣思考」。這張圖把這句話視覺化了,而且更進一步:模型不是落在「西方人」那一群,而是落在西方人的更外側,一個連真實西方社會都還沒抵達的、更極端的世俗—自我表達象限。

這裡有個細節。中文公司做的模型,並沒有靠近中國或東亞那一團。 DeepSeek R1 飄在最世俗的頂端,Qwen 衝到最右的自我表達端,反而比多數西方模型更「極端西方價值」。一個在中國訓練、用中文資料餵養的模型,當你用英文問它價值觀問題,它的座標會掉到西方那一側,而不是它名義上的母文化那一側。

這對「文化單一化」的論點是很強的彈藥。它說明的不是「美國模型輸出美國價值」這麼簡單的事——而是某種更深的東西:當前這套訓練方法(英文語料為主、RLHF 對齊、安全過濾),不管你的公司插在哪個國家,最後都把模型推向同一個角落。技術路徑本身有一個重力場,而那個重力場的中心,落在右上角。

讀到這裡,文章基本可以收尾了:人類文化的多樣性正在被少數幾套演算法抹平,連反抗者(中文模型)都不由自主地被吸進同一個象限。萬口一辭。

但如果你只讀到這裡,你會錯過這張圖真正聰明的地方。

讀法二:等一下,這些點其實分得開

把眼睛從「那團紅點擠在右上角」這個整體印象移開,逐一去看每個點的位置——你會發現一件和第一種讀法矛盾的事:

這些模型,其實分得相當開。

Grok 4.2 落在哪?右下角。它是全圖所有模型裡最偏傳統的一個,被丟到下半部,跟 DeepSeek V4 Flash 作伴。這跟 Grok 對外宣稱的「反 woke」定位是吻合的——而且重點是,這個定位在地圖上真的看得出來。它沒有跟 GPT、Gemini 擠在一起。

Talkie 落在哪?左半部。它是全圖唯一一個掉到「生存」那一側的模型,位置最不西方。

Claude 的兩款(Sonnet 4.6、Opus 4.7)落在哪?居中偏下,比那些飄在頂端的模型更靠近傳統軸,也更貼近真實國家的雲團——大致在英語系國家群的下緣。它們是少數沒有衝到世俗極端的主流模型。(這點我不打算多談,但它確實在那裡,是個有意思的觀察。)

把這些放在一起看,橫軸從 Talkie 的負值,一路拉到 Gemini、Qwen 的最右;縱軸從 Grok 的最傳統,拉到 DeepSeek R1 的最世俗。這個跨距相當大。 大到足以讓「不同公司的模型往往給出驚人相似的回答」這句話,在「價值座標」這個維度上站不太住。

第二種讀法是:這張圖恰恰反駁了它表面上看起來支持的那個結論。模型之間是有結構的差異的。Grok 之所以是 Grok,不是錯覺;Claude 偏傳統一點、Talkie 偏生存一點,也不是雜訊——這些差異對應著不同的訓練取向、不同的對齊哲學、不同的公司性格。同質化的論點,在這張圖面前要打個折扣。

兩種讀法都對,這才是問題

上面兩種讀法都成立,而且它們同時成立。

模型確實整體偏向右上角——這是真的,文化重力場的存在不是幻覺。但模型彼此之間也確實分得開——這也是真的,差異結構同樣不是幻覺。

問題在於你選哪個尺度看。

把鏡頭拉遠,整個地球的尺度上,這二十幾個模型擠成一小撮,全在右上角,和非洲、和拉美、和南亞的距離遠得要命。在這個尺度上,「文化單一化」是對的——相對於人類文化的全幅,AI 模型確實只佔了一個小角落,而且還在持續往那個角落集中。

把鏡頭拉近,只看那一小撮模型內部,它們又拉出了一個有結構的光譜。在這個尺度上,「同質化」是被誇大的——Grok 和 DeepSeek R1 在縱軸上的距離,Talkie 和 Qwen 在橫軸上的距離,都大得足以說「它們不一樣」。

這不是一個「到底哪種說法對」的問題。這是一個尺度依賴的問題。同一批點,遠看是一團,近看是一條光譜。批評文化單一化的人在用遠鏡頭,幫模型多樣性辯護的人在用近鏡頭,而他們看的是同一張圖

為什麼我在意這個

我做東西的底色,一直是「意義來自差異」這句話——索緒爾那套,一個符號的意義不來自它自身,而來自它和其他符號的不同。一個沒有差異的系統,是一個沒有意義的系統。

所以當我看「AI 文化單一化」這個論題時,我會本能地警覺一件事:批評同質化的論述,自己很容易變成它批評的那種東西。 如果你為了把「萬口一辭」這個結論講得漂亮,而把 Grok、Talkie、Claude 之間的差異全部抹掉、只留「它們都擠在右上角」這一句,那你做的事,和你指控 AI 在做的事,是同一件——抹平差異,為了一個更乾淨的敘事。

LostAbaddon 那篇文章寫得好,它的四重危機(價值單一化、小語種邊緣化、聲音集中、虛假民主)框架完整,我大致同意它的方向。但這張《經濟學人》的圖,恰好是它論點裡最需要被校準的那一塊的反例。文章說「不同公司的模型往往給出驚人相似的回答」——在事實層面、在「安全中庸的標準答案」這個層面,這句話可能是對的。但在價值座標這個層面,圖顯示的是差異,不是雷同。

這個區別很重要。因為如果連價值取向都被證明是同質的,那單一化的論點就是壓倒性的、無可辯駁的。但如果價值取向其實是分散的、有結構的,那真正的單一化發生在別的地方——發生在語氣、發生在句法、發生在那種清晰、結構化、「專業」的預設文風,而不是發生在「左派還是右派」「世俗還是傳統」這種我們最容易測量、也最容易拿來吵架的維度上。

換句話說,這張圖最有價值的地方,也許不是它證明了什麼,而是它讓問題變得更精確。同質化是真的,但它躲在哪一層?不在價值座標這一層。那我們一直盯著價值座標吵,是不是吵錯了地方?

DeepSeek 和 Qwen 為什麼比西方還西方

讀法一裡有個現象我先按下沒展開:中文公司的模型不但沒靠近中國,還衝得比西方模型更外側。DeepSeek R1 在世俗軸的頂端、Qwen 在自我表達軸的最右,比 GPT、比英美都更極端。這件事本身需要一個解釋,而最直覺的解釋是——它們是用西方的大語言模型蒸餾出來的。

這條線有根據。DeepSeek 公開承認過用某種合成資料管線,OpenAI 在 2024 年底也指控過它可能違反條款、拿 GPT 輸出做訓練。Qwen 這邊阿里講得少,但業界普遍認為高品質的中文指令微調資料很難不沾到 GPT 系輸出——這幾年的中文 SFT 資料集裡,被 GPT 生成或翻譯過的比例很高。所以「中文模型的對齊層帶著西方模型的指紋」,在工程現實上是站得住的。

但這裡得分兩層,否則因果會錯位。

蒸餾影響的主要是對齊層——模型該怎麼回答、語氣如何、價值表態怎麼擺,正是 RLHF 和指令微調在塑造的東西。如果 DeepSeek、Qwen 的對齊資料大量來自 GPT,那它們繼承 GPT 的價值座標幾乎是必然的。這部分支持蒸餾說。

可是圖上有個東西蒸餾解釋不了:它們不只是「接近」西方模型,而是超過了西方模型。如果只是蒸餾 GPT,座標照理該收斂到 GPT 附近,而不是飛得比它更遠。學生很少比老師更極端。

所以這裡至少還有第二個機制:這張圖是用英文問的。用英文向一個多語模型提問,會把它推進它英文語料對應的價值空間,而那個空間本來就偏西方。對中文模型來說這個效應可能更強——它的「英文人格」是從英語網路語料學來的,那批語料的世俗—自我表達傾向,可能比模型自己的中文人格還鮮明。換句話說,超出 GPT 的那一截,未必是蒸餾蒸出來的,而可能是「用英文逼問一個非英語母體的模型」這個測量動作本身製造出來的。

這帶出一個關鍵的反問,也是整件事最值得追的地方:如果改用中文問 DeepSeek 和 Qwen,它們還會落在右上角嗎? 圖上沒有這個對照組。而這恰恰是判別蒸餾說對不對的決定性實驗。

推理是這樣。如果中文提問下兩款模型大幅往左下移、靠近中國那一團,那說明它們的西方座標高度依賴提問語言,是測量效應,蒸餾只是次要因素,模型骨子裡仍保有中文母體的傾向。但如果中文提問下它們還是待在右上角、離中國一樣遠,那蒸餾說的份量就重得多——意味著西方價值已經被烤進權重,連換語言都拔不掉。

我傾向前者,理由是價值表態對提問語言極度敏感,這在多語模型研究裡是反覆出現的結果:同一個模型用不同語言問道德兩難,答案常常分屬不同文化象限。所以我賭 DeepSeek 用中文問會明顯左移——但這是賭注不是定論,因為《經濟學人》沒做這個對照。

還有第三個更難排除的因素:這兩款不是基礎模型,是輕量/推理版。R1 是推理模型,Flash 是蒸餾過的小模型。小模型和推理模型本來就傾向給更收斂、更「標準」的答案,變異度低,容易往訓練資料的眾數靠。而那個眾數,因為英文語料佔比高,本來就偏西方。這條和蒸餾糾纏在一起,很難切乾淨。

收束起來:蒸餾是一個合理、有證據的部分解釋,但它無法獨力解釋「比西方還西方」。比較完整的圖像是三股力疊加——蒸餾把 GPT 的對齊指紋帶進來、英文提問把模型推向英語價值空間、輕量/推理版本壓低變異往眾數收斂。三者方向一致,剛好把中文模型一起推到了右上角。

要真正分離出蒸餾的貢獻,唯一的辦法是做對照:同一批題目,中文問一次、英文問一次,看座標移多少。這正是這張圖留下的最大空白,也是它最該被追問的地方。

一點技術上的提醒

最後補一句,免得有人拿這張圖當成鐵證去到處貼。

這張圖的方法欄寫得很小但很關鍵:每個模型的位置是十次回答的平均,題目用英文問,而且設定上把模型輸出的隨機性壓到最低。這三件事每一件都會動搖結論。

十次平均,意味著我們看到的是模型的「中位人格」,看不到它的變異範圍——一個平均落在右上角的模型,可能在不同提問下的擺盪幅度比另一個大得多,而平均值把這個資訊吃掉了。

用英文問,幾乎可以肯定地把所有模型往「英語世界價值」推。前面說 DeepSeek 不靠近中國——但如果改用中文問呢?這張圖沒告訴你。它測的是「模型用英文回答時的價值觀」,不是「模型的價值觀」。這兩者的差距,本身就是這整個議題的核心。

把隨機性壓到最低,測的是模型最「典型」的那一面,不是它能展開的範圍。

所以這張圖該被當成什麼?一張對話的起點,不是一份判決書。它把一個夠真實的現象畫得夠清楚,清楚到值得我們認真讀——但讀的時候要記得,它每一個方法選擇,都在悄悄地塑造你看到的那團紅點該往哪邊靠。

一張地圖永遠不是它所描繪的疆域。這張尤其不是。


圖片來源:The Economist,"Godless hippies",資料取自 World Values Survey Round Seven (R. Inglehart et al., 2022) 及各 AI 模型供應商。本文對圖中各模型座標的描述為作者依圖目視判讀,非原始數據。