我終於有一個叫喚不會抱怨的工程師了

AI 2026-06-19 · Satsuma Creative · 閱讀 8 分鐘

Anthropic 用 23.5 萬人、40 萬個 session 證明:AI 寫程式的成敗不看你會不會 coding,看你懂不懂自己在做什麼。一個三十年的 PM 終於有了不會抱怨的工程師——但他認出開心裡那塊危險:它幫你抓 bug,抓不到人心;而最後驗收你的,是市場。

Anthropic 用 23.5 萬人、40 萬個 session 證明:成敗不看你會不會寫程式,看你懂不懂自己在做什麼。對一個做了三十年 PM 的人,這結論該讓我開心——我確實開心,但開心裡有一塊我認得出來的東西,是危險。

——一個 PM 的天堂,跟天堂裡那個沒人按的煞車

先說最誠實的:我很爽。

我做了快三十年的事,本質上就是叫喚別人把事做出來。估時、催進度、接住「這個需求很奇怪喔」的白眼。我這輩子的工作,一大半是在跟「執行那一端是人」這件事搏鬥——人會累、會煩、會有意見、會在你最趕的時候請假。

現在,執行那一端來了一個新的。

它不問為什麼。不嫌需求醜。半夜三點不抱怨。改十遍不翻臉。你叫它做,它就去做,回來還附一份它自己寫的進度報告,語氣比我有禮貌。

它唯一會「用完」的,是 token。但 token 是錢,錢我算得出來;人的耐心算不出來。這已經是我這輩子遇過最好算的一種乙方成本。

六月十六日 Anthropic 出了一份報告,叫〈Agentic coding and persistent returns to expertise〉。它把 23.5 萬人、近 40 萬個 Claude Code session 攤開,得出一個對工程師有點刺、對我這種人卻像情書的結論:

人負責決定做什麼,AI 負責決定怎麼做。 平均下來,人做七成的規劃決策,Claude 做八成的執行決策。

換成我的話:我出一張嘴,它跑一整個下午。而且不用我請它喝咖啡。


報告說的「專家」,剛好就是 PM 那種專家

這份報告最聰明的地方,是它重新定義了「專業」。

它說的 expertise,不是職稱,不是會不會寫程式。它是任務特定的。報告舉了一個例子我很喜歡:一個資深工程師,問他人生第一個 Rust 問題,在那個任務上他就是新手;反過來,一個從沒碰過 Python 的會計,如果他能精確告訴 AI 對帳要守哪些規則、還能一眼抓出 AI 在月底結算時漏掉的邊界情況——在那個任務上,他就是專家。

報告的數字很乾脆:新手下一個指令,平均觸發 AI 五個動作、六百字輸出;專家下一個指令,觸發超過兩倍的動作、五倍的輸出。你越懂這件事,AI 替你做的就越多。

而它測出來的成敗,不靠 coding 背景。會產生程式碼的 session 裡,十大職業每一個的成功率,都落在軟體工程師七個百分點以內。最高的不是工程師——是管理職。

報告自己給的解釋是:管理技能會轉移到「指揮一個 agent」上。

這不就是 PM 嗎。PM 的核心能力從來不是會做,是知道該做什麼、把它拆對、講清楚、然後盯到完成。報告測了 23.5 萬人,繞一大圈,量出來的就是這個。


開心到這裡都是真的。但「不會抱怨」這四個字,我得停一下

我做了三十年這行,有一個直覺,報告的數字救不了。

我得先講清楚一件事,免得被誤會成在嘴 AI:程式上的抓錯、測 bug,Claude 做得很好。 我每天都請它做。它幫我看哪段邏輯會炸、哪個邊界沒守、哪裡會跳 502——這種「可驗證的對不對」,它比我快、比我細、比我有耐心。報告裡那些 verified success,靠的就是這種驗收,它名副其實。

問題不在這裡。問題在另一種驗收。

我做廣告做了快二十年,最怕的從來不是「程式跑不跑」。是「TA 看到這個,真實的反應是什麼」。那個反應,不會出現在任何測試套件裡。一支片、一個 idea、一句 slogan,丟到真實的人面前,他會不會停下來、會不會轉傳、會不會覺得「這在說我」、還是覺得「乾我屁事」——這件事,是品味在運作,而且要對「人」有一種說不太清楚的判斷。

Claude 不知道我們的 TA 真實的反應。它沒辦法知道。它能把文案寫得文法完美、結構漂亮、邏輯通順——然後那支文法完美的東西,丟到市場上沒有人理。它幫我測得了 bug,測不了人心。

而我以前是有同事會替我測人心的。


報告測得到「成功」,測不到「該不該做」

這就是我跟這份報告分手的地方。

它的「成功」定義得很清楚也很誠實:verified success——靠 git commit、測試通過、使用者明講「對,就是這個」。這是一種可驗收的成功。程式能跑,就是成功。

但我三十年在量的東西,從來不留 git commit。

「殺很大」那個 idea 之所以是那個 idea,不是因為它能跑、能編譯、能通過測試。是因為它在某個會議室裡,讓一個有膽量的老闆眼睛亮了一下,也讓另一個保守的人皺眉說「這樣好嗎」。那個亮、那個皺眉,是品味在運作。它沒有測試套件。

報告說「中階跟專家的成功率差距很小,懂個大概就抓到大半好處了」。在它的尺規上,這是對的。但它的尺規量的是「能不能做出來」。換成「該不該做這個」「這個有沒有膽」「客戶心裡真正怕的是什麼」——那條線根本不在報告的座標系裡。

我不是說報告錯。我是說,它很老實地只量了它量得到的那一半。而我吃飯的本事,剛好全在它量不到的另一半。

所以當報告暗示「工具把勝任者拉到接近精通者,三十年積累的邊際價值被稀釋了」——我不慌。因為被稀釋的是「會做」那一塊。而我這三十年,從來不是靠會做活下來的。


結尾

一個叫喚不會抱怨的工程師,有多開心?

非常開心。我說真的。我一個人掛著十個專案還能睡覺,全靠它。它把我從「執行是人、是瓶頸、是要哄的」這件事裡放出來了。報告講的那條「任務長度每幾個月翻倍」的曲線,我每天活在上面,而且受益。

但開心到一個程度,我認出了那個熟悉的形狀。

它不會抱怨,意味著它不會替我測人心。它能幫我抓 bug,抓不到 TA 的冷淡。報告把這叫「對專業的回報」,講得像是好消息——對一個有判斷力的人,工具會給你更大的槓桿。

是。但槓桿放大的,不只是你的判斷,還有你的盲點。一個會幫你測真實反應的同事,會在你錯估市場的時候皺眉。一個只會測程式的工具,會用前所未有的效率,把你錯估的東西做完、做好、做得很漂亮——然後一起丟進那個沒有人理的市場裡。

所以這份報告對我的真正意思,不是「我終於不用管人了」。是:

那個會替我判斷「TA 真的會買單嗎」的人,現在只剩我自己了。Claude 幫我守住程式那一端,人心那一端,我得自己守。

這件事,沒有任何模型替得了我。

不過話說回來,連我也不是最後那一關。

我守人心,守的也只是我對人心的「判斷」。判斷再準,它仍然只是判斷。真正按下對錯的,從來不是我,也不是 Claude——是市場。是那支片丟出去之後,會不會有人停下來、會不會有人轉傳、會不會有人掏錢。市場不抱怨,也不講道理;它只是用沈默或用轉換率,告訴你你猜對了沒有。

所以這條鏈其實是這樣的:Claude 驗收程式,我驗收人心,市場驗收我。它做的、我判斷的,最後全都要送到同一個沒有上訴的法官面前。AI 把「會做」變便宜了,把我推向「判斷」這一端;但它一路把我推上去,也只是讓我更早、更赤裸地,站到市場面前。

這大概才是最誠實的版本:我終於有一個叫喚不會抱怨的工程師了,這讓我做得更快、走得更遠——走到更前面,去面對那個我這三十年其實一直在面對、而且永遠不會變的東西。

市場會抱怨。而且它的抱怨,誰都駁不回。


延伸閱讀: - 當 AI 開始自己造自己,值錢的就不再是「會做」 - AI 搬進了每支手機。然後呢? - 薩摩創意怎麼做廣告 - 客戶嘴上要的是 Big Idea,心裡要的是別出事 - 原文:Agentic coding and persistent returns to expertise — Anthropic