我終於有一個叫喚不會抱怨的工程師了

AI 2026-06-19 · Satsuma Creative · 閱讀 8 分鐘

Anthropic 用 23.5 萬人、40 萬個 session 證明:AI 寫程式的成敗不看你會不會 coding,看你懂不懂自己在做什麼。一個三十年的 PM 終於有了不會抱怨的工程師——但他認出開心裡那塊危險:它幫你抓 bug,抓不到人心;而最後驗收你的,是市場。

Anthropic 用 23.5 萬人、40 萬個 session 證明：成敗不看你會不會寫程式，看你懂不懂自己在做什麼。對一個做了三十年 PM 的人，這結論該讓我開心——我確實開心，但開心裡有一塊我認得出來的東西，是危險。

——一個 PM 的天堂，跟天堂裡那個沒人按的煞車

先說最誠實的：我很爽。

我做了快三十年的事，本質上就是叫喚別人把事做出來。估時、催進度、接住「這個需求很奇怪喔」的白眼。我這輩子的工作，一大半是在跟「執行那一端是人」這件事搏鬥——人會累、會煩、會有意見、會在你最趕的時候請假。

現在，執行那一端來了一個新的。

它不問為什麼。不嫌需求醜。半夜三點不抱怨。改十遍不翻臉。你叫它做，它就去做，回來還附一份它自己寫的進度報告，語氣比我有禮貌。

它唯一會「用完」的，是 token。但 token 是錢，錢我算得出來；人的耐心算不出來。這已經是我這輩子遇過最好算的一種乙方成本。

六月十六日 Anthropic 出了一份報告，叫〈Agentic coding and persistent returns to expertise〉。它把 23.5 萬人、近 40 萬個 Claude Code session 攤開，得出一個對工程師有點刺、對我這種人卻像情書的結論：

人負責決定做什麼，AI 負責決定怎麼做。 平均下來，人做七成的規劃決策，Claude 做八成的執行決策。

換成我的話：我出一張嘴，它跑一整個下午。而且不用我請它喝咖啡。

報告說的「專家」，剛好就是 PM 那種專家

這份報告最聰明的地方，是它重新定義了「專業」。

它說的 expertise，不是職稱，不是會不會寫程式。它是任務特定的。報告舉了一個例子我很喜歡：一個資深工程師，問他人生第一個 Rust 問題，在那個任務上他就是新手；反過來，一個從沒碰過 Python 的會計，如果他能精確告訴 AI 對帳要守哪些規則、還能一眼抓出 AI 在月底結算時漏掉的邊界情況——在那個任務上，他就是專家。

報告的數字很乾脆：新手下一個指令，平均觸發 AI 五個動作、六百字輸出；專家下一個指令，觸發超過兩倍的動作、五倍的輸出。你越懂這件事，AI 替你做的就越多。

而它測出來的成敗，不靠 coding 背景。會產生程式碼的 session 裡，十大職業每一個的成功率，都落在軟體工程師七個百分點以內。最高的不是工程師——是管理職。

報告自己給的解釋是：管理技能會轉移到「指揮一個 agent」上。

這不就是 PM 嗎。PM 的核心能力從來不是會做，是知道該做什麼、把它拆對、講清楚、然後盯到完成。報告測了 23.5 萬人，繞一大圈，量出來的就是這個。

開心到這裡都是真的。但「不會抱怨」這四個字，我得停一下

我做了三十年這行，有一個直覺，報告的數字救不了。

我得先講清楚一件事，免得被誤會成在嘴 AI：程式上的抓錯、測 bug，Claude 做得很好。 我每天都請它做。它幫我看哪段邏輯會炸、哪個邊界沒守、哪裡會跳 502——這種「可驗證的對不對」，它比我快、比我細、比我有耐心。報告裡那些 verified success，靠的就是這種驗收，它名副其實。

問題不在這裡。問題在另一種驗收。

我做廣告做了快二十年，最怕的從來不是「程式跑不跑」。是「TA 看到這個，真實的反應是什麼」。那個反應，不會出現在任何測試套件裡。一支片、一個 idea、一句 slogan，丟到真實的人面前，他會不會停下來、會不會轉傳、會不會覺得「這在說我」、還是覺得「乾我屁事」——這件事，是品味在運作，而且要對「人」有一種說不太清楚的判斷。

Claude 不知道我們的 TA 真實的反應。它沒辦法知道。它能把文案寫得文法完美、結構漂亮、邏輯通順——然後那支文法完美的東西，丟到市場上沒有人理。它幫我測得了 bug，測不了人心。

而我以前是有同事會替我測人心的。

報告測得到「成功」，測不到「該不該做」

這就是我跟這份報告分手的地方。

它的「成功」定義得很清楚也很誠實：verified success——靠 git commit、測試通過、使用者明講「對，就是這個」。這是一種可驗收的成功。程式能跑，就是成功。

但我三十年在量的東西，從來不留 git commit。

「殺很大」那個 idea 之所以是那個 idea，不是因為它能跑、能編譯、能通過測試。是因為它在某個會議室裡，讓一個有膽量的老闆眼睛亮了一下，也讓另一個保守的人皺眉說「這樣好嗎」。那個亮、那個皺眉，是品味在運作。它沒有測試套件。

報告說「中階跟專家的成功率差距很小，懂個大概就抓到大半好處了」。在它的尺規上，這是對的。但它的尺規量的是「能不能做出來」。換成「該不該做這個」「這個有沒有膽」「客戶心裡真正怕的是什麼」——那條線根本不在報告的座標系裡。

我不是說報告錯。我是說，它很老實地只量了它量得到的那一半。而我吃飯的本事，剛好全在它量不到的另一半。

所以當報告暗示「工具把勝任者拉到接近精通者，三十年積累的邊際價值被稀釋了」——我不慌。因為被稀釋的是「會做」那一塊。而我這三十年，從來不是靠會做活下來的。

結尾

一個叫喚不會抱怨的工程師，有多開心？

非常開心。我說真的。我一個人掛著十個專案還能睡覺，全靠它。它把我從「執行是人、是瓶頸、是要哄的」這件事裡放出來了。報告講的那條「任務長度每幾個月翻倍」的曲線，我每天活在上面，而且受益。

但開心到一個程度，我認出了那個熟悉的形狀。

它不會抱怨，意味著它不會替我測人心。它能幫我抓 bug，抓不到 TA 的冷淡。報告把這叫「對專業的回報」，講得像是好消息——對一個有判斷力的人，工具會給你更大的槓桿。

是。但槓桿放大的，不只是你的判斷，還有你的盲點。一個會幫你測真實反應的同事，會在你錯估市場的時候皺眉。一個只會測程式的工具，會用前所未有的效率，把你錯估的東西做完、做好、做得很漂亮——然後一起丟進那個沒有人理的市場裡。

所以這份報告對我的真正意思，不是「我終於不用管人了」。是：

那個會替我判斷「TA 真的會買單嗎」的人，現在只剩我自己了。Claude 幫我守住程式那一端，人心那一端，我得自己守。

這件事，沒有任何模型替得了我。

不過話說回來，連我也不是最後那一關。

我守人心，守的也只是我對人心的「判斷」。判斷再準，它仍然只是判斷。真正按下對錯的，從來不是我，也不是 Claude——是市場。是那支片丟出去之後，會不會有人停下來、會不會有人轉傳、會不會有人掏錢。市場不抱怨，也不講道理；它只是用沈默或用轉換率，告訴你你猜對了沒有。

所以這條鏈其實是這樣的：Claude 驗收程式，我驗收人心，市場驗收我。它做的、我判斷的，最後全都要送到同一個沒有上訴的法官面前。AI 把「會做」變便宜了，把我推向「判斷」這一端；但它一路把我推上去，也只是讓我更早、更赤裸地，站到市場面前。

這大概才是最誠實的版本：我終於有一個叫喚不會抱怨的工程師了，這讓我做得更快、走得更遠——走到更前面，去面對那個我這三十年其實一直在面對、而且永遠不會變的東西。

市場會抱怨。而且它的抱怨，誰都駁不回。

延伸閱讀： - 當 AI 開始自己造自己，值錢的就不再是「會做」 - AI 搬進了每支手機。然後呢？ - 薩摩創意怎麼做廣告 - 客戶嘴上要的是 Big Idea，心裡要的是別出事 - 原文：Agentic coding and persistent returns to expertise — Anthropic

——一個 PM 的天堂，跟天堂裡那個沒人按的煞車

報告說的「專家」，剛好就是 PM 那種專家

開心到這裡都是真的。但「不會抱怨」這四個字，我得停一下

報告測得到「成功」，測不到「該不該做」

結尾

相關文章 · AI