導演看不到排練的那一天

AI 2026-06-11 · Satsuma Creative · 閱讀 7 分鐘

Ethan Mollick 用 Mythos 級模型後,從巫師變成贊助人:描述、付錢、評判,過程全看不到。當 AI 九個半小時的黑箱裡有幾百個判斷你一票沒投,驗證退化成一小時抽查——這成品憑什麼署你的名?

——回應 Ethan Mollick〈What it feels like to work with Mythos〉

原文出處: What it feels like to work with Mythos — Ethan Mollick, One Useful Thing

讀到 Ethan Mollick 的新文章。

他拿到了 Mythos 級模型的早期使用權——Claude Fable 5。他丟了一個野心很大的指令,要它做一套研究界需要多年、但從來不具商業價值所以沒人做的軟體。

它工作了九個半小時。

做完了。

Mollick 是賓州大學華頓商學院的教授,過去幾年大概是英文世界寫 AI 寫得最勤的學者。去年他形容跟 AI 工作像跟巫師工作:你唸咒語,事情就發生。

今年他說,咒語強到他不確定自己還是不是巫師了。

他用了一個詞:patron。贊助人。

「我描述我要什麼,我付錢,我評判結果。施法的過程發生在我看不到的地方,在幾百個我從來沒機會投票的小判斷裡。」

「我不再駕駛。我發包。」


我認得這個感覺

前幾天我看著 Claude 自己跑完兩台伺服器的核心更新,中間還順手修好一個我自己弄掛的服務。整件事我幾乎只負責說「好,做」。

那天我寫了一篇文章,說建造正在變便宜,自動不掉的是三樣東西:決定做什麼、品味、驗證它對不對。

我當時覺得這個答案站得住。

決定,是價值判斷,不是運算。品味,是知道一千個可行方案裡哪一個是對的。驗證,是 AI 能把整件事做完,但它不知道自己漏了什麼,得有個人盯著。

做會貶值。這三樣會一直貴。我把這個當成踏實的理由。

然後 Mollick 這篇文章,把第三樣拿走了一半。


驗證,正在退化成抽查

注意他怎麼描述那個九個半小時的成品。

他說,身為這個領域的專家,他抓出了一些錯誤和遺漏,請 AI 修正了。然後他補了一句很誠實的話:

他只花了一個小時看結果。他確定裡面還有他找不到的 bug。

一個小時,對九個半小時。

而那九個半小時裡,模型自己派出了更便宜的模型群去做研究,又派出對抗性的 agent 群互相檢查彼此的結果。驗證這件事,有一大半已經被它內部化了。留給人類的,是最外面那一圈。

我之前說「驗證自動不掉」。技術上沒說錯。但 Mollick 的案例讓我看到,在那個尺度上,人類的驗證實際上是什麼樣子——

不是逐項檢查。是抽查。

你驗證的不是過程。是你抽查能力範圍內的表面。

過程長到不值得跟,判斷多到你沒辦法一個一個過。你只能挑幾個你看得懂的地方戳一戳,沒戳出問題,就簽名。


導演不親手演,但導演看得到排練

我做了三十年劇場。

導演這個角色,跟 Mollick 說的 patron 有點像:不親手演,不親手做佈景,最後對成品負責。

所以一開始我想,這沒什麼好慌的。導演早就活在「不親手做」的工作模式裡了,我們很清楚不親手做不等於沒有作者性。

但想到一半我停住了。

導演看得到排練。

每一次走位,每一句台詞的處理,每一個演員在第三週突然開窍的瞬間——導演都在場。他不動手,但他全程在看。他的判斷不是在首演那天才下的,是在排練場上,一千個小時,一個一個下的。

成品裡的每一個選擇,他都投過票。

Patron 不是。Patron 連排練都看不到。他在首演那天走進劇場,看完,鼓掌或不鼓掌。

Mollick 描述的就是這個。模型做了幾百個判斷,他一票都沒投過。他能做的只剩下:看完成品,挑幾個他看得出來的毛病。

導演和 patron 的差別,不在動不動手。在過程裡有沒有你


那個署名的問題

這就回到我之前問過的一個問題,只是現在它變得更尖了。

之前我寫過:問題是我的,答案是我們的,文章是誰的?那時候我的答案是——問題的方向是我決定的,哪裡不對是我抓出來的,那個判斷還是我在做。所以我沒辦法說這完全不是我的。

那是對話時代的答案。一來一往,每一段我都在場。

但九個半小時的黑箱不是對話。是委託。

委託時代的問題要重新問一次:一個成品,如果我沒看過它的過程,裡面幾百個判斷我一個都沒參與,我只抽查了一個小時——

我憑什麼署名?

誠實的答案可能是:憑兩端。

前端,那份 brief 是我的。Mollick 的軟體之所以做得出來,是因為他知道研究界缺這個工具、他寫得出十九頁的設計文件、他知道什麼叫做對。一個不懂研究方法的人,拿同一個模型,生不出同一個東西。brief 裡裝的是他三十年的積累。

後端,驗收的標準是我的。我抽查哪裡、用什麼標準判斷過不過、什麼樣的瑕疵能放行什麼樣的不能——這些是我的。

中間那一段,不是我的。承認吧。

署名還是可以簽。但要知道自己簽的是什麼:你簽的不是「這是我做的」,是「這兩端是我把的,中間我選擇信任」。


信任是要被驗證過才能給的

寫到這裡,我發現這件事在我自己的工作裡其實早就有對應。

我的客服系統上線之前,我做的不是逐行看它的程式碼——我看不完,也看不懂全部。我做的是設計驗收:拿真實的客訴問題去打它,看它在我最怕出錯的地方(價格、日期、政策)會不會掰。打過一輪,沒掰,我才放它上線。

那不是看排練。那是設計一場考試。

也許這就是委託時代的驗證長什麼樣子:你沒辦法在過程裡,所以你把判斷前移到 brief、後移到驗收的設計。中間那段你看不到的,你用「它通過了我設計的考試」來換取信任。

這個信任不是盲目的。它是被驗證過的——只是驗證的對象從「過程」換成了「它在我的考題上的表現」。

夠不夠?

我不知道。Mollick 也不知道。他猜黑箱可能就是力量的代價,模型越強,留給人的越少。他可能是對的。

但我注意到一件事:他文章裡寫,指令越有野心,結果越好。

brief 還是有差的。考題還是有差的。那兩端,目前還是人的。


結尾

導演看得到排練的時代,作者性是不證自明的——你在場,所以是你的。

現在要學的,可能是另一種更不舒服的作者性:你不在場,但兩端是你的。你出的題,你設的關。中間那一大段黑暗,你承認它是黑暗,然後決定要不要為走出來的東西簽名。

有人會覺得這樣的署名是稀釋。

也有人會說,建築師也從來沒有親手砌過磚。

我還在想。

但至少有一件事我確定了:以後別人問我「這是你做的嗎」,我不會再急著回答。我會先想一下,這次,我把的是哪兩端。


延伸閱讀: - 當 AI 開始自己造自己,值錢的就不再是「會做」 - 與 AI 對話太多的那個人 - 問大語言模型 LLM 它自己是怎麼運作的:問題是我的,答案是我們的,文章是誰的? - 我給自己蓋了一座知識庫,然後拒絕讓它幫我說話