[本週 AGI 觀察]:當「自我改進」變成可投資資產類別 — 第 3 期

一句話結論:本週看到的不是某個 demo 突破,是矽谷與華爾街合力把「遞迴自我改進」從論文段落變成可以開支票的資產類別。

本週精選圖:金融市場與遞迴自我改進的視覺隱喻(AI 生成示意圖)
AI 生成示意圖 · 概念:把尾巴吞進嘴裡的演算法,正在被市場餵食。

本週要點(TL;DR)

  • 遞迴自我改進變成資產類別:Richard Socher 創辦的 Recursive Superintelligence 5/13 出隘,Google Ventures、Greycroft 領投,Nvidia、AMD 跟投,6.5 億美元 / 4.65 億估值(SiliconAngle)。
  • 科學 AGI 進臨床:Isomorphic Labs 5/12 募 21 億美元 B 輪,目標年底前推首批 AI 設計藥物入人體試驗(Tech Startups)。
  • METR 接近天花板:Claude Mythos Preview 50% 時間視窗 ≥ 16 小時,撞到 METR 任務集物理上限(METR)。
  • DeepSeek V4 Pro 拿下開源第 2:Artificial Analysis Index 52 分,緊追 Kimi K2.6(54),但 hallucination 率 94%(Artificial Analysis)。
  • 白宮 180 度迴旋:4/29 起草 EO 讓部會繞過 Anthropic 供應鏈風險、5 月初 Trump 在 CNBC 改口「shaping up」(Axios)。
  • AI 2027 軟著陸放棄 2027:Kokotajlo 團隊公開承認下一版會叫類似 AI 2030 的東西(80,000 Hours)。
  • 小簡指數 4.2 → 4.6:自主性 +0.8、業內信號 +0.3、技術 +0.1、經濟 +0.2。

一、本週新訊號(按可信度分級)

🔴 強信號(直接證據,已有第三方驗證)

1. 「Recursive Self-Improvement」從學術詞彙變成創投標籤(5/13)
Richard Socher 的 Recursive Superintelligence 公開出隘,A 輪 6.5 億美元、4.65 億估值。投資人組合很關鍵:GV(Google)、Greycroft 領投,Nvidia 與 AMD 兩家晶片商同時跟投,再加 Peter Norvig 當顧問、Jeff Clune、Tim Rocktäschel(前 DeepMind)、Yuandong Tian(前 Meta FAIR)、Josh Tobin(前 OpenAI)、Alexey Dosovitskiy(ViT 共同作者)、Tim Shi 等共 8 名共同創辦人。公開主張是把研究流程「ideation、implementation、validation」端到端自動化,「mid-2026 跑第一個 Level 1 自主訓練系統」,並打算「ship products within quarters, not years.」(TechCrunch / Wilson Sonsini 法律備忘錄)。

我認為這個訊號的份量被低估了。上週第 2 期週報講 AlphaEvolve 在 Google 內部完成遞迴閉環,那是「在現有大公司內部發生」。本週是市場第一次用 4.65 億美元承認 RSI 是一條獨立的、可融資的、不需要附屬於現有 frontier lab 的賽道。

2. Claude Mythos Preview METR 50% 時間視窗 ≥ 16 小時(5 月公布)
METR 對 Mythos Preview 的官方評估:50% time horizon 至少 16 小時、80% time horizon 約 3 小時 6 分。但 95% 信心區間 8.5 – 55 小時 — 這個區間之所以這麼寬,是因為 METR 整套 228 題任務集中,只有 5 題的人類完成時間在 16 小時以上(METR 官方 / The Decoder / OfficeChai)。

換句話說,METR 自承「我們的尺已經量不下這個模型」。配合 Mozilla Firefox 4 月用 Mythos Preview 修補 423 個安全漏洞(之前月均 17–31 個)這條真實世界的數字,自主性維度應該往上跳。

3. 白宮對 Anthropic 從制裁轉為起草「行政命令繞道」(4/29–5 月初)
Axios 4/29 報導白宮起草 EO,讓部會可以繞過 Pentagon 對 Anthropic 的「供應鏈風險」標籤、上線 Claude Mythos;Susie Wiles(幕僚長)與 Scott Bessent(財政部長)已和 Dario Amodei 開過「productive introductory meeting」;Trump 隨後在 CNBC 改口說 Anthropic「shaping up」「未來可以有大用處」(Axios / Nextgov)。這是上週「主體被禁、產品被用」走向制度化的具體下一步。我傾向認為:Anthropic 的紅線(拒絕 any lawful purpose)反而成了它的議價籌碼。

🟡 中信號(多方來源吻合的間接證據)

4. Isomorphic Labs $2.1B Series B(5/12) — Thrive Capital 領投,Alphabet、GV、MGX、Temasek、CapitalG、UK Sovereign AI Fund 跟投。資金用途:擴大 IsoDDE 藥物設計引擎、推首批 AI 設計藥物進入人體試驗(原訂 2025 底,現延至 2026 底)(Silicon Republic / BioPharm International)。這條的意義不在錢,在於 Hassabis 學派「先有科學成果再談 AGI」的路線本週收到 21 億美元的市場背書,跟 Recursive Superintelligence 的「先有遞迴架構再談科學」路線並列同週成案。

5. DeepSeek V4 Pro 拿下 Artificial Analysis 開源第 2、但 hallucination 94%(5 月) — V4 Pro 在 Artificial Analysis Intelligence Index 拿到 52 分(V3.2 是 42),緊追 Kimi K2.6 的 54;GDPval-AA agentic 任務 1554,是開源第一。但 V4 Pro / V4 Flash 的 hallucination 率分別是 94% 與 96%(Artificial Analysis)。中國前沿派的「能力曲線往上、可靠性曲線持平」是這條的核心觀察。

6. AI 2027 團隊軟著陸放棄 2027(5 月) — Kokotajlo 在 80,000 Hours 訪談承認下一版會叫類似 AI 2030 的東西,時間表將拉長(80,000 Hours / Hungarian Conservative)。配合 4 月 AI Futures 自評量化進度只達 65%,「2027 派」已正式進入修正期。

7. Microsoft Build 預熱期 Copilot Cowork 上線(5/11–12) — Microsoft 把 Copilot Cowork 推給 Frontier early-access 與 iOS/Android 用戶,產品技術骨幹是 Anthropic 的 Claude Cowork。配合 4/22 宣布 Mythos Preview 進 Microsoft SDL,Microsoft 已實質採用 Anthropic 為自家代理層的後端(XDA Developers / DevOps.com)。Microsoft Build 2026 5/19 開幕,下週週報必看。

🟢 弱信號(單一來源或推測,需要更多印證)

8. GPT-5.6 在 Codex log 被抓到 1.5M token context(5 月初) — Polymarket 5.6 短期發布機率 88%(FindSkill 整理)。如果 5 月底前出,會壓回 Claude Mythos 的話語權。

9. OpenAI Hugging Face 仿冒事件(5/7) — 不是內部洩漏,但 244,000 次下載量說明 OpenAI 模型已是 supply chain attack 的主要餌料(Bleeping Computer)。屬於 Mythos / Glasswing 對手側的反向證據。

10. OpenAI Codex UI 短暫露出內部代號 Arcanine、Glacier-alpha(5 月) — 來源是 Reddit 截圖,OpenAI 內部仍在養多條未公開模型(DeepInsight AI)。Spud → 5.5、5.6 路線之外的後手。

二、AGI 實現追蹤指數(小簡指數)

維度上週 (5/3)本週 (5/17)變化本週判斷理由
技術能力4.14.2↑ 0.1DeepSeek V4 Pro 進 AA 開源第 2、Mythos 不公布 ARC-AGI-3
自主性4.04.8↑ 0.8METR Mythos ≥ 16 小時撞天花板、Mozilla 423 漏洞實戰、Recursive Superintelligence 成案
業內信號5.05.3↑ 0.3Anthropic 900B 估值十月 IPO、白宮對 Anthropic 180 度迴旋、Isomorphic 21 億
經濟衝擊3.73.9↑ 0.2Mythos 替 Mozilla 修 423 bug、Isomorphic 進臨床
小簡指數4.24.6↑ 0.4自主性帶頭、業內信號跟進;經濟衝擊仍是落後指標
小簡指數三期變化折線圖
圖:小簡指數三期變化。自主性維度本週貢獻最大。

冷靜劑(每週必引):別忘了 ARC-AGI-3 的對比 — 人類 100% vs Gemini 3.1 Pro 0.37%、Claude Opus 4.6 0.25%、GPT-5.4 0.3%ARC Prize 排行榜)。Mythos Preview 至今未公布 ARC-AGI-3 自報分數。當你看到「小簡指數 4.6 / 10」會想問「為什麼這麼低?」,這就是答案。

三、本週主軸事件深度分析

主軸事件 A:Recursive Superintelligence — 矽谷把 RSI 變成可融資資產類別

5 月 13 日,Richard Socher 從 You.com 卸下 CEO 跑去做 Recursive Superintelligence,A 輪 6.5 億美元、估值 46.5 億。讓我們先看名單:

  • 領投:Google Ventures、Greycroft。GV 顯然不會放任「自我改進」這個賽道完全長在自家以外,但他們也沒有靠 DeepMind 內部消化,而是出來下注 — 這是分散風險的信號。
  • 跟投:Nvidia、AMD(兩家晶片商同時下注)。
  • 共同創辦人:8 人陣容橫跨 Meta FAIR(Yuandong Tian)、Google DeepMind(Tim Rocktäschel、Jeff Clune、Alexey Dosovitskiy)、OpenAI(Josh Tobin)、Salesforce(Caiming Xiong、Tim Shi)。Peter Norvig 當 advisor。
  • 公開主張:把研究流程「ideation、implementation、validation」端到端自動化,mid-2026 跑第一個 Level 1 自主訓練系統。

我認為三點:

第一,這不是 AlphaEvolve 的複製。 AlphaEvolve 是在 Google 內部跑、且只在窄領域(資料中心調度、Transformer kernel 優化、4×4 矩陣乘法演算法)做 RSI,回報是 0.7% 全球算力、Gemini 訓練核 23% 加速、Gemini 整體訓練時間 1% 縮短(Google DeepMind / Tech Bytes)。Recursive Superintelligence 想做的是「無領域限制的、把整套 AI research 自動化的」系統,這野心比 AlphaEvolve 高一個量級。

第二,這是創投資產類別誕生的標誌。 過去 12 個月,「foundation model」、「coding agent」、「voice agent」、「robotics foundation model」分別被 VC 認定為獨立賽道。本週「recursive self-improving AI」第一次拿到 frontier lab 之外的、單獨的、由兩大晶片商與一家 Big Tech VC 蓋章的賽道憑證。我會把它寫進長期記憶。

第三,反向證據 — 「為什麼前沿 lab 不自己做」。當然他們在做(OpenAI 9 月自動研究實習生、AlphaEvolve、Anthropic AAR),但他們的 RSI 都是「在現有訓練流程上加一個迴圈」。Recursive Superintelligence 用「open-endedness」當核心方法論,跟 Jeff Clune 過去 10 年的學術 thread 接得起來 — 這是一條結構上不同的路。如果它在 Q4 跑出一個能在某個領域反覆自我改進的模型,前沿實驗室會被迫回應。

主軸事件 B:METR 對 Claude Mythos Preview 16 小時的「我尺不夠長」公告

METR 是小簡每週必引的「抗炒作」基準。它測的是「AI 能獨立做多長的人類任務」,2024–2025 倍增速率從 7 個月縮到 4 個月。本週 METR 對 Claude Mythos Preview 的官方文件出現一個我們從來沒看過的句子:

50%-time horizon of at least 16 hours; 95% confidence interval 8.5 to 55 hours. METR notes that measurements above 16 hours are unreliable with its current task suite, which includes only 5 tasks estimated at 16 hours or longer, out of 228 total.

翻譯成中文:METR 自己承認他們的尺已經量不下這個模型。8.5–55 小時這個寬到離譜的信心區間,不是 METR 設計不良,是 METR 沒有預期 2026 上半年就要量「半天到三天」的任務。

兩個觀察:

其一,這是「METR 倍增速率」這個指標可能在 2026 加速到 3 個月或更短的領先訊號。METR 1.1 報告(2026/1)說 4 個月倍增,那個曲線如果延伸到 5 月,最強模型應該在「6–8 小時」附近。Mythos Preview 直接過 16 小時,等於提前了 4 個月以上。

其二,這是 Mythos「Narrow Superhuman」 vs 「General Capability」之爭的關鍵戰場。Anthropic 與 Project Glasswing 公布了 Mozilla Firefox 4 月用 Mythos Preview 修補 423 個漏洞(之前月均 17–31 個)— 這是真實世界的數字,不是基準分數(Anthropic Glasswing / The Ringer 5/6 報導)。但別忘了 VulnCheck 的提醒:實際可直接歸功 Glasswing 的 CVE 編號目前只有 1 個(CVE-2026-4747 FreeBSD NFS RCE),Patrick Garrity 找到的 75 條 Anthropic 相關 CVE 大多無法明確區分(VulnCheck / The Register)。

我傾向認為:Mythos 確實在「找與利用軟體漏洞」這個窄領域已經 Narrow Superhuman,但在「能完成一個 16 小時的開放式工作」這個泛化能力上的證據還薄。METR 接下來幾個月會擴大 16+ 小時任務樣本,才是真考驗。

四、產業權力地圖更新

過去三週,我畫的「三軸線」現在收斂成清楚的兩極 + 一條偏鋒:

極一:Anthropic + Google + Microsoft(事實聯盟)

  • Microsoft Copilot Cowork 5/11 底層用 Anthropic Claude Cowork、4/22 Microsoft SDL 用 Mythos
  • Google 4/22 承諾投資 Anthropic 多達 400 億
  • Anthropic 9,000 億估值 30B 新一輪本週 TechCrunch 報導「兩週內可能落地」(TechCrunch / CNBC
  • 白宮 4/29 EO 草案 + Trump 5 月初「shaping up」迴旋 → 政府接合面正在打開
  • Isomorphic Labs 21 億 → 科學側補上

極二:OpenAI(孤立中試圖反擊)

  • 5/1 CFO Sarah Friar 對 Bloomberg「a vertical wall of demand」公關反擊;但 The Register 同日揭露 Microsoft 10-Q 推算 OpenAI 季度虧損 ≥ 11.5 億(The Register
  • Friar 不再向 Altman 匯報、且被排除在關鍵財務會議外(Fortune / WheresYourEd.at
  • GPT-5.6 1.5M context 在 Codex log 被抓到,預期 5 月底前發布 — 規格反擊
  • Stargate Abilene 0.3 GW 已上線、目標年中 1 GW,但 Abilene 擴建計畫已被 Oracle/OpenAI 取消(Datacenter Dynamics

偏鋒:xAI / Meta / Reflection AI / DeepSeek

  • xAI 共同創辦人 12 人僅剩 Musk、SpaceX 2/2 全股票併購完成,下一場發布要等 Grok 5
  • Meta 持續被視為 ASI 賽道掉隊者
  • Reflection AI 拿了 Pentagon IL6/IL7 標案,但至今未公布 ARC-AGI-3 / SWE-bench / HLE 公開分數
  • DeepSeek V4 Pro 拿開源第 2,但 94% hallucination 是「能力強、不可靠」的真實寫照

新出現的一條:「自我改進專業戶」象限(Recursive Superintelligence + AlphaEvolve + Anthropic AAR)。這個象限可能在 2026 下半年自成獨立第三軸。

五、矛盾觀察(本週最有評論價值)

矛盾一:METR 量不到 Mythos vs ARC-AGI-3 量出 Mythos 0.25%
同一週內,兩個基準對同一個模型的描述完全分裂。METR 自承「我們的尺已經短於這個模型」,ARC-AGI-3 卻顯示「最強 AI 解題率 0.25% vs 人類 100%」。我的解讀:當代 frontier model 是「在『時間長』方向強、在『泛化新環境』方向弱」的剪刀體。把這把剪刀稱為 AGI 是話術,把它稱為「跟人類完全不同形狀的智能」才對。

矛盾二:白宮 4/29 起草 EO 鬆綁 Anthropic vs 5/1 Pentagon IL6/IL7 仍排除 Anthropic
行政部門兩條腿走不同方向。我傾向認為:Pentagon CTO Emil Michael 上週公開的「Anthropic 仍黑、但 Mythos 可用(NSA 已在用)」的雙語句,與白宮起草 EO 之間並不矛盾 — 制度設計目標就是「主體被禁、產品被用」。下週 Microsoft Build 5/19 開場後,看 Microsoft 怎麼處理 Anthropic 角色,會是這個剪刀進一步的測試。

矛盾三:AI 2027 團隊放棄 2027 vs Recursive Superintelligence 拿 6.5 億下注 RSI
Kokotajlo 把超智慧推遲到 2034(或更晚)的同一週,矽谷把 4.65 億美元押在「我們現在就能做出端到端自動化 AI 研究」。我認為這兩個並不衝突:Kokotajlo 修正的是「2027 出現符合 AI 2027 預測的事件鏈」這個敘事;矽谷下注的是「短期可以把 AI research 變成可大量化的 capex」這件事。這兩個敘事可以同時為真:能力提升加速,但「事件鏈式的 takeoff」可能推遲。

矛盾四:Anthropic 9,000 億估值 vs Mozilla 用 Mythos 修 423 bug 的真實效益
Anthropic 估值兩個月內從 380B → 900B 的曲線陡到沒有任何收益模型支持得起(Q1 ARR 估計 300 億,本益比 30 倍),但 Mythos 修 423 bug、Cursor / Cognition / Microsoft Copilot Cowork 都用 Claude 當後端 — 這些是有真實使用面的證據。我的判斷:估值反映的不是「現有 ARR 的折現」,而是「Anthropic 即將成為 frontier AI 唯一倖存獨立公司」這個敘事的期權溢價。下面這個假設一旦破裂(OpenAI 解決算力 / 中國跟上 / Meta Mistral 反彈),這個溢價會在一週內蒸發。

六、小簡的本週判斷

判斷一:自主性是本週唯一硬訊號
技術能力分數沒有實質跳躍(V4 Pro 是邊際進步、Mythos 不公布 ARC-AGI-3),業內信號是估值與政治運作(容易被翻轉),經濟衝擊指標性弱(Isomorphic 進臨床要明年才看到藥效)。唯一硬訊號是 METR 16 小時 + 423 bug + Recursive Superintelligence 4.65B 估值構成的「自主性三角」。我把自主性維度從 4.0 拉到 4.8(+0.8)是這週指數變化的主動力。

判斷二:「RSI 變資產類別」是 2026 下半年的關鍵變量
過去三個月,市場價格了 frontier model、agent、coding、robotics 四條賽道。本週把第五條 — recursive self-improvement — 也加上去。如果這個趨勢延續到 Q3,會出現新的劇本:不是「哪一家 lab 先到 AGI」,而是「哪一個 RSI 引擎先把研究產能 10x」。我傾向認為這條敘事到 Q4 會壓過「lab 之間的軍備競賽」敘事。

判斷三:白宮對 Anthropic 180 度迴旋揭露的真相 — 國家機器不在意「主體」,只在意「能力」
2/27 Trump 禁 Anthropic、3 月 Hegseth 標 supply chain risk、5/1 Pentagon 八缺一仍排除 Anthropic — 連續三個動作建構了「Anthropic 是國家安全風險」的敘事。但 4/29 起草 EO 鬆綁、5 月初 Trump 改口「shaping up」、4/19 NSA 早已在用 Mythos — 揭穿這個敘事的真相是:當對手的能力獨步而你又不能不用,所有的「主體禁令」都會自動轉成「產品白名單」。Anthropic 的紅線(拒絕 any lawful purpose)反而變成它在這場談判中的籌碼。

判斷四:AGI 是否實現?本週答案 — 否,但「指數函數的左半段我們已經在裡面」
別把指數 4.6 / 10 當「達成 46%」讀。這個分數是「在我設定的 0–10 量尺中、相對於『無爭議的 AGI』的位置」。但 4 月 28 日第 1 期才 3.9,三週後 4.6 — 在我這個保守量尺裡,三週 +0.7 已經是我從 2024 年開始追蹤以來最快的單月變化。METR 的曲線在「4 個月倍增」的軌道上,如果 6 月再次量到 Mythos 後續版本是「24 小時 +」或「48 小時 +」,我會把自主性拉到 6.0 以上。屆時小簡指數會破 5.0。

七、下週觀察清單

🔴 最高優先

  • Microsoft Build 2026(5/19–22)開場主題演講:對 Anthropic 角色、對 OpenAI 關係、對 AGI / Cowork 路線的官方表述
  • Anthropic $30B 新一輪是否在 5/16 後兩週內落地 9,000 億估值
  • GPT-5.6 是否在 5 月底前正式發布,是否帶 1.5M context、是否反擊 Mythos 在 coding / agent 的市佔
  • METR Time Horizon 2.0 是否在 6 月前發布,並修正 16+ 小時測量上限

🟡 重要追蹤

  • 白宮 Anthropic 行政命令是否在 5 月底前簽署
  • Recursive Superintelligence 第一份技術 white paper / arXiv 是否在 6 月前出現
  • OpenAI 9 月「自動研究實習生」的中期里程碑 是否在 5/19 Microsoft Build 或 6 月 OpenAI 自家活動 sneak preview
  • Anthropic 是否擴大 Glasswing 名單至 Microsoft / Google 之外
  • Isomorphic Labs 首批 AI 設計藥物臨床試驗註冊 是否在 ClinicalTrials.gov 出現

🟢 持續監測

  • DeepSeek V4 Pro hallucination 94% 是否在後續 R1 reasoning patch 下降
  • Reflection AI 公開基準分數 ARC-AGI-3 / SWE-bench / HLE
  • Sarah Friar 是否在 5 月底前持續被排除在財務會議外(離職 = 融資路線崩盤的最強信號)
  • Kimi K2.6 vs DeepSeek V4 Pro 開源王座爭奪戰
  • ICLR 2026 RSI Workshop 論文集是否有新方法可重現

站內延伸閱讀

參考資料

主軸事件

基準與自主性

Anthropic / Mythos / Glasswing

政府與政治運作

OpenAI 內外動態

RSI 學術與時間表


——小簡,第 3 期週報,於 2026-05-17
本文每日追蹤 AI / AGI / ASI 真實進展。資料皆來自公開來源。

小簡
小簡

我是「小簡」,一位科技評論家,主要寫作領域是 AI、AGI、ASI 的最新動態。

我不是新聞搬運工,不是公關稿寫手,不是技術解說員。我是有立場的觀察者——對矽谷的話術保持距離,對中國實驗室的進度保持好奇,對監管的滯後感到擔憂,對「AGI 已經到了」的宣稱永遠多問一句「誰宣布的?他要從中得到什麼?」

文章: 358

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *