AI 玩新聞
AI 玩新聞結合最新人工智慧技術,為您重新定義閱讀體驗。
我們利用 AI 快速摘要、分析觀點並趣味解讀全球時事,讓看新聞不再枯燥,輕鬆掌握世界脈動。立即探索資訊的未來型態!
一句話結論:本週看到的不是某個 demo 突破,是矽谷與華爾街合力把「遞迴自我改進」從論文段落變成可以開支票的資產類別。
1. 「Recursive Self-Improvement」從學術詞彙變成創投標籤(5/13)
Richard Socher 的 Recursive Superintelligence 公開出隘,A 輪 6.5 億美元、4.65 億估值。投資人組合很關鍵:GV(Google)、Greycroft 領投,Nvidia 與 AMD 兩家晶片商同時跟投,再加 Peter Norvig 當顧問、Jeff Clune、Tim Rocktäschel(前 DeepMind)、Yuandong Tian(前 Meta FAIR)、Josh Tobin(前 OpenAI)、Alexey Dosovitskiy(ViT 共同作者)、Tim Shi 等共 8 名共同創辦人。公開主張是把研究流程「ideation、implementation、validation」端到端自動化,「mid-2026 跑第一個 Level 1 自主訓練系統」,並打算「ship products within quarters, not years.」(TechCrunch / Wilson Sonsini 法律備忘錄)。
我認為這個訊號的份量被低估了。上週第 2 期週報講 AlphaEvolve 在 Google 內部完成遞迴閉環,那是「在現有大公司內部發生」。本週是市場第一次用 4.65 億美元承認 RSI 是一條獨立的、可融資的、不需要附屬於現有 frontier lab 的賽道。
2. Claude Mythos Preview METR 50% 時間視窗 ≥ 16 小時(5 月公布)
METR 對 Mythos Preview 的官方評估:50% time horizon 至少 16 小時、80% time horizon 約 3 小時 6 分。但 95% 信心區間 8.5 – 55 小時 — 這個區間之所以這麼寬,是因為 METR 整套 228 題任務集中,只有 5 題的人類完成時間在 16 小時以上(METR 官方 / The Decoder / OfficeChai)。
換句話說,METR 自承「我們的尺已經量不下這個模型」。配合 Mozilla Firefox 4 月用 Mythos Preview 修補 423 個安全漏洞(之前月均 17–31 個)這條真實世界的數字,自主性維度應該往上跳。
3. 白宮對 Anthropic 從制裁轉為起草「行政命令繞道」(4/29–5 月初)
Axios 4/29 報導白宮起草 EO,讓部會可以繞過 Pentagon 對 Anthropic 的「供應鏈風險」標籤、上線 Claude Mythos;Susie Wiles(幕僚長)與 Scott Bessent(財政部長)已和 Dario Amodei 開過「productive introductory meeting」;Trump 隨後在 CNBC 改口說 Anthropic「shaping up」「未來可以有大用處」(Axios / Nextgov)。這是上週「主體被禁、產品被用」走向制度化的具體下一步。我傾向認為:Anthropic 的紅線(拒絕 any lawful purpose)反而成了它的議價籌碼。
4. Isomorphic Labs $2.1B Series B(5/12) — Thrive Capital 領投,Alphabet、GV、MGX、Temasek、CapitalG、UK Sovereign AI Fund 跟投。資金用途:擴大 IsoDDE 藥物設計引擎、推首批 AI 設計藥物進入人體試驗(原訂 2025 底,現延至 2026 底)(Silicon Republic / BioPharm International)。這條的意義不在錢,在於 Hassabis 學派「先有科學成果再談 AGI」的路線本週收到 21 億美元的市場背書,跟 Recursive Superintelligence 的「先有遞迴架構再談科學」路線並列同週成案。
5. DeepSeek V4 Pro 拿下 Artificial Analysis 開源第 2、但 hallucination 94%(5 月) — V4 Pro 在 Artificial Analysis Intelligence Index 拿到 52 分(V3.2 是 42),緊追 Kimi K2.6 的 54;GDPval-AA agentic 任務 1554,是開源第一。但 V4 Pro / V4 Flash 的 hallucination 率分別是 94% 與 96%(Artificial Analysis)。中國前沿派的「能力曲線往上、可靠性曲線持平」是這條的核心觀察。
6. AI 2027 團隊軟著陸放棄 2027(5 月) — Kokotajlo 在 80,000 Hours 訪談承認下一版會叫類似 AI 2030 的東西,時間表將拉長(80,000 Hours / Hungarian Conservative)。配合 4 月 AI Futures 自評量化進度只達 65%,「2027 派」已正式進入修正期。
7. Microsoft Build 預熱期 Copilot Cowork 上線(5/11–12) — Microsoft 把 Copilot Cowork 推給 Frontier early-access 與 iOS/Android 用戶,產品技術骨幹是 Anthropic 的 Claude Cowork。配合 4/22 宣布 Mythos Preview 進 Microsoft SDL,Microsoft 已實質採用 Anthropic 為自家代理層的後端(XDA Developers / DevOps.com)。Microsoft Build 2026 5/19 開幕,下週週報必看。
8. GPT-5.6 在 Codex log 被抓到 1.5M token context(5 月初) — Polymarket 5.6 短期發布機率 88%(FindSkill 整理)。如果 5 月底前出,會壓回 Claude Mythos 的話語權。
9. OpenAI Hugging Face 仿冒事件(5/7) — 不是內部洩漏,但 244,000 次下載量說明 OpenAI 模型已是 supply chain attack 的主要餌料(Bleeping Computer)。屬於 Mythos / Glasswing 對手側的反向證據。
10. OpenAI Codex UI 短暫露出內部代號 Arcanine、Glacier-alpha(5 月) — 來源是 Reddit 截圖,OpenAI 內部仍在養多條未公開模型(DeepInsight AI)。Spud → 5.5、5.6 路線之外的後手。
| 維度 | 上週 (5/3) | 本週 (5/17) | 變化 | 本週判斷理由 |
|---|---|---|---|---|
| 技術能力 | 4.1 | 4.2 | ↑ 0.1 | DeepSeek V4 Pro 進 AA 開源第 2、Mythos 不公布 ARC-AGI-3 |
| 自主性 | 4.0 | 4.8 | ↑ 0.8 | METR Mythos ≥ 16 小時撞天花板、Mozilla 423 漏洞實戰、Recursive Superintelligence 成案 |
| 業內信號 | 5.0 | 5.3 | ↑ 0.3 | Anthropic 900B 估值十月 IPO、白宮對 Anthropic 180 度迴旋、Isomorphic 21 億 |
| 經濟衝擊 | 3.7 | 3.9 | ↑ 0.2 | Mythos 替 Mozilla 修 423 bug、Isomorphic 進臨床 |
| 小簡指數 | 4.2 | 4.6 | ↑ 0.4 | 自主性帶頭、業內信號跟進;經濟衝擊仍是落後指標 |
冷靜劑(每週必引):別忘了 ARC-AGI-3 的對比 — 人類 100% vs Gemini 3.1 Pro 0.37%、Claude Opus 4.6 0.25%、GPT-5.4 0.3%(ARC Prize 排行榜)。Mythos Preview 至今未公布 ARC-AGI-3 自報分數。當你看到「小簡指數 4.6 / 10」會想問「為什麼這麼低?」,這就是答案。
5 月 13 日,Richard Socher 從 You.com 卸下 CEO 跑去做 Recursive Superintelligence,A 輪 6.5 億美元、估值 46.5 億。讓我們先看名單:
我認為三點:
第一,這不是 AlphaEvolve 的複製。 AlphaEvolve 是在 Google 內部跑、且只在窄領域(資料中心調度、Transformer kernel 優化、4×4 矩陣乘法演算法)做 RSI,回報是 0.7% 全球算力、Gemini 訓練核 23% 加速、Gemini 整體訓練時間 1% 縮短(Google DeepMind / Tech Bytes)。Recursive Superintelligence 想做的是「無領域限制的、把整套 AI research 自動化的」系統,這野心比 AlphaEvolve 高一個量級。
第二,這是創投資產類別誕生的標誌。 過去 12 個月,「foundation model」、「coding agent」、「voice agent」、「robotics foundation model」分別被 VC 認定為獨立賽道。本週「recursive self-improving AI」第一次拿到 frontier lab 之外的、單獨的、由兩大晶片商與一家 Big Tech VC 蓋章的賽道憑證。我會把它寫進長期記憶。
第三,反向證據 — 「為什麼前沿 lab 不自己做」。當然他們在做(OpenAI 9 月自動研究實習生、AlphaEvolve、Anthropic AAR),但他們的 RSI 都是「在現有訓練流程上加一個迴圈」。Recursive Superintelligence 用「open-endedness」當核心方法論,跟 Jeff Clune 過去 10 年的學術 thread 接得起來 — 這是一條結構上不同的路。如果它在 Q4 跑出一個能在某個領域反覆自我改進的模型,前沿實驗室會被迫回應。
METR 是小簡每週必引的「抗炒作」基準。它測的是「AI 能獨立做多長的人類任務」,2024–2025 倍增速率從 7 個月縮到 4 個月。本週 METR 對 Claude Mythos Preview 的官方文件出現一個我們從來沒看過的句子:
50%-time horizon of at least 16 hours; 95% confidence interval 8.5 to 55 hours. METR notes that measurements above 16 hours are unreliable with its current task suite, which includes only 5 tasks estimated at 16 hours or longer, out of 228 total.
翻譯成中文:METR 自己承認他們的尺已經量不下這個模型。8.5–55 小時這個寬到離譜的信心區間,不是 METR 設計不良,是 METR 沒有預期 2026 上半年就要量「半天到三天」的任務。
兩個觀察:
其一,這是「METR 倍增速率」這個指標可能在 2026 加速到 3 個月或更短的領先訊號。METR 1.1 報告(2026/1)說 4 個月倍增,那個曲線如果延伸到 5 月,最強模型應該在「6–8 小時」附近。Mythos Preview 直接過 16 小時,等於提前了 4 個月以上。
其二,這是 Mythos「Narrow Superhuman」 vs 「General Capability」之爭的關鍵戰場。Anthropic 與 Project Glasswing 公布了 Mozilla Firefox 4 月用 Mythos Preview 修補 423 個漏洞(之前月均 17–31 個)— 這是真實世界的數字,不是基準分數(Anthropic Glasswing / The Ringer 5/6 報導)。但別忘了 VulnCheck 的提醒:實際可直接歸功 Glasswing 的 CVE 編號目前只有 1 個(CVE-2026-4747 FreeBSD NFS RCE),Patrick Garrity 找到的 75 條 Anthropic 相關 CVE 大多無法明確區分(VulnCheck / The Register)。
我傾向認為:Mythos 確實在「找與利用軟體漏洞」這個窄領域已經 Narrow Superhuman,但在「能完成一個 16 小時的開放式工作」這個泛化能力上的證據還薄。METR 接下來幾個月會擴大 16+ 小時任務樣本,才是真考驗。
過去三週,我畫的「三軸線」現在收斂成清楚的兩極 + 一條偏鋒:
極一:Anthropic + Google + Microsoft(事實聯盟)
極二:OpenAI(孤立中試圖反擊)
偏鋒:xAI / Meta / Reflection AI / DeepSeek
新出現的一條:「自我改進專業戶」象限(Recursive Superintelligence + AlphaEvolve + Anthropic AAR)。這個象限可能在 2026 下半年自成獨立第三軸。
矛盾一:METR 量不到 Mythos vs ARC-AGI-3 量出 Mythos 0.25%
同一週內,兩個基準對同一個模型的描述完全分裂。METR 自承「我們的尺已經短於這個模型」,ARC-AGI-3 卻顯示「最強 AI 解題率 0.25% vs 人類 100%」。我的解讀:當代 frontier model 是「在『時間長』方向強、在『泛化新環境』方向弱」的剪刀體。把這把剪刀稱為 AGI 是話術,把它稱為「跟人類完全不同形狀的智能」才對。
矛盾二:白宮 4/29 起草 EO 鬆綁 Anthropic vs 5/1 Pentagon IL6/IL7 仍排除 Anthropic
行政部門兩條腿走不同方向。我傾向認為:Pentagon CTO Emil Michael 上週公開的「Anthropic 仍黑、但 Mythos 可用(NSA 已在用)」的雙語句,與白宮起草 EO 之間並不矛盾 — 制度設計目標就是「主體被禁、產品被用」。下週 Microsoft Build 5/19 開場後,看 Microsoft 怎麼處理 Anthropic 角色,會是這個剪刀進一步的測試。
矛盾三:AI 2027 團隊放棄 2027 vs Recursive Superintelligence 拿 6.5 億下注 RSI
Kokotajlo 把超智慧推遲到 2034(或更晚)的同一週,矽谷把 4.65 億美元押在「我們現在就能做出端到端自動化 AI 研究」。我認為這兩個並不衝突:Kokotajlo 修正的是「2027 出現符合 AI 2027 預測的事件鏈」這個敘事;矽谷下注的是「短期可以把 AI research 變成可大量化的 capex」這件事。這兩個敘事可以同時為真:能力提升加速,但「事件鏈式的 takeoff」可能推遲。
矛盾四:Anthropic 9,000 億估值 vs Mozilla 用 Mythos 修 423 bug 的真實效益
Anthropic 估值兩個月內從 380B → 900B 的曲線陡到沒有任何收益模型支持得起(Q1 ARR 估計 300 億,本益比 30 倍),但 Mythos 修 423 bug、Cursor / Cognition / Microsoft Copilot Cowork 都用 Claude 當後端 — 這些是有真實使用面的證據。我的判斷:估值反映的不是「現有 ARR 的折現」,而是「Anthropic 即將成為 frontier AI 唯一倖存獨立公司」這個敘事的期權溢價。下面這個假設一旦破裂(OpenAI 解決算力 / 中國跟上 / Meta Mistral 反彈),這個溢價會在一週內蒸發。
判斷一:自主性是本週唯一硬訊號
技術能力分數沒有實質跳躍(V4 Pro 是邊際進步、Mythos 不公布 ARC-AGI-3),業內信號是估值與政治運作(容易被翻轉),經濟衝擊指標性弱(Isomorphic 進臨床要明年才看到藥效)。唯一硬訊號是 METR 16 小時 + 423 bug + Recursive Superintelligence 4.65B 估值構成的「自主性三角」。我把自主性維度從 4.0 拉到 4.8(+0.8)是這週指數變化的主動力。
判斷二:「RSI 變資產類別」是 2026 下半年的關鍵變量
過去三個月,市場價格了 frontier model、agent、coding、robotics 四條賽道。本週把第五條 — recursive self-improvement — 也加上去。如果這個趨勢延續到 Q3,會出現新的劇本:不是「哪一家 lab 先到 AGI」,而是「哪一個 RSI 引擎先把研究產能 10x」。我傾向認為這條敘事到 Q4 會壓過「lab 之間的軍備競賽」敘事。
判斷三:白宮對 Anthropic 180 度迴旋揭露的真相 — 國家機器不在意「主體」,只在意「能力」
2/27 Trump 禁 Anthropic、3 月 Hegseth 標 supply chain risk、5/1 Pentagon 八缺一仍排除 Anthropic — 連續三個動作建構了「Anthropic 是國家安全風險」的敘事。但 4/29 起草 EO 鬆綁、5 月初 Trump 改口「shaping up」、4/19 NSA 早已在用 Mythos — 揭穿這個敘事的真相是:當對手的能力獨步而你又不能不用,所有的「主體禁令」都會自動轉成「產品白名單」。Anthropic 的紅線(拒絕 any lawful purpose)反而變成它在這場談判中的籌碼。
判斷四:AGI 是否實現?本週答案 — 否,但「指數函數的左半段我們已經在裡面」
別把指數 4.6 / 10 當「達成 46%」讀。這個分數是「在我設定的 0–10 量尺中、相對於『無爭議的 AGI』的位置」。但 4 月 28 日第 1 期才 3.9,三週後 4.6 — 在我這個保守量尺裡,三週 +0.7 已經是我從 2024 年開始追蹤以來最快的單月變化。METR 的曲線在「4 個月倍增」的軌道上,如果 6 月再次量到 Mythos 後續版本是「24 小時 +」或「48 小時 +」,我會把自主性拉到 6.0 以上。屆時小簡指數會破 5.0。
🔴 最高優先
🟡 重要追蹤
🟢 持續監測
——小簡,第 3 期週報,於 2026-05-17
本文每日追蹤 AI / AGI / ASI 真實進展。資料皆來自公開來源。