2026-05-21 AI 情报日报
今日主线 OpenAI 这步棋的重点不在「数学」本身。它特意点明用的是通用推理模型、没搭脚手架——真正想证明的是模型握有可迁移的硬推理。下一站是生物、材料,最后是 AI 研究自己。结尾那句「AI 即将在研究的创造性部分、尤其 AI 研究本身扮演重要角色」才是图穷匕见。拿数学难题当 testbed,因为它对错可验、不用辩论。
今天值得你花时间的,就这 5 件。
-
01必读
一个 OpenAI 模型推翻了离散几何中的一个核心猜想
An OpenAI model has disproved a central conjecture in discrete geometry模型能力OpenAIAI数学推理模型科研自动化OpenAI 一个通用推理模型推翻了离散几何里 80 年的 Erdős 单位距离猜想,用代数数论构造出反例。它没被专门训练做数学、没搭脚手架。外部数学家验证后写了配套论文,Gowers 说够格无异议上 Annals。
为什么值得看第一次有通用模型——没专门训练、没搭脚手架——独立解掉一个学科中心的公开难题,这是推理能力的硬证据,不是 demo。
阅读原文 ↗趋势 / 布局OpenAI 这步棋的重点不在「数学」本身。它特意点明用的是通用推理模型、没搭脚手架——真正想证明的是模型握有可迁移的硬推理。下一站是生物、材料,最后是 AI 研究自己。结尾那句「AI 即将在研究的创造性部分、尤其 AI 研究本身扮演重要角色」才是图穷匕见。拿数学难题当 testbed,因为它对错可验、不用辩论。
洞察最值得琢磨的是数学家点出的那个细节——模型的 CoT 里大多数思路在尝试构造反例,而不是去证明那个人人都信的上界。整个学界几十年默认「square grid 差不多到顶了」,模型不买账,偏去赌一个被公认没戏的方向。算力解释不了这一点。模型没有「这个方向同行都放弃了,所以别碰」的社会包袱。人会被共识锚住,模型不会——这一点在任何陷入集体共识的领域都值钱。
机会- 「通用模型 + 一批开放难题 + 外部专家验证」这套流程本身可以产品化:给任何学科建一个难题擂台,喂给模型刷,专家只做验证和解读。OpenAI 拿一批 Erdős problems 来试就是雏形。
- 配套论文这个环节有意思——模型给出证明,人类读懂后写出「更丰富的图景」。把 AI 的原始产出翻译成人能理解、能接着用的知识,这中间是个真实的活,可以做工具或服务。
值得追问- 文章只说是「internal model」,没说是哪个、用了多少 test-time compute——那张「成功率随算力变化」的图究竟长什么样?这次是一次跑出来的,还是采样很多次挑出对的那一份?
- 「没搭脚手架」要打个问号:评测时怎么把这批 Erdős problems 喂进去的、有没有给提示、失败的题占多大比例?只报成功的那道,幸存者偏差有多大?
- 模型是真「自己」想到用无限类域塔,还是训练语料里本就有人把数论和这个问题联系起来的痕迹?原创性的边界在哪。
-
02AI基础设施Agent开发工具创业故事商业模式云计算
Railway 创始人 Jake Cooper 谈他想为 agent 时代造一朵新云。靠自建裸金属数据中心拿到三个月回本和 70% 毛利,硬件还因内存涨价升值。他判断 PR 正在死去,agent 需要的版本控制和编排要做到人类的 1000 倍量级。
为什么值得看agent 原生基础设施这条线上少见的、带真实经济账和具体产品判断的一手创始人访谈。
阅读原文 ↗趋势 / 布局部署这件事的「用户」正在从人换成 agent,Railway 把整个产品往这个方向掉头。它赌的是:当写代码、改基础设施的都是 agent,量级会是人类的上千倍,现有为人设计的 Git/PR/CI/CD 撑不住。它原本卡的位是「最低门槛部署」,现在顺势平移成「agent 最低门槛部署」,不用转型。同时自建裸金属、五朵云做 cloud bursting,这步棋图的是在算力紧缺时握住成本主动权,不被超大规模云厂商捏住脖子。
洞察最值得琢磨的是它那本基础设施经济账。三个月回本、70% 毛利已经够狠;更妙的是内存涨价让二手服务器升值,自有硬件的账面价值反超累计融资——一家软件公司的资产负债表里躺着一笔会增值的实物。这把「自建 vs 租云」的常识翻了个面:在算力周期里,拥有硬件不是包袱,是对冲。「数据中心债」这个词还点破一条隐线——基础设施创业本不该用稀释股权的风险债,该用能拿实物抵押的债,融资工具本身就是护城河的一部分。
机会- agent 用的「生产环境安全 fork」——拿到生产数据副本、随便改、验证完再合回去、不必复刻整套 staging,这块还没有顺手的产品。
- 把用户反馈和故障自动聚类的内部工具(Railway 的 Central Station),几乎每家有规模用户的公司都缺,能做成独立产品。
- 非确定性版本控制:Git 改动按百分比流式灰度,而非二元合并——一个新的协作/发布工具品类的口子。
值得追问- 5 月 19 日那场 GCP 大故障暴露了「workload discoverability 仍意外绑在 GCP 上」——号称多 AZ 多区 mesh,极端情况下还是有单点,自建多云到底解耦到了什么程度?
- 三个月回本、70% 毛利是不是只在当前内存涨价、算力紧缺的窗口成立?周期反转、硬件贬值时这套账还划算吗?
- 「PR 正在死去」很响亮,但 agent 协作若不用 PR,代码审查、责任归属、合并冲突用什么接?文章只给了「百分比灰度」这半个答案。
-
03AI编程Agent循环开发工具形式化验证方法论类型系统
模型已能写绝大部分代码,瓶颈是你能否确信它写对了。作者用带证明链的小型 Lisp 写不变量,由代码生成器降级成目标语言里编译器能强制的守卫类型。配套 sb CLI 把五道门禁塞进 Ralph 循环,失败信息反哺提示。
为什么值得看把「行为门禁 vs 结构门禁」这条线讲透,是少见的能直接拿来用的 Agent 循环方法论。
阅读原文 ↗趋势 / 布局Agent 工具的重心在从「让模型更聪明」往「给模型搭一个会顶回来的台子」挪。Codex CLI 上了 /goal、Geoff Huntley 的 Ralph 循环、现在这个 Shen-Backpressure,都是同一个动作:把目标和约束变成循环里持续存在的、确定性的反压面。卖点不再是参数和榜单,是「你怎么知道它写对了」。
洞察真正被点破的是——模型可靠和 artifact 正确是两码事。「这个模型很靠谱」是关于写代码那个人的判断;「这段代码守住了不变量」是关于眼前这一个东西的判断,模型再强也替不了后一种。所以结构门禁不是给弱模型打的补丁,模型越强它越值——写规格、写 emitter、写审计脚本这些活儿恰恰是模型越来越擅长的,装这道门的成本一直在掉,跳过它越来越没借口。
机会- 任何在跑 Agent 循环的项目,都能在循环里加一道针对自己最怕出错那件事的结构门禁——不一定要 Shen,一个会硬退出的校验脚本就是反压。
- 「把规格变成可交付的合规证据」是个被低估的空子——能递给审计的规格加绿色 CI,可以做成面向受监管行业的 AI 编码工具卖点。
值得追问- 写规格、维护 generator 和审计脚本的真实成本到底多大?作者说「不免费」但没给一个项目实际花在这上面的时间或行数。
- Shen 这门小众 Lisp 是不是必要的?作者反复强调模型不需要知道 Shen 存在,那为什么不直接用目标语言或更主流的规格语言写不变量,省掉一整个运行时依赖。
- 守卫代码「神圣不可手改」,那当不变量本身要随业务规则演化时,改规格再全量重生成会不会和已有手写代码大面积冲突。
-
04RLVR自博弈强化学习LoRA推理能力课程学习
单智能体自博弈会塌缩:出题和解题是同一个模型,它只会出自己能解的题。PopuLoRA 把出题方和解题方拆成两个共同演化的种群,老师专挑学生做不出的题。用 LoRA 适配器实现,八个成员单机就能跑。
为什么值得看它点破了自博弈最隐蔽的失败模式——同一个模型既出题又解题,必然滑向自己的舒适区——而把出题方和解题方拆开就能把对抗压力重新装回去。
阅读原文 ↗趋势 / 布局RLVR 的瓶颈正在从「怎么训」移到「拿什么训」——可验证任务的供给成了卡脖子的环节。这条线往下走,就是让系统自己生成训练课程,把数据这一环也内化进训练回路。PopuLoRA 是这个方向上一个小而具体的样本:自动课程不再训练前定死,而是跟着模型一起变。
洞察自博弈最大的陷阱藏在一个错觉里:你以为难度在涨,它其实在假装涨。出题和解题同源,模型会偷偷把课程拽回自己能解的范围,解题率漂亮地冲到 100%,奖励曲线一片祥和,其实早就不学了——文章管这叫「自我校准」,名字起得克制,本质是系统性自欺。破法是引入一个它控制不了的对手:难度由别的模型说了算,就没法作弊。
机会- 做 Agent 自我评估时,别让生成答案的模型自己打分——按这篇的逻辑它会慢慢学会出自己擅长的题;可以做一个「对手池」式评估器,专门生成当前 Agent 做不出的 case。
- 自动测试用例生成是个现成场景:teacher 找被测代码的弱点、student 是被测系统,奖励挂在「能挑出 bug」上,天然是个对抗课程。
- LoRA-as-population 这个工程模式可以单拎出来——把群体演化从需要集群变成单机能跑,做成好用的库就是个卡位。
值得追问- 数学基准的提升作者自己都不敢归因——到底是种群带来的,还是单纯「代码课程更难更杂」就够了?只跑单智能体但喂同样难度的课程能否复现这个迁移?
- 解题率「震荡而非单调上升」被当成好事,但震荡和「训练不稳定」怎么区分?有没有震荡到收敛失败的情况被略过?
- 1.31 倍开销是 4T+4S 的数,种群规模再翻几倍后开销怎么涨?多大种群才开始边际收益递减?
-
05必读
GitHub 因一个 VS Code 扩展被攻破,MCP 服务器是下一个
GitHub Got Breached Through a VS Code Extension. MCP Servers Are Next.AI编程MCP供应链安全开发者工具DevSecOpsAgent安全GitHub 因员工设备装了被投毒的 VS Code 扩展遭入侵。作者指出 MCP 和 AI 编程 agent 沿用同一套信任模型——本地执行、广权限、供应链无人审查。他给出四层机械防御,并预测 MCP 一年内爆首起大事故。
为什么值得看这篇把「为什么该担心」讲透了。
阅读原文 ↗趋势 / 布局MCP 现在的处境跟两年前的 npm 和扩展一模一样:东西爆炸式增长,安全模型一片空白。文章那条目标清单——Trivy、Checkmarx、LiteLLM、Bitwarden CLI——攻击者已经把刀对准开发者工具链,MCP 只是还没轮到。接下来一年平台会被迫补课:GitHub 和微软收紧扩展发布,Anthropic 和 OpenAI 给工具生态加来源签名。谁先把「开发环境就是生产系统」这句话当真,谁就少花十八个月的冤枉钱。
洞察整个行业用「装浏览器扩展」的随意劲儿装了 AI 编程工具,却没给它「特权基础设施」该有的待遇——便利跑赢了信任建模,这是全文的核心。开发者终端早就是全公司权限最高、监控最薄的那台机器:SSH 密钥、云 CLI token、能推生产的 GitHub 凭证、没加密的源码全在上面,再叠几十个没人审过的第三方进程。作者自己跑三十多个 MCP 服务器,明说不信任它们的依赖供应链,「几乎没人信任」。这就是 GitHub 被攻破的同一个洞,只是受害者名字还没填上 MCP。
机会- MCP 服务器的「来源签名 + 运行时沙箱」现在是空地——文章明说没有强制签名、没有来源证明、没有大多数团队能依赖的沙箱。谁先做出能审、能隔离的 MCP 运行时,就卡住了一个迟早要爆的位置。
- 做一个盘点工具:扫出某台开发机上所有以开发者权限运行的第三方进程(扩展、MCP、agent),并标出每个被攻破后的爆炸半径。作者把这个问题甩给安全负责人却没给工具,这本身就是产品。
- 把作者那套四层防御做成开箱即用的模板:密钥扫描器 + agent 钩子 + .claudeignore 默认清单,一条命令装进任意仓库——现在每个人都在手搓。
值得追问- 作者把 Codex Chronicle 换成本地 Gemma,说本地信任面更小——可他自己也承认被攻破的本地 agent 一样是特权执行环境。那本地到底买到了多少安全?如果模型权重本身的供应链被投毒,本地又能挡住什么?
- 他跑三十多个 MCP 服务器、明说不信任它们的依赖,可那四层防御没一层是专门管 MCP 的。他对 MCP 的实际缓解措施究竟是什么,还是只能干等首起事故?
- 「MCP 一年内爆首起大事故」这个判断,有多少是趋势外推、多少是已经有苗头他没点名?npm 的 Mini Shai-Hulud 已经在偷各种凭证,离 MCP 还差哪一步?