AI PR 看起来越完美,你越该后背发凉:Vercel 这篇文章把 Agent 写代码最大的坑说透了
AI 生成的 PR 越像资深工程师写的,团队越容易放松警惕。Vercel 提醒了一件很扎心的事:通过 CI 不等于能安全上线,Agent 时代真正稀缺的不是写代码速度,而是判断哪些代码值得发到生产环境。
标签
12 篇文章
AI 生成的 PR 越像资深工程师写的,团队越容易放松警惕。Vercel 提醒了一件很扎心的事:通过 CI 不等于能安全上线,Agent 时代真正稀缺的不是写代码速度,而是判断哪些代码值得发到生产环境。
Claude Code 帮 Anthropic 研究员找出一个藏了 23 年的 Linux 内核漏洞,这件事真正可怕的,不是 AI 更会写代码了,而是 AI 编程工具已经开始从生产代码,转向批量挖掘高价值安全问题。
Gemma 4 发布后,最容易被注意到的是多模态、长上下文和新架构,但它真正值得开发者盯住的,是 Google 终于把‘能跑在设备上’这件事做得更像一条完整产品线:从 2B 级小模型到 31B 大模型,从音频、图像到 agent 工具链,整个落地路径比以往清晰得多。
Vercel 这次优化的不是模型参数,也不是炫技式 Agent demo,而是一个更影响真实体验的底层瓶颈:AI 沙箱恢复太慢。把快照恢复从 p75 超过 40 秒压到 1 秒内,意味着开发者终于不用一边等环境起来,一边怀疑所谓‘自动化’是不是又在偷走时间。
GitHub 给 Copilot CLI 加了一个 /fleet,看上去像是让 AI 同时叫来多个分身一起改代码、补文档、跑测试。它最有意思的地方不只是并行,而是把 AI 编程工具正式从“单个助手”推向“任务编排器”。
Cursor 3 这次最值得看的,不是 UI 变新了,而是它终于把 AI 编程工具最别扭的一层捅开了:开发者不该继续在一堆本地会话、云端任务、终端窗口和 PR 之间来回救火。真正的升级,是它开始把 agent 协作当成产品主战场。
Cloudflare 最新研究把一个很多站长已经隐约感觉到的问题说透了:AI 爬虫和真人用户的流量模式根本不是一回事。继续用同一套 CDN 缓存思路硬扛,最后受伤的往往不是机器人,而是正常用户的速度、源站成本和可用性。
Cloudflare 推出 EmDash,表面看是一次“用 Astro 和 TypeScript 重做 WordPress”的尝试,真正值得盯的却是它对插件安全下手了:插件隔离执行、显式声明 capability、把默认全权限的老模型翻出来重审。
Mercor 确认自己也是 LiteLLM 供应链事故的受影响者之一,这件事真正吓人的地方,不是某个明星创业公司中招,而是 AI 工具链已经长成新的基础设施层:一旦这里被投毒,出事的就不再只是一个包,而是一整串接在它上面的产品、流程和公司。
GitHub Copilot Applied Science 团队分享了一套很有意思的实践:他们不是单纯让 Agent 帮忙写代码,而是先把文档、测试、重构和 review 流程补起来,再让 Agent 成为主力贡献者。真正的变化不是‘AI 更会写了’,而是软件团队终于开始认真经营一个适合 Agent 干活的代码库。
axios 这次中招,不是代码里多了几行恶意逻辑,而是有人用被盗的维护者账号发了带后门依赖的版本。对开发者来说,这件事最吓人的地方不是‘某个包出事了’,而是你一次看起来再普通不过的 npm update,也可能直接把机器送进事故现场。
Anthropic 给 Claude Code 加了一个很关键的新能力:不是单纯放权,也不是继续让人类一下一下点确认,而是让 AI 先判断这步操作值不值得打扰你。对开发者来说,这可能比再提一点模型分数更重要。