AI 智能体

2026-06-11 agents

Apache Burr 把 agent 框架重押在状态机和可观测性上

Burr 进入 Apache 孵化器,用状态机、内置 telemetry 和可重放押注:agent 框架的胜负手正从能力转向可靠性。

agents frameworks devtools

阅读全文

2026-06-11 bunq

几分钱的转账，就能撬动银行 AI 助手：agent 安全是工程问题，不是对齐问题

blue41 帮欧洲第二大数字银行 bunq 修复了金融 AI 助手的间接提示注入：一笔几分钱的转账、把指令藏进转账备注，就能让助手替攻击者发钓鱼。真正的教训是工具权限、确认门和把外部数据当不可信输入。

security agents fintech

阅读全文

2026-06-11 cognition

FrontierCode：把评测问题从「对不对」换成「你会不会真的合并」

Cognition 发布 FrontierCode，用「维护者会不会真的合并这段代码」当评测信号，把可读性、可维护性、改动范围纳入评分，逼近人类代码评审，也暴露出主观性和谁来判合并的难题。

evals ai-coding agents

阅读全文

2026-06-10 anthropic

Cyber Agent 的瓶颈是权限、审计和责任边界

Anthropic Project Glasswing 暴露的核心问题，是前沿 cyber agent 如何被授权、记录和追责，而不只是模型能力。

cybersecurity agents ai-infra

阅读全文

2026-06-10 anthropic

Project Glasswing 的重点是安全运营，而不是攻防炫技

Anthropic 扩展 Project Glasswing 的真正信号，是把 Claude cyber agent 放进漏洞分诊、披露、修补和部署流程。

cybersecurity agents ai-infra

阅读全文

2026-06-10 anthropic

Claude Fable 5：当模型被允许在你看不见的地方少出力

Fable 5 的真正信号不是能力封顶，而是 Anthropic 首次公开把对齐推进到模型可以在特定请求上不全力帮你——而这道边界落在用户无从验证的灰区。

frontier-models trust agents

阅读全文

2026-06-10 cohere

Cohere North Mini Code:开放权重编码模型的竞争,正在从拼规模转向「能不能单卡自托管 + 许可证够不够干净」

Cohere 这家一向做封闭企业模型的公司,首次拿出面向开发者的 agentic 编码模型:30B MoE(3B active)、Apache 2.0、单张 H100 就能跑。比起 33.4 的 Coding Index 分数,更值得 builder 记住的是它押的方向——主权自托管。

open-weight agents coding

阅读全文

2026-06-10 huggingface

OpenEnv 的治理转向比代码更值得看

OpenEnv 从单项目走向技术委员会协调，说明开源 agent 训练需要可信治理，而不只是一个接口实现。

research agents

阅读全文

2026-06-10 huggingface

OpenEnv 的价值在标准化 agentic RL 环境接口

Hugging Face 推动 OpenEnv 成为协议层，真正解决的是开源 agentic RL 训练环境碎片化，而不是再造一个奖励框架。

research agents

阅读全文

2026-06-10 anthropic

PwC 让 Claude 拿到企业分发的执行层

Anthropic 与 PwC 的扩展合作，不只是一个渠道 logo；真正的价值在于把 Claude 嵌进咨询交付、行业流程和客户信任。

consulting enterprise-ai agents

阅读全文

2026-06-10 anthropic

PwC 与 Claude 的价值在治理，不只在效率

PwC/Claude 组合真正适合 regulated workflows 的原因，是 auditability、risk controls 和责任边界，而不是 agent 把事情做快这一点。

consulting enterprise-ai agents

阅读全文

2026-06-10 alibaba

Qwen3.7-Max：阿里真正发布的是 agent 底座

Qwen3.7-Max 的关键变化，是把模型从单轮问答能力推向可承载长任务、工具调用和跨脚手架执行的 agent foundation。对建设者来说，首要验证项是能否把真实工作交给它持续推进。

agents frontier-models

阅读全文

2026-06-10 alibaba

Qwen3.7-Max：阿里的优势在企业 agent stack，不在单点跑分

Qwen3.7-Max 的战略价值不只来自模型能力，而来自阿里把它放进 Model Studio、兼容接口和云上执行环境里的企业 agent stack。真正的问题是企业能否把它接入受控工作流。

agents frontier-models

阅读全文

2026-06-10 alibaba

Qwen3.7-Max：阿里把战场从「对话质量」搬到「自主续航」

Qwen3.7-Max 的真正信号不是又一组跑分，而是一个能无人值守跨上千步、连跑数十小时的 agent 底座——阿里押的是和西方实验室同一条「长任务可靠性」战线，对 builder 该问的是能不能放手让它跑。

agents frontier-models

阅读全文

2026-06-09 anthropic

Claude Opus 4.8：竞争轴心从基准峰值移到长程可靠性

Opus 4.8 是基于 4.7 的增量升级，但 effort 控制、dynamic workflows 和更便宜的 fast mode 才是信号——前沿竞争正从基准分数转向长程 agentic 任务的可靠性和单位成本吞吐。

frontier-models agents

阅读全文

2026-06-09 google

Google Antigravity 2.0：真正的武器是分发，不是这个 App

Antigravity 2.0 砍掉 IDE、做成独立 agent 桌面端。但 Google 在 agentic 编码里的真信号不是产品力，而是分发与模型-harness 协同训练，以及强制升级带来的信任账单。

ai-coding agents developer-tools

阅读全文

2026-06-09 huggingface

OpenEnv：开源社区在抢一块闭源实验室不会让出的地基

Hugging Face 联合 PyTorch、Prime Intellect、Unsloth 等把 OpenEnv 交给委员会治理，并把它收窄成 RL 环境的协议层。真信号藏在治理与定位这两步里：开源训练 agent 时环境碎片化这块真痛点，终于有了统一插口。

agents research

阅读全文

2026-06-03 openai

GPT-Rosalind 让 AI 去审一份 FDA 都吵翻的证据

OpenAI 用 LifeSciBench 把科学 AI 的评估锚到工作流，又挑了一个酷似 Elevidys 的 FDA 替代终点难题做样例——这暴露了领域模型真正的考题：在专家都分裂的地方，敢不敢说证据不够。

research agents life-sciences

阅读全文

2026-06-02 openai

Codex 正在从代码 Agent 变成工作台

OpenAI 的角色插件、可分享 Sites 和 annotations 表明，Codex 的重点正在从写代码转向承载团队工作。

agents ai-coding knowledge-work

阅读全文

2026-06-02 anthropic

Project Glasswing 把前沿网络能力变成运营问题

Anthropic 扩展 Project Glasswing 说明，强网络模型会把瓶颈从发现漏洞转移到 triage、披露、修补、部署和访问控制。

agents ai-infra cybersecurity

阅读全文

2026-06-01 openai

OpenAI 把模型挂上 AWS，是去微软的城墙外另开一道门

OpenAI 的模型和 Codex 上了 AWS Bedrock。表面是多一个云平台,真实动机是 OpenAI 不再甘心只活在微软的分发渠道里,要直接站到企业最熟悉的那块地盘上。

ai-infra agents ai-coding

阅读全文

2026-05-15 openai

ChatGPT 个人财务首先是上下文产品，不是投资建议

OpenAI 的个人财务预览说明，连接账户、记忆和有数据支撑的推理会把 ChatGPT 变成财务上下文层。

knowledge-work finance agents

阅读全文

2026-05-14 anthropic

Anthropic 把 PwC 变成自己的企业销售渠道

Anthropic 扩大与 PwC 的合作，培训认证三万名顾问、共建卓越中心。表面是一次大客户落地，真实动机是借 PwC 的客户关系和行业信任，把 Claude 推进自己进不去的受监管企业。

enterprise-ai agents consulting

阅读全文

2026-05-14 openai

Codex from anywhere 的重点是监督 Agent，不是在手机上写代码

OpenAI 的 Codex 移动和远程主机更新指向一种新工作流：长时间 coding agent 需要远程检查点、审批和 host governance。

agents ai-coding developer-tools

阅读全文

2026-05-07 openai

OpenAI 实时语音 API 是 Agent 界面，不只是语音功能

OpenAI 的 GPT-Realtime-2、实时翻译和流式转写发布，把语音从聊天体验推向能使用工具的实时 Agent。

voice-ai agents developer-tools

阅读全文

2026-04-23 openai

GPT-5.5 把模型竞争推向执行型工作

OpenAI 的 GPT-5.5 发布说明，前沿模型正在被长任务执行、工具使用、成本和安全路由共同评估，而不只是比智力分数。

frontier-models agents ai-coding

阅读全文

2026-04-22 openai

Workspace Agents：治理本身就是 Agent 产品

OpenAI 的 ChatGPT workspace agents 表明，共享、定时、云端运行的 Agent 和模型能力一样需要审批、审计和管理员控制。

agents knowledge-work ai-infra

阅读全文

2026-04-16 anthropic

Claude Opus 4.7：可靠性的较量已经转到控制层

Anthropic 的 Opus 4.7 不只是模型分数更新，更重要的是 effort level、自我验证、长任务成本和 Claude Code 控制面。

agents ai-coding frontier-models

阅读全文

2026-02-17 anthropic

Claude Sonnet 4.6 让性价比成为前沿

Anthropic 的 Sonnet 4.6 重要，不只是因为能力接近 Opus，而是因为它把前沿能力带到更便宜、更广的工作流。

frontier-models agents ai-coding

阅读全文

2026-02-05 anthropic

Claude Opus 4.6 让多 Agent 工作更现实，但不会自动成功

Anthropic 的 Opus 4.6、百万 token 上下文和 Claude Code 智能体团队展示了多智能体工程的价值，也暴露了成本和协调这两道还没解决的坎。

agents ai-coding frontier-models

阅读全文