inference

2026-06-11 google

Google 开源了首个主流文本扩散模型。真正的卖点不是「快」，而是它把本地解码的瓶颈从显存带宽挪到算力，用双向注意力并行生成 256 个 token。代价是质量、实验性和那个 26B MoE 的取舍。

2026-06-10 deepseek

DeepSeek V4 的核心变化不是把 1M context 写进功能清单，而是让长上下文从能力展示进入成本、路由和产品默认值的重新设计。

2026-06-10 deepseek

DeepSeek V4 同时给出开放权重和当天可用 API，真正挑战闭源前沿模型的是部署自由与低迁移成本的组合。

2026-06-10 xiaomi

MiMo-V2.5-Pro-UltraSpeed 的 1000 tps 价值不是速度炫技，而是让长输出、并行采样和实时交互的单位时间成本重新计算。

2026-06-10 xiaomi

MiMo UltraSpeed 的实时 agent 想象很强，但 limited capacity 与申请制说明它更像高价值能力通道，而非稳定通用生产入口。

2026-06-08 xiaomi

MiMo-V2.5-Pro-UltraSpeed 在一台 8 卡商用 GPU 上让万亿参数模型解码破 1000 tps。真正的信号是 model-system codesign 打破了「极致速度=专用硬件」的等式，而不是那套手术室生死营销。