2026-06-11 cognition
FrontierCode:把评测问题从「对不对」换成「你会不会真的合并」
Cognition 发布 FrontierCode,用「维护者会不会真的合并这段代码」当评测信号,把可读性、可维护性、改动范围纳入评分,逼近人类代码评审,也暴露出主观性和谁来判合并的难题。
阅读全文High-signal frontier AI context tagged with evals.
Cognition 发布 FrontierCode,用「维护者会不会真的合并这段代码」当评测信号,把可读性、可维护性、改动范围纳入评分,逼近人类代码评审,也暴露出主观性和谁来判合并的难题。
阅读全文