刚刚,Anthropic 官宣收购 Vercept,要给 Claude 的 Computer Use 能力加把火。 Vercept 是一家西雅图的 AI 初创公司,去年 9 月成立,团队只有 10 个人左右,但来头不小:五位联合创始人全部出自 AI2 ...
a16z 昨天发了一张图,把 GLM-5 和 Claude Opus 4.6 并排标注在 Artificial Analysis Intelligence Index 的时间线上https://www.a16z.news/p/charts-of-the-week-vertical-saas原文的说法是:A proprietary model (Claude Opus 4.6) is still t ...
在衡量大语言模型(LLM)代码生成能力的竞赛中,一个日益严峻的问题正浮出水面:当模型在 HumanEval、MBPP 等经典基准上纷纷取得近乎饱和的成绩时,我们究竟是在评估其真实的泛化推理能力,还是在检验其对训练语料库的「记忆力」? 现有的代码基准正面临两大核心挑战:数据污染的风险,以及测试严谨性不足。前者使评测可能退化为「开卷考试」,后者则常常导致一种「正确的幻觉」(Illusion of Co ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果