叠甲: 本次并非严格意义上的 benchmark 评测,测试 Case是一次围绕单个长链路 Agent 任务的体验观察记录,不构成对模型的全面定论捏。 GLM5.2 这次测试Case是做一个「AI 网站聚合平台」的 HTML 单页。 这对我来说也挺省事的。。。 请完成一个「AI 工具导航站」的完整开发任务,要求从需求理解到页面生成、数据整理、代码实现、运行检查、问题修复全部独立完成。 任务目标: ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果一些您可能无法访问的结果已被隐去。
显示无法访问的结果