CEO-Bench: Can Agents Play the Long Game? . Contribute to zlab-princeton/ceobench-src development by creating an account on GitHub.
正如 Uber 和微软 COO 最近所领教的那样,鼓励公司工程师积极使用 AI 可能会带来巨额账单,甚至可能抵消裁员带来的所有收益。 不过 Netflix 的 AI 账单或许不会那么触目惊心,这要归功于公司的高级工程师 Tejas Chopra,他开发了一款软件,可以在指令到达大语言模型之前,以词元为单位对智能体指令进行精简。 Chopra 估计,高达 ...
要理解这项研究的价值,得先聊聊背景。近年来,有一类AI工具越来越火,它们不只是回答问题,而是能像真人程序员一样,自主地打开文件、修改代码、运行测试、反复调试,直到把一个真实的软件问题解决掉。这类工具有个专业叫法——"代码智能体"(coding agent),OpenClaw就是其中的典型代表。
MCP 生态还在快速演进,但 Go 在其中的位置已经相当明确。从官方 SDK 的协议实现,到 GitHub MCP Server 的生产级验证,再到 Google ADK Go 的框架支撑,Go 正在成为 MCP 基础设施的重要组成部分。 MCP(Model Context Protocol)正在快速成为 AI 模型与外部工具交互的标准化协议。