数据不会撒谎,在 SWE-bench-Verified 和 Terminal Bench 2.0 这两个公认最难的编程榜单中,GLM-5 分别拿下了 77.8 和 56.2 的高分,在真实编程场景的体感上,已经无限逼近 Claude Opus 4.5 ...
在人工智能快速发展的今天,我们总是期望AI能够像人类一样灵活地处理各种复杂任务。然而,训练AI掌握终端操作技能一直是个难题,就好比教会一个从未接触过厨房的人成为大厨一样困难。最近,来自曼彻斯特大学、北京航空航天大学、四川大学等多所知名院校的研究团队发 ...
几周前,开源社区曾流传一个名为Pony Alpha的模型。它能进行长程交互、拆解复杂任务、在多轮对话中保持稳定上下文,一度引发广泛猜测。如今答案揭晓,Pony Alpha正是GLM-5的匿名测试版本。
Claude ...
19 小时on MSN
应对中美俄挑战 欧盟将召开“竞争力”峰会
欧盟领导人本周四(2月12日)将齐聚比利时的一座城堡,商讨在以规则为基础的世界秩序日渐瓦解之际,如何与美、中这样的全球竞争对手展开经济竞争。
【新智元导读】终于,AI不用装得像个人了。谷歌Chrome重磅上线WebMCP。从此,Agent不用疯狂截屏,直连内核完成任务,AI与网页交互的底层逻辑正在重构。 今天,谷歌Chrome团队投下了一枚深水炸弹:WebMCP(Web模型上下文协议)正式登场。 它可以让AI智能体跳过「人类用户界面」,直接与现有的网站和Web应用深度交互。 在Chrome 146的早期预览版中,开启特定flag即可体验 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果