API in JavaScript - 搜索 News

ICLR 2026 | 北航开源Code2Bench：双扩展动态评测，代码大模型告别躺平刷分

为了打破这种「高分幻觉」，来自北京航空航天大学的研究团队提出了一种全新的基准构建哲学 —— 双重扩展（Dual Scaling），并基于此构建了端到端的自动化框架 ...

Gemini 3.1 Pro深夜发布，终于有AI能数清手指了？！

ARC-AGI-2提升的最恐怖，从前一代的31.1% 到这一代的77.1%。这里稍微补充一下有关这个Benchmark，它其实非常考验模型对于抽象知识的推理。每道题给模型若干个示例，模型要从这些示例里归纳找出隐含的规则，然后对新的测试输入，进行回答。 Terminal Bench 2.0的分数也从56.9%提升到了68.5% ，超过了Opus 4.6。 BrowseComp的提升幅度也十分吓人 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

ICLR 2026 | 北航开源Code2Bench：双扩展动态评测，代码大模型告别躺平刷分

Gemini 3.1 Pro深夜发布，终于有AI能数清手指了？！

今日热点