DeepSeek V4 引入了更高效的稀疏激活机制,这对显存带宽的要求远高于显存容量。实测数据显示,在进行 DeepSeek V4国产算力推理加速 时,使用华为昇腾 910B 或海光 DCU 等国产芯片,通过特定的算子优化,性能损耗可以控制在 5% 以内。这打破了以往“国产卡跑不动大模型”的刻板印象。关键在于模型量化策略的选择——采用 4-bit AWQ ...
在官方App和网页端,用户可以通过“深度思考”按钮自由切换两种模式,根据任务需求选择不同的响应方式。 相比此前广泛使用的DeepSeek-R1-0528,DeepSeek-V3.1在思考模式下的推理效率显著提高,能够在更短的时间内给出答案。
Token相当于AI时代的“石油”,是AI处理信息的计费基础。一次简单的对话可能只需要几百个Token,但一个全自动运行的Agent任务,动辄消耗数十万甚至上百万个Token。这也是为什么最近Google和Anthropic会封禁那些在订阅制下进行全自动调用的账户——因为一旦进入全自动调用流程,目前的订阅费是远远无法覆盖其实际产生的算力成本。
Opinion

AI Token的中国式出海

根据全球最大的大模型API聚合平台OpenRouter数据,截至2月28日,该平台内前十模型总Token消耗量已突破28.7万亿,其中国产模型贡献超过14.69万亿,为历史上首次单月Token调用占比过半且超越美国产模型。
最新的2月16日至22日的周榜单中,平台调用量排名前五的模型中,有四款来自中国厂商,包括MiniMax的M2.5、月之暗面的Kimi K2.5、智谱的GLM-5、DeepSeek的V3.2。这四款模型合计贡献了Top 5总调用量的85.7%。
深圳新闻网2025年2月20日讯 (记者 董非)近日,可观测与应用安全厂商基调,利用基调听云拨测工具,模拟真实用户的主动监控,从网络性能、接口响应时间、推理速度、内容生成速度等多个关键指标,对多家厂商提供的DeepSeek-R1 API 服务进行了深入测试。
据路透社和《金融时报》报道,DeepSeek这次绕开了英伟达,没有向这家美国芯片巨头提供V4的早期接入权限。
从细分领域来看,随着时间的推移,推理需求的占比发生明显变化。对话AI占2025年预期Token总消耗量的近一半,预计到2030年逐步下降至高个位数百分比;生活情景AI智能体的份额预计将从2025年的个位数提高至2030年的10%至20%。
DeepSeek还宣布调整API接口调用价格,北京时间2025年9月6日凌晨起,执行新版价格表,输入分缓存命中0.5元/百万tokens、未命中4元 ...
本次消息最初由 X 平台用户 @legit_api 爆料:DeepSeek 正在与至少一家推理服务商展开保密级别的内部测试,该模型对外代号为 「Sealion-lite」(海狮轻量版),对应产品序列即为 DeepSeek V4 Lite。
2月26日,DeepSeek在其API开放平台发布错峰优惠活动通知。 根据通知,北京时间每日00:30-08:30为错峰时段,API调用价格大幅下调 ...
DeepSeek自2月9日起调整API服务价格,DeepSeek-V3 API每百万输入tokens收费0.5元(缓存命中)/2元(缓存未命中),输出tokens收费8元 ...