DeepSeek, the Chinese AI startup, shocked the world after unveiling an AI model last week that rivals leading models like OpenAI’s o1, while claiming it cost far less to develop and required far fewer ...
2026年1月20日,恰逢DeepSeek-R1发布一周年,一个代号为Model1的模型,意外出现在DeepSeek的FlashMLA代码更新中,成为这个周年庆里最惊喜的隐藏彩蛋,瞬间引发了大量网友的关注! 在梳理FlashMLA的代码更新时发现,Model1的身影贯穿于28处记录中。值得注意的是,在核心 ...
智东西1月27日报道,刚刚,DeepSeek开源了其面向OCR场景的专用模型DeepSeek-OCR 2,技术报告同步发布。这一模型是对去年DeepSeek-OCR模型的升级,其采用的新型解码器让模型看图、读文件的顺序更像人,而不是像机械的扫描仪。 简单来说,以前的模型阅读模式是从 ...
使用微信扫码将网页分享到微信 「服务器繁忙,请稍后再试。」 一年前,我也是被这句话硬控的用户之一。 DeepSeek 带着 R1 在一年前的今天(2025.1.20)横空出世,一出场就吸引了全球的目光。 那时候为了能顺畅用上 DeepSeek,我翻遍了自部署教程,也下载过不少 ...
嘿!刚刚,DeepSeek 又更新了! 这次是更新了十月份推出的 DeepSeek-OCR 模型。 当时 DeepSeek-OCR 的出世,引起了大家对视觉压缩的关注与讨论,而这一次,DeepSeek 对视觉编码下手了。 可以说,刚刚发布的 DeepSeek-OCR 2 通过引入 DeepEncoder V2 架构,实现了视觉编码从「 ...
Welcome to Tech In Depth, our revamped daily newsletter with reporting and analysis about the business of tech from Bloomberg’s journalists around the world. Today, Ian King writes that the ...
此次曝光源于DeepSeek对其开源推理加速库FlashMLA的更新。在横跨114个文件的代码变动中,出现了28处“MODEL1”标识符,其技术路径与现有的V32(即DeepSeek-V3.2)架构存在显著差异,暗示这是一个经过彻底重构的新设计。 近日, DeepSeek在GitHub上的代码库更新中,意外 ...
春节假期还没到,DeepSeek 就先把礼物拆了一半。 2 月 11 日,多位用户发现 DeepSeek 的 App 端和网页端已经悄然开始灰度测试一项重大升级:上下文窗口长度从此前 V3.1 版本的 128K token 直接拉到了 1M(百万)token。DeepTech 验证后确认,无论 App 还是网页端,模型自述 ...
DeepSeek-OCR2开源,引入因果流视觉编码器,刷新SOTA。 【导读】DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。 DeepSeek又双叒叕 ...
2月11日,深度求索(DeepSeek)悄悄地对其旗舰模型进行灰度测试。 此次更新的核心亮点是,模型上下文窗口从原先的128K Tokens大幅提升至1M Tokens,实现了近8倍的容量增长。在AI大模型领域,上下文窗口决定了模型在单次交互中能够记忆和处理的信息量上限。
DeepSeek正以“少花钱多办事”的哲学改写AI扩展法则。摩根士丹利认为,DeepSeek独创的Engram架构通过“条件记忆”将计算与存储分离,用高性价比DRAM置换稀缺HBM资源。这不仅重塑了普通存储的价值,更证明了AI下一阶段的制胜点不再是暴力堆砌GPU,而是高效的混合 ...
前述内容由第一财经“星翼大模型”智能生成,相关AI内容力求但不保证准确性、时效性、完整性等。请用户注意甄别,第一财经不承担由此产生的任何责任。 如您有疑问或需要更多信息,可以联系我们 yonghu@yicai.com “MODEL1”很可能已接近训练完成或推理部署阶段 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果