GPU Cache - 搜索 News

KV Cache管理架构演进：从连续分配到统一混合内存架构

点击上方“Deephub Imba”,关注公众号,好文章不错过 !在生产环境部署过LLM的人都知道模型权重只是问题的一半，另一半是KV ...

DeepSeek+清北重磅论文：发力智能体底层基建，击穿Agent推理I/O瓶颈

当大模型在长期的上下文中与环境进行几十甚至上百轮的交互时，计算的瓶颈从GPU的算力转为存储I/O带宽。由于每次只追加极少的Token，导致KV-Cache命中率极高（通常大于95%），GPU大量的时间被用来等待从外部存储中读取海量的历史KV-Cach ...

5 天

DeepSeek再发新论文，DualPath架构如何将推理吞吐量提升近2倍？

DeepSeek联合北京大学、清华大学发布了一篇题为《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM ...

3 天

DeepSeek-V4发布前夕，先迈出“关键一步”，打通智能体提速之路

研究团队经过严格的带宽分析证明，在常见的预填充和解码节点配比下，DualPath在使存储网卡带宽饱和的同时，计算网卡的带宽也不会成为新的瓶颈，能够覆盖绝大部分实际部署场景。

8 天

“小显存，大模型”国数集联解读如何降低AI普惠门槛

国数集联“小显存、大模型”方案，对中小企业AI本地化应用的价值是多维度的，不仅大幅降低硬件采购成本，更在部署灵活性、运维简便性上实现优化，真正让AI技术能够走进更多中小企业。

新浪网

破局显存焦虑：新华三推出大模型推理场景加速方案

据多家权威研究机构最新研判，2026 年核心存储供应链的结构性短缺已成行业刚性现实，供需缺口持续扩大且很可能延续至 2027 年。不仅是存储部件的单点问题，当前，生成式 AI 正从技术尝鲜全面走向规模化落地，大模型技术的应用场景正在从训练为主转向 ...

insideHPC

DDN Takes on GPU Waste with KV Cache Performance for AI Reasoning

CHATSWORTH, Calif. — July 18, 2025 DDN today unveiled performance benchmarks that the company said demonstrates how its AI-optimized DDN Infinia platform eliminates GPU waste and delivers the fastest ...

TweakTown

Intel's killed-off BMG-X3/X4 GPUs: 3D stacked die, up to 40 GPU cores, 512MB Adamantine cache

TL;DR: Intel's cancelled Battlemage GPUs featured innovative 3D-stacked Adamantine cache, promising enhanced performance similar to AMD's Infinity Cache. Despite ambitious designs with up to 40 Xe2 ...

Gizmochina

Snapdragon 8 Gen 4 utilizes a new GPU architecture with improved cache and memory ...

Qualcomm‘s next flagship mobile processor, the Snapdragon 8 Gen 4, is expected to launch later this year, and rumors regarding its features are picking up steam. A new leak by Weibo tipster Digital ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果