VLM Vision Language Models

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

李浩然，CMU 机器学习系研究生，研究方向是基础模型的长上下文建模、对齐、以及检索增强生成。如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而，它们在长视频理解和检索等长上下文任务中仍 ...

腾讯网

2025年，自动驾驶即将开“卷”的端到端大模型 2.0 - VLA (Vision Language ...

太卷了，智能驾驶在国内的落地发展太迅速了，从体验功能端，大家开城大战打完了之后就进入点到点的落地战，点到点弄完了之后肯定Robotaxi大战；而在硬核的软件技术端，端到端大模型战在华为这个月宣布急攻端到端大模型的信息下，已经算是进入焦灼状态。

生物通

基于视觉语言模型增强的具身智能框架在数字孪生辅助人机协作装配 ...

这篇综述创新性地提出了一种VLM（Vision Language Model）增强的具身智能框架，通过数字孪生（DT）技术实现人机协作（HRC）装配的动态感知、任务推理与自主执行。研究解决了传统HRC中模型重复训练、环境适应性差等问题，结合VLM的强泛化能力和DT的仿真推演优势 ...

新浪网

从刘先明访谈看小鹏自动驾驶发展：围绕数据效率重构的技术路径

一、自动驾驶技术路径的变化：过去两年，自动驾驶的讨论重心正在发生变化。一方面，大模型和多模态技术快速渗透到智能驾驶领域，VLM（Vision-Language Model，视觉-语言模型）、VLA（Vision-Language-Action，视觉-语言-动作模型）等概念频繁出现；另一方面，行业并 ...

新浪网

Vision-Zero：零数据VLM自我进化！陈怡然团队提出零监督训练

本文作者包括来自杜克大学的汪勤思、林阅千、李海教授、陈怡然教授，新加坡国立大学的刘博，马里兰大学的周天翼教授，和Adobe的研究员施靖、万锟、赵文天。尽管目前VLM在多模态任务上表现突出，但训练过度依赖人工标注的数据与精心设计的强化学习奖励。

中時新聞網

创泓科技秀VLM 抢无人载具商机

创泓科技（7714）18日参加台北国际航太暨国防工业展，董事长黄建寧表示，今年展示新研发的VLM（Vision- Language Model，视觉语言模型），整合视觉及自然语言，搭配辉达Jetson Thor平台，以及反制、反干扰即时监控系统。准备抢攻无人载具、无人机的商机。黄建寧 ...

中時新聞網

《通网股》中华电AI交通安全摘金助衝智慧城市

中华电(2412)研究院自主研发VLM(Vision Language Model)视觉影像分析技术，在全球指标性竞赛2025 AI City Challenge中脱颖而出，获得交通安全描述与分析(Traffic Safety Description and Analysis)竞赛项目排行榜第一名。该成果获大会邀请，将于10月20日至美国夏威夷举行的颁奖典礼上 ...

生物通

基于视觉语言模型（VLM）的腹部超声标准切面智能质量评估系统AbVLM-Q ...

本研究针对腹部超声标准切面获取质量受操作者依赖性影响的关键问题，开发了基于视觉语言模型（VLM）的智能评估系统AbVLM-Q。通过多中心7,766例超声图像数据，采用分层提示（hierarchical prompting）和LoRA微调技术，实现了关键结构检测（精度98.10%）、切面分类 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果