遏制 AI 幻觉：苹果 DeepMMSearch-R1 论文揭秘“图像裁剪”搜索术

哈哈库新闻资讯 2026-01-15 14:59:20 13

1 月 15 日消息，科技媒体 Appleinsider 今天（1 月 15 日）发布博文，报道称苹果发表重磅研究论文，详细介绍名为 DeepMMSearch-R1 的 AI 模型，重点优化 AI 在复杂视觉场景下的搜索逻辑，用“裁剪”治愈 AI 幻觉。

针对现有 AI 模型在处理复杂视觉信息时常出现的“答非所问”或“漏看”问题，苹果推出了 DeepMMSearch-R1 模型。传统模型在面对“图中左上角那只鸟的最高时速是多少”这类复合问题时，往往因无法聚焦局部细节而给出错误的平均数据。

DeepMMSearch-R1 引入了独特的“视觉定位工具（Grounding Tool）”，能够主动裁剪图片以剔除干扰信息，先精准识别微小目标，再进行针对性的网络搜索验证，从而确保答案的事实准确性。

为确保模型仅在必要时才启用裁剪功能以节省算力，研究人员采用了“监督微调（SFT）+ 在线强化学习（RL）”的组合训练法。SFT 负责教会模型“不乱剪”，而 RL 则提升了工具调用的效率。

测试数据显示，该模型在处理需精准图文对应的问题上，表现显著优于目前的 RAG（检索增强生成）工作流及基于提示词的搜索智能体，成功解决了 AI 在常识性事实检索中的“偷懒”现象。

本文地址： http://hahaku.com/170493.html

文章来源： IT之家