刚刚，美团开源全模态龙猫模型，和 ChatGPT 大战 100 回合打得难解难分

美团，这家外卖公司，又开源了！

刚刚，美团发布了 LongCat-Flash-Omni，一个 560B 参数（激活 27B）的开源全模态 MoE 模型。

模型在多个基准测试中拿下了 SOTA，甚至在部分指标上超越了 Gemini-2.5-Flash（见下）。

这个全模态的意思，就是既能语音对话（龙猫 APP 里已可用），还能视频通话（APP 里 coming soon）：

我也第一时间让龙猫与 ChatGPT 来了个成语接龙大战，来直观感受一下：

两个 AI 就这样你一句我一句……接下去了……打得难解又难分。

而我一个没注意，这俩货不知打了多少个回合，且已经进行到道别阶段了，但这个道别呢……怎么讲，就像是两位热恋中的 AI 即将煲完电话粥，却谁都不允许先挂电话的那个人是自己：

一只耳聪目明的猫

名为「龙猫」，自然得模如其名了。

想必人人都有过撸猫的经历：当你跟猫对话时，它不仅能听懂你说的话，还能看懂你展示的图片、视频，甚至能理解你哼的音乐的情绪。

LongCat-Flash-Omni 最大的亮点是真正的全模态能力，它能同时处理文本、图像、音频、视频，而且还能实时进行音视频交互。

好比宫崎骏动画里的龙猫，虽然体型庞大，但感知敏锐，能察觉到最细微的变化。

所以美团的龙猫，自然也得是全模态的猫。

技术创新

美团采用了 Shortcut-connected MoE 架构，配合零计算专家（zero-computation experts）设计。

这个设计很巧妙，就像高速公路上的 ETC 通道，让信息处理更高效，避免了「堵车」。

更重要的是，美团还提出了早期融合训练范式（Early-Fusion Training），能确保模型在获得多模态能力的同时，不会在单一模态上「偏科」。

而不是先语言训练，然后再后加上视觉或音频能力。这就像培养全能运动员，不能因为练游泳就忘了跑步，每天都要练一起练，而不是先练两年游泳，然后再去学跑步。

这样的一体化架构，让这只「龙猫」实现了完全端到端的设计：视觉与音频编码器作为多模态感知器，LLM 直接处理输入并生成文本与语音 token，再通过轻量级音频解码器重建为自然语音波形。

所有模块均基于高效流式推理设计，视觉编码器、音频编解码器均为轻量级组件，参数量仅约 6 亿。

另一个技术突破是大规模与低延迟的平衡。

虽然总参数达 560B，但依托创新的 ScMoE 架构，结合「分块式音视频特征交织机制」，模型支持 128K tokens 上下文窗口及超 8 分钟音视频交互，在多模态长时记忆、多轮对话、时序推理等能力上具备显著优势。

而在训练上，美团采用了渐进式融合 + 全模态 DPO 的方式解决了「多模能力断层」问题。

面对不同模态数据分布的显著异质性，LongCat-Flash-Omni 采用渐进式早期多模融合训练策略，配合全模态 DPO，逐步融入文本、音频、视频等模态，确保全模态性能强劲且无任何单模态性能退化。

多项 SOTA

在基准测试中，LongCat-Flash-Omni 表现相当亮眼：

OmniBench：61.4%，领先开源模型
音频理解：74.8%，超过多数竞品
VoiceBench：88.7%，接近人类水平
TempCompass：82.2%，时序理解能力突出
MuirBench：77.1%，多图理解表现优异

特别值得一提的是，在多个关键指标上，它甚至超越了 Gemini-2.5-Flash（非思考模式）。

比如在 RefCOCO 上达到 92.3%（Gemini 71.9%），在 VideoMME 音频测试中取得 78.2 分（Gemini 78.5）。

网友热议

网友 MakerMatters? 称：

又一个中国的最先进模型，这次来自一家名为美团的外卖公司。没听错，就是做外卖的。在送餐之余，他们的消息机器人在创造积极的客户体验方面显然非常出色，比起像 Uber 那样的要好得多。Uber 的机器人似乎无论如何都不太愿意退款。不管怎样，美团的团队目前已经接近技术前沿，而且看起来毫不退缩。

EdDiboi(@EdDiberd) 调侃道：

没想到中国版 DoorDash （国外版外卖公司）也能一个接一个地发布模型

对此网友 Teortaxes 解释道，这家中国外卖公司可是大有来路，年营收高达数百亿美元，员工人数也超过 Meta，是那种可以把前沿模型开发当成副业来搞的巨头公司。

Zephyr 甚至点名小扎：快来学着点抄作业了。

Andrew Nosenko 🇺🇦 🇦🇺(@noseratio) 期待什么时候能用上 API：

听起来很棒，但对我们普通人来说，评估音频能力相当困难。你们有 API 可以调用吗？

Himanshu Kumar(@codewithimanshu) 赞叹：

太令人印象深刻了，美团！看起来 AI 交互的未来已经到来了，不是吗？

Winter(@Cordyceps44) 也是大方送出点赞：

LongCat 是更好的 AI 模型之一

更有许多网友大方送上祝福，表示恭喜：

不过，虽然国外网友们点赞了美团龙猫，但龙猫却不是人人都可以轻易就能用上的……比如这位用错了网址的网友称无法访问龙猫官网：

区别是：longcat.ai 是海外版不需要备案的，longcat.chat 则是备案了的域名。这就是没仔细看官方推文了：

不过 APP 倒似乎真不容易下载，我就发现 APP 似乎只上架了中国区 App Store，得切换回来才能搜索到。

来自英国的网友 Janek Mann(@janekm) 无奈地说：

很遗憾 APP 在英国不能用！希望你们尽快改变这一点，英国有很多中国人呢。

好吧，这也算是让国外网友们又一次体会到了想用而不能的痛苦了

部署使用

不过，虽然官网不好访问，但模型已经完全开源了，自己部署也是能随意用的。

LongCat-Flash-Omni 支持通过 SGLang 部署运行，不过由于是 560B 的大模型，部署还是需要一点点的硬件实力了🤏。

安装依赖

conda create -n longcat python=3.10conda activate longcat

安装 SGLang（暂时使用开发分支）

git clone -b longcat_omni_v0.5.3.post3 https://github.com/XiaoBin1992/sglang.gitpushd sglangpip install -e "python"popd

安装 LongCat-Flash-Omni demo

git clone https://github.com/meituan-longcat/LongCat-Flash-Omnipushd LongCat-Flash-Omnigit submodule update --init --recursivepip install -r requirements.txtpopd

单节点推理（需要 8×H20-141G 或类似配置）

python3 longcat_omni_demo.py \  --tp-size 8 \  --ep-size 8 \  --model-path /path/to/model \  --output-dir output

多节点推理（需要 16×H800-80G 或类似配置）

python3 longcat_omni_demo.py \  --tp-size 16 \  --ep-size 16 \  --nodes 2 \  --node-rank $NODE_RANK \  --dist-init-addr $MASTER_IP:5000 \  --model-path /path/to/model \  --output-dir output

开源 vs 闭源

在美团又一次扔出新模型 LongCat-Flash-Omni 之际，或许是时候再来回顾一下此前 Anthropic CEO Dario Amodei 关于开源模型的言论：

Dario 在采访中声称，开源在 AI 领域的作用与其他领域不同，因为我们看不到模型内部，而且最终还是要在云端托管，所以开源是个伪命题。

Dario Amodei：

我认为，开源在 AI 领域并不像在其他领域那样奏效。主要原因是，在传统的开源中，你可以看到源代码；但在这里，我们无法真正看到模型的内部结构。因此，人们通常称之为“开放权重”（open weights）而不是“开源”（open source），以示区分。可问题在于，开源的很多优势——比如让很多人共同协作、实现持续累积改进——在 AI 模型上其实并不能以同样的方式发挥作用。

所以我一直认为“开源”是个伪命题。当我看到一个新模型发布时，我并不在意它是否开源。比如谈到 DeepSeek，我认为它是不是开源根本不重要。我会问的是：这个模型好吗？在关键任务上，它是否比我们更强？这才是我唯一关心的。

实际上，这一点无论如何都没太大区别。因为最终你都得在云端运行这些模型。云端的服务商负责推理（inference）。这些模型非常庞大，推理过程也很困难。
当我思考竞争时，我关注的是哪些模型在我们关心的任务上表现出色。我认为“开源”其实是一个干扰话题。
它也不是免费的。你仍然需要运行推理，并且还得有人让推理变得足够高效。

我想说的是，Dario 只说对了前一半：

确实，除了 Andrew Karpathy 的 nanochat，可以说几乎所有的 LLM 都称不上是绝对意义上的开源模型，因为数据并没有开源，训练代码也没有开源。

从这个角度上来说，Dario 的前一半言论可算是有些道理。

但他后一半的内容，则简直就是大错特错了！

要知道，闭源模型可以随心所欲地修改，用户甚至不知道它变了（比如之前的 Claude 降智事件）；可以随时下架，用户毫无办法（比如 GPT-4o 跑路事件）。

而开源模型只要有人存储和分享权重，就能永远存在。用户可以微调开源模型，并拥有微调后模型的权重（比如此次的龙猫）。

可以说：开源对人类的自由和隐私至关重要。

而且，不容忽视的是：开源模型背后的公司为整个 AI 发展做出了巨大贡献。

事实上，当人们发现本地模型越来越有用，不再需要大规模基础设施和付费会员时，那些完全依赖闭源的公司自然会感到焦虑。比如 airbnb CEO 就公开声称，其公司已经大量使用了中国开源模型并正在全面切量到开源模型。

当然，原因也是在于，开源模型的能力正在快速且无限接受闭源模型们：

这也解释了为什么 Anthropic 至今没有发布任何开源模型，以及这位冠冕堂皇的 CEO 能言之凿凿地发出这般错误言论的原因。其中，既有源自对开源模型能力提升的恐惧，又有为了维护公司的估值而进行的自我思维体操。

虽然如 Yann LeCun 所言，不是中美之争，而是开闭源之争。但显然，中国模型公司，正在模型开源的道路上引领并绝尘。

比如 Cursor 新推出的 composer1 模型和 Windsurf 的新模型：

不过，外卖出身的美团似乎从不参与这些争论，只是低调地直接用行动说话，不断扔出一个又一个 sota 级开源模型。

龙猫，不在 X 小虎中，也不号称 Y 小龙，而是——

本就是条龙，不经意间就能捕获你的芳心

Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
GitHub：https://github.com/meituan-longcat/LongCat-Flash-Omni
官网体验：https://longcat.ai/
技术报告：https://github.com/meituan-longcat/LongCat-Flash-Omni/blob/main/tech_report.pdf

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流（不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间）欢迎加入！

也欢迎加群和10000+群友交流。