刚刚,美团开源全模态龙猫模型,和 ChatGPT 大战 100 回合打得难解难分
美团,这家外卖公司,又开源了!
刚刚,美团发布了 LongCat-Flash-Omni,一个 560B 参数(激活 27B)的开源全模态 MoE 模型。
模型在多个基准测试中拿下了 SOTA,甚至在部分指标上超越了 Gemini-2.5-Flash(见下)。
这个全模态的意思,就是既能语音对话(龙猫 APP 里已可用),还能视频通话(APP 里 coming soon):
两个 AI 就这样你一句我一句……接下去了……打得难解又难分。
而我一个没注意,这俩货不知打了多少个回合,且已经进行到道别阶段了,但这个道别呢……怎么讲,就像是两位热恋中的 AI 即将煲完电话粥,却谁都不允许先挂电话的那个人是自己:
一只耳聪目明的猫
名为「龙猫」,自然得模如其名了。
想必人人都有过撸猫的经历:当你跟猫对话时,它不仅能听懂你说的话,还能看懂你展示的图片、视频,甚至能理解你哼的音乐的情绪。
LongCat-Flash-Omni 最大的亮点是真正的全模态能力,它能同时处理文本、图像、音频、视频,而且还能实时进行音视频交互。
好比宫崎骏动画里的龙猫,虽然体型庞大,但感知敏锐,能察觉到最细微的变化。
所以美团的龙猫,自然也得是全模态的猫。
技术创新
美团采用了 Shortcut-connected MoE 架构,配合零计算专家(zero-computation experts)设计。
这个设计很巧妙,就像高速公路上的 ETC 通道,让信息处理更高效,避免了「堵车」。
更重要的是,美团还提出了早期融合训练范式(Early-Fusion Training),能确保模型在获得多模态能力的同时,不会在单一模态上「偏科」。
而不是先语言训练,然后再后加上视觉或音频能力。这就像培养全能运动员,不能因为练游泳就忘了跑步,每天都要练一起练,而不是先练两年游泳,然后再去学跑步。
这样的一体化架构,让这只「龙猫」实现了完全端到端的设计:视觉与音频编码器作为多模态感知器,LLM 直接处理输入并生成文本与语音 token,再通过轻量级音频解码器重建为自然语音波形。
所有模块均基于高效流式推理设计,视觉编码器、音频编解码器均为轻量级组件,参数量仅约 6 亿。
另一个技术突破是大规模与低延迟的平衡。
虽然总参数达 560B,但依托创新的 ScMoE 架构,结合「分块式音视频特征交织机制」,模型支持 128K tokens 上下文窗口及超 8 分钟音视频交互,在多模态长时记忆、多轮对话、时序推理等能力上具备显著优势。
而在训练上,美团采用了渐进式融合 + 全模态 DPO 的方式解决了「多模能力断层」问题。
面对不同模态数据分布的显著异质性,LongCat-Flash-Omni 采用渐进式早期多模融合训练策略,配合全模态 DPO,逐步融入文本、音频、视频等模态,确保全模态性能强劲且无任何单模态性能退化。
多项 SOTA
在基准测试中,LongCat-Flash-Omni 表现相当亮眼:
OmniBench:61.4%,领先开源模型
音频理解:74.8%,超过多数竞品
VoiceBench:88.7%,接近人类水平
TempCompass:82.2%,时序理解能力突出
MuirBench:77.1%,多图理解表现优异
特别值得一提的是,在多个关键指标上,它甚至超越了 Gemini-2.5-Flash(非思考模式)。
比如在 RefCOCO 上达到 92.3%(Gemini 71.9%),在 VideoMME 音频测试中取得 78.2 分(Gemini 78.5)。
网友热议
又一个中国的最先进模型,这次来自一家名为美团的外卖公司。没听错,就是做外卖的。在送餐之余,他们的消息机器人在创造积极的客户体验方面显然非常出色,比起像 Uber 那样的要好得多。Uber 的机器人似乎无论如何都不太愿意退款。不管怎样,美团的团队目前已经接近技术前沿,而且看起来毫不退缩。
EdDiboi(@EdDiberd) 调侃道:
没想到中国版 DoorDash (国外版外卖公司)也能一个接一个地发布模型
Zephyr 甚至点名小扎:快来学着点抄作业了。
Andrew Nosenko 🇺🇦 🇦🇺(@noseratio) 期待什么时候能用上 API:
听起来很棒,但对我们普通人来说,评估音频能力相当困难。你们有 API 可以调用吗?
Himanshu Kumar(@codewithimanshu) 赞叹:
太令人印象深刻了,美团!看起来 AI 交互的未来已经到来了,不是吗?
Winter(@Cordyceps44) 也是大方送出点赞:
LongCat 是更好的 AI 模型之一
更有许多网友大方送上祝福,表示恭喜:
不过,虽然国外网友们点赞了美团龙猫,但龙猫却不是人人都可以轻易就能用上的……比如这位用错了网址的网友称无法访问龙猫官网:
区别是:longcat.ai 是海外版不需要备案的,longcat.chat 则是备案了的域名。这就是没仔细看官方推文了:
不过 APP 倒似乎真不容易下载,我就发现 APP 似乎只上架了中国区 App Store,得切换回来才能搜索到。
来自英国的网友 Janek Mann(@janekm) 无奈地说:
很遗憾 APP 在英国不能用!希望你们尽快改变这一点,英国有很多中国人呢。
好吧,这也算是让国外网友们又一次体会到了想用而不能的痛苦了
部署使用
不过,虽然官网不好访问,但模型已经完全开源了,自己部署也是能随意用的。
LongCat-Flash-Omni 支持通过 SGLang 部署运行,不过由于是 560B 的大模型,部署还是需要一点点的硬件实力了🤏。
安装依赖
conda create -n longcat python=3.10conda activate longcat
安装 SGLang(暂时使用开发分支)
git clone -b longcat_omni_v0.5.3.post3 https://github.com/XiaoBin1992/sglang.gitpushd sglangpip install -e "python"popd
安装 LongCat-Flash-Omni demo
git clone https://github.com/meituan-longcat/LongCat-Flash-Omnipushd LongCat-Flash-Omnigit submodule update --init --recursivepip install -r requirements.txtpopd
单节点推理(需要 8×H20-141G 或类似配置)
python3 longcat_omni_demo.py \--tp-size 8 \--ep-size 8 \--model-path /path/to/model \--output-dir output
多节点推理(需要 16×H800-80G 或类似配置)
python3 longcat_omni_demo.py \--tp-size 16 \--ep-size 16 \--nodes 2 \--node-rank $NODE_RANK \--dist-init-addr $MASTER_IP:5000 \--model-path /path/to/model \--output-dir output
开源 vs 闭源
在美团又一次扔出新模型 LongCat-Flash-Omni 之际,或许是时候再来回顾一下此前 Anthropic CEO Dario Amodei 关于开源模型的言论:
Dario 在采访中声称,开源在 AI 领域的作用与其他领域不同,因为我们看不到模型内部,而且最终还是要在云端托管,所以开源是个伪命题。
Dario Amodei:
我认为,开源在 AI 领域并不像在其他领域那样奏效。主要原因是,在传统的开源中,你可以看到源代码;但在这里,我们无法真正看到模型的内部结构。因此,人们通常称之为“开放权重”(open weights)而不是“开源”(open source),以示区分。可问题在于,开源的很多优势——比如让很多人共同协作、实现持续累积改进——在 AI 模型上其实并不能以同样的方式发挥作用。
所以我一直认为“开源”是个伪命题。当我看到一个新模型发布时,我并不在意它是否开源。比如谈到 DeepSeek,我认为它是不是开源根本不重要。我会问的是:这个模型好吗?在关键任务上,它是否比我们更强?这才是我唯一关心的。
实际上,这一点无论如何都没太大区别。因为最终你都得在云端运行这些模型。云端的服务商负责推理(inference)。这些模型非常庞大,推理过程也很困难。
当我思考竞争时,我关注的是哪些模型在我们关心的任务上表现出色。我认为“开源”其实是一个干扰话题。
它也不是免费的。你仍然需要运行推理,并且还得有人让推理变得足够高效。
我想说的是,Dario 只说对了前一半:
确实,除了 Andrew Karpathy 的 nanochat,可以说几乎所有的 LLM 都称不上是绝对意义上的开源模型,因为数据并没有开源,训练代码也没有开源。
从这个角度上来说,Dario 的前一半言论可算是有些道理。
但他后一半的内容,则简直就是大错特错了!
要知道,闭源模型可以随心所欲地修改,用户甚至不知道它变了(比如之前的 Claude 降智事件);可以随时下架,用户毫无办法(比如 GPT-4o 跑路事件)。
而开源模型只要有人存储和分享权重,就能永远存在。用户可以微调开源模型,并拥有微调后模型的权重(比如此次的龙猫)。
可以说:开源对人类的自由和隐私至关重要。
而且,不容忽视的是:开源模型背后的公司为整个 AI 发展做出了巨大贡献。
事实上,当人们发现本地模型越来越有用,不再需要大规模基础设施和付费会员时,那些完全依赖闭源的公司自然会感到焦虑。比如 airbnb CEO 就公开声称,其公司已经大量使用了中国开源模型并正在全面切量到开源模型。
当然,原因也是在于,开源模型的能力正在快速且无限接受闭源模型们:
这也解释了为什么 Anthropic 至今没有发布任何开源模型,以及这位冠冕堂皇的 CEO 能言之凿凿地发出这般错误言论的原因。其中,既有源自对开源模型能力提升的恐惧,又有为了维护公司的估值而进行的自我思维体操。
虽然如 Yann LeCun 所言,不是中美之争,而是开闭源之争。但显然,中国模型公司,正在模型开源的道路上引领并绝尘。
比如 Cursor 新推出的 composer1 模型和 Windsurf 的新模型:
不过,外卖出身的美团似乎从不参与这些争论,只是低调地直接用行动说话,不断扔出一个又一个 sota 级开源模型。
龙猫,不在 X 小虎中,也不号称 Y 小龙,而是——
本就是条龙,不经意间就能捕获你的芳心
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Omni GitHub:https://github.com/meituan-longcat/LongCat-Flash-Omni 官网体验:https://longcat.ai/ 技术报告:https://github.com/meituan-longcat/LongCat-Flash-Omni/blob/main/tech_report.pdf
👇
👇
👇
另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。
这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)欢迎加入!
也欢迎加群和10000+群友交流。