原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒
佚名
2025-01-23 08:06:09
0

这是一个符合直觉的技术方向——只有让机器拥有对物理世界中多模态、多维度信息的感知,拥有了综合的理解,它们才能发展出类似于人类的分析、判断、正确决策能力。

在新范式下,你可以自然地与 AI 进行交流:发一段语音、添加一张图片、输入一些文本,甚至直接录短视频都行;同样的,输出也是自然的多模态形式。

商汤原生融合的多模态模型,打破了一直以来大语言模型、多模态大模型分立的行业局面,真正意义上迈向了模型一统。

对行业来说,大模型进入了多模态时代。随着走向通用和一体化,并在视觉、语音、数学推理等方面实现了前所未有的能力,一线大模型的技术门槛将大幅拉高。

抢先实测

「原生融合多模态」优势尽显

得益于在计算机视觉领域超过十年深耕和丰富经验,进入多模态时代之后,商汤的独有优势正在逐渐显现。

日前,商汤还对外发布了「日日新」融合大模型交互版(SenseNova-5o),它基于「日日新」融合大模型的能力,提供实时音视频对话服务,我们也立刻下载进行了测试。

为了测试它的反应和理解能力,我们举着手机在编辑部开启「夺命连环 call」。

_原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒_原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒

视频链接:

简单测试下来,我们发现它的反应速度很快,与真人对话无异,并且可以随时打断和接话。而且,SenseNova-5o 还拥有令人满意的记忆力,可以长达 5 分钟,因此它能在多轮对话中持续不断理解使用者需求,并且准确记住几分钟之前,曾经听到、看到的内容。

这意味着多模态的 AI 已经可以拓展出一些新的应用场景,比如帮助孩子解读题目,给出清晰的解读思路。

_原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒_原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒

视频链接:

充分支持实现音频、图像、视频的任意组合的多模态输入,以及自然流畅的语音内容输出,商汤走出了迈向更自然人机交互的新一步。

体验了交互能力之后,我们还在商汤「商量」网页版中,测试了全国首个原生融合多模态大模型——商汤「日日新」融合大模型更加全面的表现。

搞笑搭子

最近一大波外国人疯狂涌入小红书,为了拉近与中国网友的关系,他们主动交猫税、开班教英语、手把手辅导作业……

更搞笑的是,评论区还被龙妈和唐僧的同框照刷了屏。

我们把该图丢给商量,它不仅认出两个影视人物,还读懂了这张图背后表达的跨文化传播的幽默感。

原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒_原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒_

再比如这张恶搞电影《华尔街之狼》的梗图。

AI 先分别描述了图片上下两部分的场景,然后揣摩出其中的「深意」——只要将 AI 元素融入日常物品中,就能提升其价值——一语中的。

原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒_原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒_

当被问到「这个场景来自哪部电影?」时,商汤「日日新」一口答出《华尔街之狼》,还简单介绍了其基本信息。

旅游搭子

它还是逛博物馆的好「搭子」。

只需随手一拍,它就能把文物的「前世今生」捋一遍。

就比如这顶明孝端皇后的「九龙九凤冠」,其精美程度让人叹为观止。仅用一张图片,商量就能扒出它的尺寸、设计以及制作工艺等。

原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒__原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒

学习搭子

测试多模态大模型的逻辑推理能力,自然少不了数学题。今年深圳南山区数学题难倒一片小学生,我们从中选取一道来考考商汤「日日新」。

它对着题目就是一顿分析,在给出正确答案的同时,还列出了解题思路。

_原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒_原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒

对于小红书上中外网友探讨的数学作业,商汤「日日新」也能分析得头头是道。

_原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒_原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒

此外,它还能进行图表分析。

从概念理解,到折线图中关键要素提取,再到信息分析,AI 的「大脑」在高速运转,几个步骤合一迅速完成。

_原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒_原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒

更低成本

已商业落地

目前,商汤「日日新」融合大模型已向客户开放了端到端 API 调用,同时融合大模型交互版(SenseNova-5o)也已经面向视觉交互场景开放商用(限时免费!)。

其中,针对商用版本的 SenseNova-5o,商汤将提供两种交互模式的服务。

原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒__原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒

视频链接:

半双工模式:类似对讲机模式,双方交替发言,可以支持平均 560 毫秒响应音频与图像输入,与人类的对话交互的响应接近,同时支持 1200×800px 的图像解析,不超过 30 秒的音频输入,不超过 720p 的视频输入。

全双工模式:类似电话的通信模式,AI 可以实时理解用户意图并生成回应,实现流畅自然的语音 + 视频交互,实现了接近人类面对面交流的体验。

原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒__原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒

SenseNova-5o 基础架构

而且根据最新权威测评,商汤基于原生融合的多模态大模型 ——「日日新」融合大模型,在图文推理、语言等各方面都达到了业内最优水平。

_原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒_原生融合多模态上突破,让商汤大模型打破Scaling Laws撞墙魔咒

在 SuperCLUE 最新的《中文大模型基准测评 2024 年度报告》中,商汤「日日新」和 DeepSeek V3 并列总榜国内第一。在权威综合评测权威平台 OpenCompass 的多模态评测中,商汤「日日新」也取得了第一名,成绩领先 GPT-4o、Claude 3.5 Sonnet 等。

这也让我们发现,采用了原生融合模态训练的多模态大模型的每一种单模态能力,都超越了只在单模态数据上训练的模型的性能 —— 它们在不同模态的数据学习中,涌现出在多模态信息上的深度推理能力,和跨模态的交互能力,显著超越了通过传统图文对齐方法的多模态模型。

在预训练阶段,商汤的工程师不仅使用了天然存在的海量图文交错数据,还通过逆渲染、基于混合语义的图像生成等方法合成了大量融合模态数据,使得模型基座对于模态之间的关系有更扎实的掌握,为更好地完成跨模态任务打下基础。

在后训练阶段,基于对广泛业务场景的认知,商汤构建了大量的跨模态任务,包括视频交互、多模态文档分析、城市场景理解、车载场景理解等。通过把这些任务融入到增强训练的过程,商汤的融合模态模型获得了强大的多模态理解分析能力,对大量业务场景能够形成有效响应。

而且商汤表示,和分别训练一个语言大模型、一个多模态模型相比,训练商汤「日日新」融合大模型的总体成本反而降低了 40%。

AI 扩展定律

还有几个数量级的空间

中国正在 AI 领域快速发展,有赶超美国的趋势。这是谷歌前 CEO 埃里克・施密特(Eric Schmidt)表示最近发表的看法,他给出的理由是:中国正在把 AI 技术快速应用于大规模生产。

国内庞大产业体系和需求,正在逐渐成为驱动 AI 发展的决定性力量。

深耕人工智能技术落地多年的商汤,在模型算法、算力、行业经验、工程落地能力等方面,都具备了绝对的优势。据了解,商汤「日日新」融合大模型,和融合大模型交互版(SenseNova-5o)已经落地在具身机器人、AI 眼镜、手机、教育等场景。

商汤科技联合创始人、人工智能基础设施及大模型首席科学家林达华表示:「多模态大模型应该与广泛的业务场景相结合,能够在真实场景中去解决一些复杂的问题,完成复杂的任务。在交互场景,如人与人对话的过程中,多模态能力可以做到很多以往做不到的事。」

去年 12 月,在全球 AI 顶级学术会议 NeurIPS 上,Ilya Sutskever 发表演讲对于人工智能可用数据枯竭表示了担忧,让人们对 Scaling Laws 是否终结的大讨论愈演愈烈。

对于大模型的 Scaling Laws,商汤也给出了自己的判断。林达华表示,当前利用互联网数据进行预训练的方法,确实很快就会到达瓶颈。但真实世界的数据并不仅限于互联网:工作时的 OA 流程,汽车驾驶时传感器记录的状态,科学研究时获得的数据等等,这些内容会比文字形式存在于互联网上的数据多出四到五个数量级。

想要利用好真实世界中的数据,就必须构建起结合多模态的 AI 模型,这就是商汤坚定投身多模态新方向的原因。

换言之,大模型早已不局限于「做题」了。商汤走通了原生融合模态的技术路径之后,未来已经出现了前所未有的想象空间。甚至在图像 + 文字输入之后,我们还可以期待整个空间结构的输入、机器人与 LLM 推理能力的高度结合,还有很多领域值得去拓展。

传送门:

SenseNova-5o 正式接口及接入方案:

相关内容

吉视传媒在CCBN展示AI...
在第三十一届中国国际广播电视信息网络展览会(CCBN)上,吉视传媒...
2025-04-26 22:05:33
影石Insta360 Co...
近期,影石旗下AI双摄视频会议一体机 Insta360 Conne...
2025-04-09 23:05:25
影石AI双摄会议一体机In...
深圳商报·读创客户端记者 陈燕青近期,影石旗下AI双摄视频会议一体...
2025-04-09 22:21:00
2025年慕尼黑上海电子生...
2025年慕尼黑上海电子生产设备展于3月26-28日举行,展览规模...
2025-04-01 23:06:38
2025年AWE展会:TC...
2025年AWE将通过场景化展示,生动呈现智能产品、智慧家庭解决方...
2025-03-28 22:06:45
2025AWE上海新国际博...
作为全球三大家电与消费电子展会之一,这场以“AI科技、AI生活”为...
2025-03-28 09:09:17

热门资讯

靠七天无理由退货赚了200万?... 漏洞不是随便钻的。
英国首相为“AI 校园”揭幕:... IT之家 11 月 28 日消息,据路透社报道,当地时间 27 日,英国首相基尔・斯塔默(Keir ...
刚刚,OpenAI首个智能体提... 刚刚,OpenAI首个智能体提前曝光!高级编码AI剑指400万年薪L6级工程师,编程,工程师,智能体...
中国改变全球创新药估值!生物技... 中国改变全球创新药估值!生物技术的“DeepSeek时刻”已来,中国,医药,制药,创新药,生物技术,...
96GB大容量,芝奇推出DDR... 该套装将于2025年第一季度在全球各地陆续开售。
谷歌Pixel 9a手机渲染图... IT之家 2 月 10 日消息,爆料人士 Evan Blass 曝光了谷歌 Pixel 9a 的渲染...
国产雷克萨斯终于来了,但我怀疑... 国产的雷克萨斯电车,不可能再给你玩加价那一套了
连雷军都在劝你学AI,但这课我... 连雷军都在劝你学AI,但这课我劝你别买。。。,雷军,宇宙,编程,电脑,李飞飞,人工智能
一文看懂索尼、三星、豪威的各种... 1,三大厂家名词统一首先,“双原生ISO”这个词最先在手机端出现,还得追溯至绿厂 Find X2 P...
华米 Ov 们把手机电池搞得大... 话说,今年的国产旗舰手机,有一个特质很突出 —— 电池容量大。除了少数几款标准版机型,大多新机的电池...