原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒_科技动态

原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒

佚名

2025-01-23 08:06:09

0次

这是一个符合直觉的技术方向——只有让机器拥有对物理世界中多模态、多维度信息的感知，拥有了综合的理解，它们才能发展出类似于人类的分析、判断、正确决策能力。

在新范式下，你可以自然地与 AI 进行交流：发一段语音、添加一张图片、输入一些文本，甚至直接录短视频都行；同样的，输出也是自然的多模态形式。

商汤原生融合的多模态模型，打破了一直以来大语言模型、多模态大模型分立的行业局面，真正意义上迈向了模型一统。

对行业来说，大模型进入了多模态时代。随着走向通用和一体化，并在视觉、语音、数学推理等方面实现了前所未有的能力，一线大模型的技术门槛将大幅拉高。

抢先实测

「原生融合多模态」优势尽显

得益于在计算机视觉领域超过十年深耕和丰富经验，进入多模态时代之后，商汤的独有优势正在逐渐显现。

日前，商汤还对外发布了「日日新」融合大模型交互版（SenseNova-5o），它基于「日日新」融合大模型的能力，提供实时音视频对话服务，我们也立刻下载进行了测试。

为了测试它的反应和理解能力，我们举着手机在编辑部开启「夺命连环 call」。

_原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒_原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒

视频链接：

简单测试下来，我们发现它的反应速度很快，与真人对话无异，并且可以随时打断和接话。而且，SenseNova-5o 还拥有令人满意的记忆力，可以长达 5 分钟，因此它能在多轮对话中持续不断理解使用者需求，并且准确记住几分钟之前，曾经听到、看到的内容。

这意味着多模态的 AI 已经可以拓展出一些新的应用场景，比如帮助孩子解读题目，给出清晰的解读思路。

_原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒_原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒

视频链接：

充分支持实现音频、图像、视频的任意组合的多模态输入，以及自然流畅的语音内容输出，商汤走出了迈向更自然人机交互的新一步。

体验了交互能力之后，我们还在商汤「商量」网页版中，测试了全国首个原生融合多模态大模型——商汤「日日新」融合大模型更加全面的表现。

搞笑搭子

最近一大波外国人疯狂涌入小红书，为了拉近与中国网友的关系，他们主动交猫税、开班教英语、手把手辅导作业……

更搞笑的是，评论区还被龙妈和唐僧的同框照刷了屏。

我们把该图丢给商量，它不仅认出两个影视人物，还读懂了这张图背后表达的跨文化传播的幽默感。

原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒_原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒_

再比如这张恶搞电影《华尔街之狼》的梗图。

AI 先分别描述了图片上下两部分的场景，然后揣摩出其中的「深意」——只要将 AI 元素融入日常物品中，就能提升其价值——一语中的。

原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒_原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒_

当被问到「这个场景来自哪部电影？」时，商汤「日日新」一口答出《华尔街之狼》，还简单介绍了其基本信息。

旅游搭子

它还是逛博物馆的好「搭子」。

只需随手一拍，它就能把文物的「前世今生」捋一遍。

就比如这顶明孝端皇后的「九龙九凤冠」，其精美程度让人叹为观止。仅用一张图片，商量就能扒出它的尺寸、设计以及制作工艺等。

原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒__原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒

学习搭子

测试多模态大模型的逻辑推理能力，自然少不了数学题。今年深圳南山区数学题难倒一片小学生，我们从中选取一道来考考商汤「日日新」。

它对着题目就是一顿分析，在给出正确答案的同时，还列出了解题思路。

_原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒_原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒

对于小红书上中外网友探讨的数学作业，商汤「日日新」也能分析得头头是道。

_原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒_原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒

此外，它还能进行图表分析。

从概念理解，到折线图中关键要素提取，再到信息分析，AI 的「大脑」在高速运转，几个步骤合一迅速完成。

_原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒_原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒

更低成本

已商业落地

目前，商汤「日日新」融合大模型已向客户开放了端到端 API 调用，同时融合大模型交互版（SenseNova-5o）也已经面向视觉交互场景开放商用（限时免费！）。

其中，针对商用版本的 SenseNova-5o，商汤将提供两种交互模式的服务。

原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒__原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒

视频链接：

半双工模式：类似对讲机模式，双方交替发言，可以支持平均 560 毫秒响应音频与图像输入，与人类的对话交互的响应接近，同时支持 1200×800px 的图像解析，不超过 30 秒的音频输入，不超过 720p 的视频输入。

全双工模式：类似电话的通信模式，AI 可以实时理解用户意图并生成回应，实现流畅自然的语音 + 视频交互，实现了接近人类面对面交流的体验。

原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒__原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒

SenseNova-5o 基础架构

而且根据最新权威测评，商汤基于原生融合的多模态大模型 ——「日日新」融合大模型，在图文推理、语言等各方面都达到了业内最优水平。

_原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒_原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒

在 SuperCLUE 最新的《中文大模型基准测评 2024 年度报告》中，商汤「日日新」和 DeepSeek V3 并列总榜国内第一。在权威综合评测权威平台 OpenCompass 的多模态评测中，商汤「日日新」也取得了第一名，成绩领先 GPT-4o、Claude 3.5 Sonnet 等。

这也让我们发现，采用了原生融合模态训练的多模态大模型的每一种单模态能力，都超越了只在单模态数据上训练的模型的性能 —— 它们在不同模态的数据学习中，涌现出在多模态信息上的深度推理能力，和跨模态的交互能力，显著超越了通过传统图文对齐方法的多模态模型。

在预训练阶段，商汤的工程师不仅使用了天然存在的海量图文交错数据，还通过逆渲染、基于混合语义的图像生成等方法合成了大量融合模态数据，使得模型基座对于模态之间的关系有更扎实的掌握，为更好地完成跨模态任务打下基础。

在后训练阶段，基于对广泛业务场景的认知，商汤构建了大量的跨模态任务，包括视频交互、多模态文档分析、城市场景理解、车载场景理解等。通过把这些任务融入到增强训练的过程，商汤的融合模态模型获得了强大的多模态理解分析能力，对大量业务场景能够形成有效响应。

而且商汤表示，和分别训练一个语言大模型、一个多模态模型相比，训练商汤「日日新」融合大模型的总体成本反而降低了 40%。

AI 扩展定律

还有几个数量级的空间

中国正在 AI 领域快速发展，有赶超美国的趋势。这是谷歌前 CEO 埃里克・施密特（Eric Schmidt）表示最近发表的看法，他给出的理由是：中国正在把 AI 技术快速应用于大规模生产。

国内庞大产业体系和需求，正在逐渐成为驱动 AI 发展的决定性力量。

深耕人工智能技术落地多年的商汤，在模型算法、算力、行业经验、工程落地能力等方面，都具备了绝对的优势。据了解，商汤「日日新」融合大模型，和融合大模型交互版（SenseNova-5o）已经落地在具身机器人、AI 眼镜、手机、教育等场景。

商汤科技联合创始人、人工智能基础设施及大模型首席科学家林达华表示：「多模态大模型应该与广泛的业务场景相结合，能够在真实场景中去解决一些复杂的问题，完成复杂的任务。在交互场景，如人与人对话的过程中，多模态能力可以做到很多以往做不到的事。」

去年 12 月，在全球 AI 顶级学术会议 NeurIPS 上，Ilya Sutskever 发表演讲对于人工智能可用数据枯竭表示了担忧，让人们对 Scaling Laws 是否终结的大讨论愈演愈烈。

对于大模型的 Scaling Laws，商汤也给出了自己的判断。林达华表示，当前利用互联网数据进行预训练的方法，确实很快就会到达瓶颈。但真实世界的数据并不仅限于互联网：工作时的 OA 流程，汽车驾驶时传感器记录的状态，科学研究时获得的数据等等，这些内容会比文字形式存在于互联网上的数据多出四到五个数量级。

想要利用好真实世界中的数据，就必须构建起结合多模态的 AI 模型，这就是商汤坚定投身多模态新方向的原因。

换言之，大模型早已不局限于「做题」了。商汤走通了原生融合模态的技术路径之后，未来已经出现了前所未有的想象空间。甚至在图像 + 文字输入之后，我们还可以期待整个空间结构的输入、机器人与 LLM 推理能力的高度结合，还有很多领域值得去拓展。

传送门：

SenseNova-5o 正式接口及接入方案：

商汤算法模态大模型 laws 原生融合 scaling

上一篇：警告！RTX 5090/D缺货前所未有 3个月内别想抢到

下一篇：全球首个端到端抓取大模型发布，国产机器人攻克大瓶颈？

原生融合多模态上突破，让商汤大模型打破Scaling Laws撞墙魔咒

相关内容

热门资讯