这是一个符合直觉的技术方向——只有让机器拥有对物理世界中多模态、多维度信息的感知,拥有了综合的理解,它们才能发展出类似于人类的分析、判断、正确决策能力。
在新范式下,你可以自然地与 AI 进行交流:发一段语音、添加一张图片、输入一些文本,甚至直接录短视频都行;同样的,输出也是自然的多模态形式。
商汤原生融合的多模态模型,打破了一直以来大语言模型、多模态大模型分立的行业局面,真正意义上迈向了模型一统。
对行业来说,大模型进入了多模态时代。随着走向通用和一体化,并在视觉、语音、数学推理等方面实现了前所未有的能力,一线大模型的技术门槛将大幅拉高。
抢先实测
「原生融合多模态」优势尽显
得益于在计算机视觉领域超过十年深耕和丰富经验,进入多模态时代之后,商汤的独有优势正在逐渐显现。
日前,商汤还对外发布了「日日新」融合大模型交互版(SenseNova-5o),它基于「日日新」融合大模型的能力,提供实时音视频对话服务,我们也立刻下载进行了测试。
为了测试它的反应和理解能力,我们举着手机在编辑部开启「夺命连环 call」。
视频链接:
简单测试下来,我们发现它的反应速度很快,与真人对话无异,并且可以随时打断和接话。而且,SenseNova-5o 还拥有令人满意的记忆力,可以长达 5 分钟,因此它能在多轮对话中持续不断理解使用者需求,并且准确记住几分钟之前,曾经听到、看到的内容。
这意味着多模态的 AI 已经可以拓展出一些新的应用场景,比如帮助孩子解读题目,给出清晰的解读思路。
视频链接:
充分支持实现音频、图像、视频的任意组合的多模态输入,以及自然流畅的语音内容输出,商汤走出了迈向更自然人机交互的新一步。
体验了交互能力之后,我们还在商汤「商量」网页版中,测试了全国首个原生融合多模态大模型——商汤「日日新」融合大模型更加全面的表现。
搞笑搭子
最近一大波外国人疯狂涌入小红书,为了拉近与中国网友的关系,他们主动交猫税、开班教英语、手把手辅导作业……
更搞笑的是,评论区还被龙妈和唐僧的同框照刷了屏。
我们把该图丢给商量,它不仅认出两个影视人物,还读懂了这张图背后表达的跨文化传播的幽默感。
再比如这张恶搞电影《华尔街之狼》的梗图。
AI 先分别描述了图片上下两部分的场景,然后揣摩出其中的「深意」——只要将 AI 元素融入日常物品中,就能提升其价值——一语中的。
当被问到「这个场景来自哪部电影?」时,商汤「日日新」一口答出《华尔街之狼》,还简单介绍了其基本信息。
旅游搭子
它还是逛博物馆的好「搭子」。
只需随手一拍,它就能把文物的「前世今生」捋一遍。
就比如这顶明孝端皇后的「九龙九凤冠」,其精美程度让人叹为观止。仅用一张图片,商量就能扒出它的尺寸、设计以及制作工艺等。
学习搭子
测试多模态大模型的逻辑推理能力,自然少不了数学题。今年深圳南山区数学题难倒一片小学生,我们从中选取一道来考考商汤「日日新」。
它对着题目就是一顿分析,在给出正确答案的同时,还列出了解题思路。
对于小红书上中外网友探讨的数学作业,商汤「日日新」也能分析得头头是道。
此外,它还能进行图表分析。
从概念理解,到折线图中关键要素提取,再到信息分析,AI 的「大脑」在高速运转,几个步骤合一迅速完成。
更低成本
已商业落地
目前,商汤「日日新」融合大模型已向客户开放了端到端 API 调用,同时融合大模型交互版(SenseNova-5o)也已经面向视觉交互场景开放商用(限时免费!)。
其中,针对商用版本的 SenseNova-5o,商汤将提供两种交互模式的服务。
视频链接:
半双工模式:类似对讲机模式,双方交替发言,可以支持平均 560 毫秒响应音频与图像输入,与人类的对话交互的响应接近,同时支持 1200×800px 的图像解析,不超过 30 秒的音频输入,不超过 720p 的视频输入。
全双工模式:类似电话的通信模式,AI 可以实时理解用户意图并生成回应,实现流畅自然的语音 + 视频交互,实现了接近人类面对面交流的体验。
SenseNova-5o 基础架构
而且根据最新权威测评,商汤基于原生融合的多模态大模型 ——「日日新」融合大模型,在图文推理、语言等各方面都达到了业内最优水平。
在 SuperCLUE 最新的《中文大模型基准测评 2024 年度报告》中,商汤「日日新」和 DeepSeek V3 并列总榜国内第一。在权威综合评测权威平台 OpenCompass 的多模态评测中,商汤「日日新」也取得了第一名,成绩领先 GPT-4o、Claude 3.5 Sonnet 等。
这也让我们发现,采用了原生融合模态训练的多模态大模型的每一种单模态能力,都超越了只在单模态数据上训练的模型的性能 —— 它们在不同模态的数据学习中,涌现出在多模态信息上的深度推理能力,和跨模态的交互能力,显著超越了通过传统图文对齐方法的多模态模型。
在预训练阶段,商汤的工程师不仅使用了天然存在的海量图文交错数据,还通过逆渲染、基于混合语义的图像生成等方法合成了大量融合模态数据,使得模型基座对于模态之间的关系有更扎实的掌握,为更好地完成跨模态任务打下基础。
在后训练阶段,基于对广泛业务场景的认知,商汤构建了大量的跨模态任务,包括视频交互、多模态文档分析、城市场景理解、车载场景理解等。通过把这些任务融入到增强训练的过程,商汤的融合模态模型获得了强大的多模态理解分析能力,对大量业务场景能够形成有效响应。
而且商汤表示,和分别训练一个语言大模型、一个多模态模型相比,训练商汤「日日新」融合大模型的总体成本反而降低了 40%。
AI 扩展定律
还有几个数量级的空间
中国正在 AI 领域快速发展,有赶超美国的趋势。这是谷歌前 CEO 埃里克・施密特(Eric Schmidt)表示最近发表的看法,他给出的理由是:中国正在把 AI 技术快速应用于大规模生产。
国内庞大产业体系和需求,正在逐渐成为驱动 AI 发展的决定性力量。
深耕人工智能技术落地多年的商汤,在模型算法、算力、行业经验、工程落地能力等方面,都具备了绝对的优势。据了解,商汤「日日新」融合大模型,和融合大模型交互版(SenseNova-5o)已经落地在具身机器人、AI 眼镜、手机、教育等场景。
商汤科技联合创始人、人工智能基础设施及大模型首席科学家林达华表示:「多模态大模型应该与广泛的业务场景相结合,能够在真实场景中去解决一些复杂的问题,完成复杂的任务。在交互场景,如人与人对话的过程中,多模态能力可以做到很多以往做不到的事。」
去年 12 月,在全球 AI 顶级学术会议 NeurIPS 上,Ilya Sutskever 发表演讲对于人工智能可用数据枯竭表示了担忧,让人们对 Scaling Laws 是否终结的大讨论愈演愈烈。
对于大模型的 Scaling Laws,商汤也给出了自己的判断。林达华表示,当前利用互联网数据进行预训练的方法,确实很快就会到达瓶颈。但真实世界的数据并不仅限于互联网:工作时的 OA 流程,汽车驾驶时传感器记录的状态,科学研究时获得的数据等等,这些内容会比文字形式存在于互联网上的数据多出四到五个数量级。
想要利用好真实世界中的数据,就必须构建起结合多模态的 AI 模型,这就是商汤坚定投身多模态新方向的原因。
换言之,大模型早已不局限于「做题」了。商汤走通了原生融合模态的技术路径之后,未来已经出现了前所未有的想象空间。甚至在图像 + 文字输入之后,我们还可以期待整个空间结构的输入、机器人与 LLM 推理能力的高度结合,还有很多领域值得去拓展。
传送门:
SenseNova-5o 正式接口及接入方案: