独家|商汤卢乐炜:UIAgent应用数量计划扩展到1000余个
“致力于构建多模态理解与生成的统一架构。”
“当前技术发展的一个显著趋势是多模态技术的崛起。”3月13日,在中国信通院人工智能研究所举办的多模态智能体技术沙龙暨技术规范研讨会上,商汤(00020.HK)研究院研发总监卢乐炜表示,多模态大模型最初源于语言大模型,但其发展却与语言大模型保持着一种依附而又相对独立的关系。随着需求的不断变化,语言模型逐渐需要向多模态融合这一更为核心的需求迈进。
卢乐炜说,当前图文成对数据已不足以应对新一代多模态大模型的需求。互联网原生图文成对数据告急,仅剩约为45%的数据尚未被利用,不足以作为新一代原生多模态预训练数据来源。同时,不同领域数据分布不均衡,由于数据量有限,细分领域数据过少,无法仿照大语言模型(LLM)调整训练数据分布。
卢乐炜介绍,多模态融合技术主要有四大动机。一是综合性能提升,通过使用一个统一的大模型,实现端到端的同时接受多个模态的输入并处理多个任务。能够使模型的表现更接近人的感知、认知和行为。赋予模型更广泛的应用空间,使其更适用于不同领域和任务。
二是信息共享与整合。不同模态的输入被映射到同一个状态空间,使得它们之间的信息能够共享。这种共享机制有助于模型从整体上理解数据,促使模型更好地协同处理多源信息,提高了系统的整体性能。
三是数据整合与拓展。通过将所有模态和任务的数据整合到一起,可以构造更庞大、更多样的数据集供模型学习。这种综合学习的方式使得模型能够更全面地学习不同数据集之间的共性和差异,提高了泛化能力。
四是参数量的扩展。通过增加训练数据,使得模型能够轻松地扩大参数量,而不会遇到过拟合等问题。这为建立一个强大且参数丰富的模型提供了可能性,增强了模型的鲁棒性和适应性。
商汤科技在2025全球开发者先锋大会上宣布其AI生产力工具——商汤小浣熊家族全面升级,进一步强化多模态能力,推动AI应用加速落地,向AIAgent演进。
卢乐炜在会上展示了UIAgent的GUI理解、Agent能力和未来规划三个方面的功能和特点。GUI理解部分强调了图标元素定位、识别和理解能力;Agent能力部分则突出了跨区域关联性理解、结构化内容提取和页面转换关系理解等核心功能。
目前,商汤主要关注的应用场景包括手机和汽车行业。在手机领域,公司已经与一些头部手机厂商进行了合作。而在汽车行业,公司则希望打通与车企的合作,实现如导航、旅游购物规划等需求。
谈及未来的规划,卢乐炜介绍,UI Agent的场景范围将扩展到web、PC等更多平台。应用数量计划扩展到1000多个,以满足不同用户的需求。
对于未来技术的趋势,卢乐炜谈及大模型将趋向于成为一个更统一的结构,去除各个专家编码器,以实现更深度的融合。这将极大地降低部署和推理成本,并提高在低算力设备上的部署效率。当前主要是语言理解任务,未来可能会串联生成类任务。
“我们也在探索多模态理解与生成的应用与学习,致力于构建多模态理解与生成的统一架构,为未来开拓更多应用场景。”卢乐炜说。