中国移动研发新突破:2D数字人驱动系统,7情绪表达助力5G通话与AI客服

时间:2025-03-01 14:00:25
编辑:

12月9日消息,中国移动携手南京大学团队,在科技领域取得重大进展。双方联合宣布成功研发出一款高保真 2D 数字人说话驱动系统,为未来的智能通信与交互方式开辟了新的可能性。

中国移动研发新突破:2D数字人驱动系统,7情绪表达助力5G通话与AI客服

作为拥有世界规模第一用户数的通信运营商,中国移动每年的客户服务运营成本巨大。现已广泛普及的智能语音客服虽能完成一定的业务自动应答任务,但依然不及人工客服面对面,一对一的星级服务体验。

针对实际业务存在的痛点,中国移动九天视觉团队联合南京大学邰颖团队,研发高保真 2D 数字人说话驱动系统,旨在为用户提供表情自然、唇音同步和头部姿态和谐的数字人播报对话服务,可应用于智能客服、教育培训、广告营销等场景。

据中国移动官方介绍,2D 数字人说话驱动系统实现根据给定目标人物的照片或视频和任意一段音频,生成与音频同步的目标人物说话视频流。要求生成视频里的人物逼真度高,表情姿态自然,同时需要具有较高的实时性,能做到与语言大模型、音频合成能力有机整合,构建起人物数字替身。

中国移动九天视觉团队联合南京大学研发的高保真 2D 数字人说话驱动系统,在以下三方面开展了技术攻坚和方案创新:

第一,性能实时:相比以往数字人方法,在实时播报的口型生成技术上达到了学术界领先水平,支持中英文数字人口型驱动,在保持效果的情況下达到实时性能 30ms / 帧。

第二,效果领先:研发二阶段学习框架,将数字人说话驱动拆解成:从音频到口型系数和从口型系数到生成人像两部分,降低学习难度,实现更好的生成效果。

第三,情绪控制:引入情绪引导学习模块,支持正常、微笑、惊讶、愤怒、恐惧、悲伤等 7 种主流情绪控制生成能力,赋予生成的播报人人文情感表达能力。

从中国移动官方获悉,数字人生成技术上实现了端到端的二阶段 30 FPS 实时生成性能,并支持 512*512 人脸区域生成,同时具备高兴、悲伤等 7 种主流情绪控制生成能力。

在评测集 VoxCeleb 指标方面,该技术的口型准确性 LMD(LandMark Distance)达到 4.3,生成自然度 FID 达到 11.1。

中国移动官方表示,该研发成果应用前景广阔,有效降低了创作门槛,提升了生成人物的视觉质量,已为 5G 新通话、和留言小秘书品牌业务的拓展赋能升级。

《中国移动》定位手机号位置方法

《中国移动》有多种定位手机号位置的方法。其一,通过“和地图”软件,安装登录后,在工具箱找到“你在哪里”功能,经对方同意可定位。其二,家庭宝业务,申请亲属关系且对方同意后可查位置。但定位需合法合规,尊重他人隐私。

《中国移动》定位手机号位置方法

定位手机号位置方法

方法1:使用"定位短信"

编辑短信,内容为:"DW"。

发送到号码10086。

收到回复短信,其中包含手机当前位置信息。

方法2:拨打定位电话

拨打12580服务热线。

根据语音提示输入手机号码。

获取手机当前位置信息。

方法3:通过移动营业厅

前往中国移动营业厅。

提供手机号码和相关证件。

工作人员将协助查询手机位置信息。

注意:

定位服务需要手机信号充足,否则无法准确获取位置。

定位信息仅供参考,可能存在一定偏差。

定位服务可能会收取费用,请咨询运营商。

使用他人手机定位需征得对方同意,否则涉嫌侵犯隐私。

相关攻略
相关推荐