Northwestern Polytechnical
University
Audio Speech & Language Processing Group
Digital Signal Processing
  • English
Home
您是第counter free hit unique web位访客

首页»新闻»正文

Wireless Communications Speech Processing Medical Applications

实验室可视语音合成技术助力2017数博会虚拟主持人

      2017中国大数据产业博览会(简称数博会)于5月25日至28日在贵州省贵阳市召开。实验室与小i机器人合作的虚拟主持人精彩亮相数博会开馆仪式,虚拟主持人与现场主持人开展了对话互动,受到在场上千嘉宾和观众的高度关注和浓厚兴趣。作为自然交互的媒介,小i虚拟主持人集语音识别、语义理解、可视语音合成技术、语音合成技术、对话管理等技术为一体,可以与用户进行自由对话,回答用户的各种问题。此外,虚拟主持人也出现在小i机器人数博会站台的核心位置上。几天展会下来,众多观众饶有兴趣的与其互动。贵州电视台、贵阳电视台等新闻媒体也专门对小i虚拟主持人进行了专门的报道。
      据悉,虚拟主持人关键技术之一是可视语音合成技术(visual speech synthesis),即将文本或语音转化成相应的逼真的面部/头部/肢体动作(例如口型、表情、眼动、头动和肢体动作等)。西北工业大学音频语音与语言处理研究组在可视语音合成技术方面具有雄厚的技术积累。之前,实验室曾与微软亚洲研究院在基于深度学习的逼真面部动画技术方面开展了深入合作,在包括ICASSP在内的顶级会议和重要期刊上发表多篇论文。近期,受著名出版商Springer之邀,实验室谢磊教授和微软合作撰写了《人类动作》一书中《可视语音合成》的相关章节,对目前主流的技术进行了全景式综述。
      由于人与人之间的交互是多模态的过程,其中听觉和视觉之间相辅相成,因此可视语音合成技术可以提供更加自然的、沉浸式的交互体验,将会在人机交互、虚拟助手、游戏与娱乐等方面具有广泛的应用。
      此外据悉,贵阳数博会作为全球首个大数据主题博览会,已连续成功举办了两届。数博会秉承“国际化、专业化、高端化、可持续化、产业化”的核心理念,旨在为全球范围大数据领域专业人士和企业提供行业前沿资讯、热点动态以及合作交流平台,促进大数据行业的技术发展和应用。数博会已成为全球大数据领域的盛会。此次数博会为实验室的可视语音合成技术提供了良好的展示舞台。
      实验室近期在可视语音合成相关技术方面发表的代表性著作/论文:
      Lei Xie, Lijuan Wang and Shan Yang, "Visual Speech Animation", Book Chapter in Handbook of Human Motion, Springer, 2017
      阳珊, 樊博, 谢磊, 王丽娟, 宋謌平. 基于BLSTM-RNN的语音驱动逼真面部动画合成[J]. 清华大学学报 (自然科学版), 2017, 57(3): 250-256.
      Bo Fan, Lei Xie, Shan Yang, Lijuan Wang and Frank K. Soong, "A Deep Bidirectional LSTM Approach for Video-Realistic Talking Head", Multimedia Tools and Applications, Springer, 2015
      Bo Fan, Lijuan Wang, Frank K. Soong and Lei Xie, Photo-real Talking Head with Deep Bidirectional LSTM, ICASSP2015, 19-24 April 2015, Brisbane, Australia
      Chuang Ding, Pengcheng Zhu, Lei Xie, Dongmei Jiang and Zhonghua Fu, "Speech-Driven Head Motion Synthesis Using Neural Networks," Interspeech, Singapore, 14-18, September 2014
      Chuang Ding, Lei Xie, Pengcheng Zhu, " "Head Motion Synthesis From Speech Using Deep Neural Networks", Multimedia Tools and Applications, Springer, accepted, 2014
      Lei Xie, Naicai Sun and Bo Fan, "A Statistical Parametric Approach to Video-Realistic Text-driven Talking Avatar", Multimedia Tools and Applications, Springer, August 2013.
      李冰锋,谢磊,朱鹏程,樊博,语音驱动虚拟说话人的自然头动生成,清华大学学报,2013年第53卷第6期
      李冰锋,谢磊,周祥增,付中华,张艳宁,实时语音驱动的虚拟说话人,清华大学学报,2011年第51卷第9期

 

 

 

 

  • 校园风光