Northwestern Polytechnical
University
Audio Speech & Language Processing Group
Digital Signal Processing
  • English
Home
您是第counter free hit unique web位访客

首页»新闻»正文

Wireless Communications Speech Processing Medical Applications

腾讯语音实验室负责人黄申博士访问实验室

      2016年11月21日,腾讯语音实验室负责人黄申博士来访实验室。在实验室谢磊老师和付中华老师的陪同下,黄申博士参观了陕西省语音与图像信息处理重点实验室音频语音和语言处理研究组,并同实验室相关师生进行了广泛深入交流。
      上午10点,黄申博士在学院105会议室给大家带来了题目为“语音端到端的处理、传输与识别”的学术报告,报告主要介绍了远场语音拾音设备的评估和设计、语音端到端处理、语音传输和远场语音识别等内容。报告结束后,在座同学们提出了自己感兴趣的问题,黄申博士做出了详细的回答,并和同学们愉快地进行了交流,报告使同学们了解了一个语音拾音与识别系统的整体架构与设计思路。
      报告摘要:In future speech communication and recognition, the biggest challenge to be solved is how to process and recognize speech in noisy, far-field and duplex scenario with the advent of new devices, e.g. spatial capture, eigen mic. The technology in ASR server using deep learning has got tremendous break through and reaches an applicable level for close talk speech in clean scenario, but techniques for adverse end to end processing still face challenges. This casual talk will briefly introduce what we do in speech end to end process chain and how to train spatial, noisy recognizer with new architecture of capture. In particular, how to design mixing algorithm of deep beam forming for one talker, and audio scene focusing algorithms for multiple, simultaneous talkers with creepy noise.
      报告人简介:黄申博士毕业于中科院自动化所,2011-13年在杜比实验室任高级研发工程师,13-14年任研究员,14-15年任主管研究员,负责 Dolby Voice 中语音通信前端,网络传输和远场语音识别,敏感信息检索的研究。现任腾讯语音实验室负责人。曾长期从事语音处理,机器学习,语音通信的研究.。在相关国际会议和期刊上发表论文20余篇,拥有20多项美国专利。其他兴趣包括:1)远场语音识别前端,包括端点检测,降噪,回声与混响消除,麦克风阵列定位和集束算法;2)音频场景后端算法,包括房间声学,多扬声器渲染算法;3)复杂场景下的模糊语音关键词检索;4)语音质量,语言学习者发音,流利,韵律评估和诊断算法。

 

 

 

 

  • 校园风光