Northwestern Polytechnical
University
Audio Speech & Language Processing Group
Digital Signal Processing
  • English
Home
您是第counter free hit unique web位访客

首页»新闻»正文

Wireless Communications Speech Processing Medical Applications

微软研究院首席研究员俞栋博士访问实验室

      2016年10月22日,微软研究院首席研究员俞栋博士和天津大学王龙标教授来访实验室。俞栋博士是微软语音团队的核心人员,也是语音识别、深度学习领域的国际著名专家,论文被他引10000余次,在国际学术界有很高的影响力。
      当日上午,在谢磊教授的陪同下,两位客人参观了陕西省语音与图像信息处理重点实验室音频语音和语言处理研究组。当日下午,俞栋博士在学院105报告厅给大家带来了题目为“Permutation Invariant Training of Deep Models for Speaker-Independent Multi-Talker Speech Separation(深度模型的置换不变性训练:与说话人无关的多说话人语音分离)”的学术报告,王龙标博士给大家带来题目为“Phase information for speech processing”的学术报告。本场报告会同学们获益良多,尤其是对于多说话人语音分离技术有了更深刻的认识,同时也体会到了相位信息在语音处理中的重要作用,对今后相关方向的学习和研究都有很大的启发性的作用。
      俞栋博士报告摘要: We propose a novel deep learning model, which supports permutation invariant training (PIT), for speaker independent multi-talker speech separation, commonly known as the cocktail-party problem. Different from most of the prior arts that treat speech separation as a multi-class regression problem and the deep clustering technique that considers it a segmentation (or clustering) problem, our model optimizes for the separation regression error, ignoring the order of mixing sources. This strategy cleverly solves the long-lasting label permutation problem that has prevented progress on deep learning based techniques for speech separation. Experiments on English and Danish corpuses confirms the effectiveness of PIT. We believe improvements built upon PIT can eventually solve the cocktail-party problem and enable real-world adoption of, e.g., automatic meeting transcription and multi-party human-computer interaction, where overlapping speech is commonly seen.
      俞栋博士简历:俞栋,1998年加入微软公司,现任微软研究院首席研究员。语音识别和深度学习方向的资深专家,他和邓力老师带领的团队,首次将深度学习技术应用于商用语音识别上,获得了巨大成功,是深度学习在工业级实际应用上的首次成功实践,从而激发了深度学习在语音、图像、文本、搜索和大数据上的成功应用。他出版了两本专著,发表了160多篇论文,论文他引超过10000次,H-Index 46。他是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。曾获2013年IEEE信号处理协会最佳论文奖。现担任IEEE语音语言处理专业委员会委员,曾担任IEEE/ACM音频、语音及语言处理汇刊、IEEE信号处理杂志等期刊的编委。
      王龙标教授简介:王龙标,现为天津大学计算机科学与技术学院教授、博士生导师,天津大学认知计算和应用天津市重点实验室副主任,国家青年千人计划特聘专家,天津市千人计划特聘专家。长期从事语音信息处理,声学信号处理等方面的研究,发表了超过80篇的期刊和国际会议论文,包含IEEE Trans. on Audio, Speech and Language Processing、Speech Communication、ICASSP等。王龙标于2008年在日本国立丰桥技术科学大学获得博士学位,并获得2007年度中国政府“国家优秀自费留学生奖学金”。回国前,先后在日本的国立静冈大学和国立长冈技术科学大学(获终身副教授)任语音信息处理实验室主任。

 

 

 

 

  • 校园风光