岗位职责:
对业务场景中音频的声学场景,语种,说话人类别进行聚类和检测,提高系统在海量语音下对音频附属信息(meta-data)的分析和数据挖掘性能,增强对各平台音频信息捕获,挖掘和归类;
具备以下一项或几项能力(包括但不限于):
- 说话人识别,语种识别,提升已有系统在复杂场景(噪声,远场,混响)中的鲁棒性;
- 音频分类,音频事件检测,对音视频文件中的有效内容进行标签提取,特别是语音文字之外的附属信息提取;
- 音频指纹,海量音频内容搜索,同源相似度识别能力
岗位要求:
- 硕士或及以上学历,计算机,信号处理、模式识别,自动化相关专业;
- 了解声纹识别或音频事件检测领域的技术发展情况,掌握主流算法,有过开发实际系统或其中某一模块(前端、特征、建模、匹配)的经历;
- 扎实的机器学习和模式分类功底;
- 在DECASE,NIST SRE LRE等评测比赛中有获奖者优先;
- 熟练掌握 C/C++或Python, 编程能力强;熟悉 Linux 环境开发;
- 对Kaldi、Pytorch、TensorFlow(至少其一)熟练使用;
- 良好的沟通能力与团队协作精神;
- 在ICASSP, INTERSPEECH, ASRU, CSL, Speech Communication等知名会议和期刊发表过论文者优先;
期望职级:
8-11级;
请发简历至springhuang@tencent.com
--
修改:qqhuangshen FROM 111.206.145.*
FROM 111.206.145.*