部门简介
致力于提供大规模分布式深度学习并行计算通信框架,并与硬件,软件及系统团队紧密合作,为大众提供有效,好用,具性价比的算力,推动人工智能行业的发展。团队成员来自业内知名企业,具有丰富的大芯片系统集成经验。
工作职责
o 研究先进通信技术,包括Infiniband, RDMA,CCIX,CXL等
o 研究业界最新的分布式拓扑构建相关论文,结合自主研发实现高效网络结构
o 研究常见分布式框架 Distributed Tensorflow, Distributed Pytorch, Horovod等
o 分布式训练收敛性能及精度调优
o 参与人工智能芯片的互联架构设计,满足高效的分布式通信
职位基本要求
o 微电子,电子,计算机,数学等相关专业硕士及以上学历
o 有扎实的计算机基础,熟悉Linux开发环境,有C/C++/Golang/Python 编程能力
o 熟悉并行计算原理及常见计算模式的并行化
o 熟悉常用编译及管理工具GCC/GDB, Makefile, Git, Gerrit等
o 熟悉MPI,NCCL, RDMA优化者优先
o 有深度学习训练平台优化经验者优先,发表过相关高水平论文者优先
o 积极主动,有责任心;学习能力强,对问题有钻研精神;沟通顺畅,团队合作意识好
o 较强的快速学习能力,良好的团队合作能力和沟通能力
加分项:
o 有CUDA、OpenCL、并行计算、HPC相关经验
o 有集合通信算法经验,熟悉NCCL等
o 有RDMA编程相关经验
o 有Tensorflow/Pytorch/Horovod等相关经验
o 有系统或设备performance tunning的经验
o 熟悉GPU体系架构"
欢迎咨询!
电话:18519274080
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.189.211.*