您好,猎头彬彬,合作国内外70+企业,base北上广深武汉新加坡等
游戏,跨境贸易/电商/物流,云服务/基础软件,手机/芯片,私募量化,车企,社区分享,短视频,广告, ChatGPT
岗位职责:
1.负责大模型分布式训练框架的开发和优化,构建一流和稳定的分布式能力。包括但不限于功能特性开发、通信和计算性能优化等
2.参与大模型训练各个环节的工程开发,处理训练过程中遇到的技术挑战。
3.跟进和引入业界先进的分布式训练相关的技术,做前沿的技术创新。
岗位要求:
1,熟悉常见的深度学习训练框架,如PyTorch、MegatronDeepspeed等,并具有相关分布式3D并行训练开发和调试经验。
2.熟悉NVIDIA CUDA的开发流程和kernel优化,对常用GPULibrary有使用和开发经验,如CUDNN/cuBlas/NCCL/Cutlass等
3.有大模型训练的项目开发经验,熟悉常见的Transformer架构实现。
4.具有良好的团队合作精神,能够跨团队紧密合作,共同推动项目的成功
所发职位不全,手上职位非常多,欢迎咨询!
微信号:Brylin1991
邮箱: herocanjob@163.com
--
修改:bewesa FROM 122.189.243.*
FROM 122.189.243.*