您好,猎头彬彬,合作国内外70+企业,base北上广深武汉新加坡等
游戏,跨境贸易/电商/物流,云服务/基础软件,手机/芯片,私募量化,车企,社区分享,短视频,广告, ChatGPT
职位描述
1.负责分布式机器学习大模型的训练加速,包括但不限于优化常见框架(如Megatron,DeepSpeed),数据读取、网络通信、计算算了等方面。
2.主导新一代机器学习大规模计算平台的架构设计和实现,以满足业务对高效算力的需求。
职位要求
1.熟悉数据并行、模型并行、分布式数据并行等训练模式,具备深
入的理论和实践经验
2.具备大规模机器学习平台的架构设计经验,熟悉分布式系统和网络架构。
3.精通常见深度学习框架,包括但不限于TensorFlow、PyTorch、Horovod等,能够快速实现并调试相关算法
4.对大规模预训练模型有较好的了解,了解常见预训练模型 (如GPT、BERT等)的训练方法和优化技巧。
所发职位不全,手上职位非常多,欢迎咨询!
电话:18519274080
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.189.211.*