您好,猎头彬彬,合作国内外70+企业,base北上广深武汉新加坡等
游戏,跨境贸易/电商/物流,云服务/基础软件,手机/芯片,私募量化,车企,社区分享,短视频,广告, ChatGPT
平台调度方向:
岗位职责:
1.负责机器学习平台后台开发,支持大规模GPT/GameAI/NLP/CV等GPU场景,优化资源调度效率;
2.负责任务的调度优化,实现高优任务、容灾任务、弹性任务的资源调度,保证大规模训练系统的稳定性。
岗位要求:
1.熟悉掌握JAVA/GO/Python中一种或多种编程语言,熟悉常用算法和数据结构,具有扎实的编程功底;
2.熟悉Kubernetes、Docker等云原生技术工具,了解CRD的工作原理和实现,熟悉MPI-Operator等训练调度框架;
3.熟悉OpenMP、MPI、RDMA等高性能计算相关技术,有高并发、高可用分布式系统开发经验,有高性能存储系统优化经验;
4.具有大规模GPU集群调度建设、优化和故障排查经验;能够从计算资源、RDMA高速网络资源、存储等方面进行系统优化,充分发挥大规模分布式集群的计算能力;
5.有强烈的自主学习能力、执行力,具备良好的沟通能力和优秀的团队协作能力;
6.加分项:熟悉主流深度学习框架TensorFlow/Pytorch/MXNet,熟悉Megatron/DeepSpeed等训练加速框架的优先。
MLops方向:
岗位职责:
1.负责机器学习平台的设计与开发,包括:性能优化,持续提升训练性能,包括多机多卡大规模训练优化,数据交换优化和参数调优等;
2.易用性优化,持续提升平台易用性,降低机器学习应用门槛;
3.积极追踪业内AI动态,优化内部技术方案,改进产品性能,不断推进AI架构升级。
岗位要求:
1.熟练掌握TensorFlow、Pytorch等主流深度学习框架中的一种或多种,并有具体的项目应用经验(包括但不限于模型训练优化、模型服务优化等经验);
2.熟练使用Java/Go/Python至少一种编程语言,良好的软件设计和开发能力;
3.熟悉Spring Boot、VUE、MySQL等组件框架;
4.良好的沟通能力、解决问题能力。
所发职位不全,手上职位非常多,欢迎咨询!
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.189.242.*