岗位职责:
1、负责云原生AI平台的研发工作, 包括分布式训练, 训练任务管理等;
2、解决规模增长带来的技术和业务问题,负责AI 训练的高可用性、稳定性以及利用率优化(CPU, GPU);
3、提高现有训练框架的大模型训练能力,支持超大规模模型训练和部署;
4、针对现有的建模流程进行优化, 提升使用效率和资源效率。
任职资格:
1、扎实的编程基础、良好的编程风格与工作习惯,熟练掌握go,java,python等编程语言的一种或多种;
2、对AI 训练框架,云原生资源调度感兴趣,具备大规模分布式系统的研发和优化能力;
3、深入了解Kubernetes/Kubeflow/Horovod其中的一项或多项;
4、对AI训练框架Tensorflow/Pytorch有一定的理解, 有ev大模型训练经验更佳;
5、有大型分布式系统管理的实践经验,对业界计算基础设施动向有较大的热情;
6、关注云原生应用的发展,熟悉其周边生态,并且有一定自己的理解;
欢迎咨询!
电话:18519274080
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.189.211.*