您好,猎头彬彬,合作国内外70+企业,base北上广深武汉新加坡等
游戏,跨境贸易/电商/物流,云服务/基础软件,手机/芯片,私募量化,车企,社区分享,短视频,广告, ChatGPT
岗位描述
为大规模分布式训练/推理、大规模三维重建等多种重计算任务设计和实现分布式计算方案,并对各类任务进行定制化优化。具体工作包括目不限于,
1.搭建分布式高性能计算框架,研究和实验新的分布式计算技术,基于Pytorch DDP/Megatron/Ray/MPI等主流分布式准架进行研发和优化。
2.分析和优化训练/三维重建中的单机计算效率,通过GPU算子优化、异步并发、I0优化等方式减少计算耗时3.设计和优化网络架构,对各种任务partition和并行方式进行性能调优
4.领导和指导团队中的研究人员和工程师,共同解决大规模分布式计算中的挑战
岗位要求:
1.本科或以上学历,计算机相关专业背景,3年以上的高性能/分布式计算经验。
2熟悉tensorflow/pytorch、Megatron等分布式圳练工具或其他分布式高能应用,理解掌握DATA/ Model/pipeline Parallelism等大原理,熟条pytorch等内部实现和优化技巧者优先;能跟进JAX、Colossal-AI、Tachi等新框架者优先;了解colmap三维重建框架、unreal染引警者优先
3,热爱编程,对计算机体系结地有深入理解,熟悉性能分析和优化,熟悉计算/访存/通信密集等不同高性能应用的优化手段,熟悉cuda开发者优先;熟悉底层通信框架(如ncd)者优先
4.熟悉开源框架生态,能跟进LLM/多模态大模型最新趋势者优先
5.具备良好的团队合作精神,具备良好的沟通能力和团队领导能力。
6.有论文发表或者技术分享经验者优先考虑。"
所发职位不全,手上职位非常多,欢迎咨询!
电话:18519274080
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.190.149.*