您好,猎头彬彬,合作国内外70+企业,base北上广深武汉新加坡等
游戏,跨境贸易/电商/物流,云服务/基础软件,手机/芯片,私募量化,车企,社区分享,短视频,广告, ChatGPT
职位描述
1、 研发业界领先的分布式深度学习训练框架,提供面向大规模稀疏数据的解决方案,服务于快手内部所有推荐类业务场景,包括 短视频、海外、广告、电商、直播等;
2、 多样的业务形态和庞大的业务规模 使得 框架的开发与优化 极富挑战性:万量级 GPU 卡,千亿量级样本,万亿量级参数,PB 量级训练数据;
3、工作内容包括但不限于:
(1)参数服务器;
(2)多机多卡分布式;
(3)网络通信优化(以太网,RDMA);
(4)GPU 优化(Kernel 优化,编译优化 等);
(5)框架原生化(Tensorflow,PyTorch)。
任职要求
1、具备良好的团队协作能力,热爱钻研技术,善于分析、解决工程问题;
2、熟练掌握 C++ 开发,熟悉常用数据结构和基础算法,有两年及以上 C++ 工程经验更佳;
3、熟悉 Tensorflow 或 PyTorch 的使用,有二次开发能力 或 开源社区贡献经历 更佳;
4、了解分布式训练相关概念,如 参数服务器、集合通信 等,有 训练框架、HPC 等领域从业背景更佳;
5、加分项:
(1) 熟悉 CPU 体系结构,有 高性能系统 开发、优化经验;
(2)熟悉 GPU 体系结构,有 CUDA 开发、优化经验;
(3)熟悉 异构计算,有 ASIC 相关经验;
(4)熟悉 深度学习编译优化,有 MLIR / XLA / TVM 开发、优化经验;
(5)熟悉 通信优化,有 RDMA 开发、优化经验;
(6)有 ACM、Kaggle 等比赛获奖经历,或顶会论文发表经历。
所发职位不全,手上职位非常多,欢迎咨询!
电话:18519274080
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.190.149.*