您好,猎头彬彬,合作国内外70+企业,base北上广深武汉新加坡等
游戏,跨境贸易/电商/物流,云服务/基础软件,手机/芯片,私募量化,车企,社区分享,短视频,广告, ChatGPT
职位描述:
1、研发业界领先的分布式深度学习训练框架,提供:
1)面向大规模稀疏数据的解决方案,服务于快手内部所有推荐类业务场景,包括 短视频、海外、广告、电商、直播 等;
2)面向稠密数据的解决方案,服务于快手内部所有 CV/NLP/Speech 业务场景;
2、多样的业务形态 和 庞大的业务规模 使得 框架的开发与优化 极富挑战性:万量级 GPU 卡,千亿量级样本,万亿量级参数,PB 量级训练数据;
3、工作内容包括但不限于
(1)IO 预处理优化;
(2)参数服务器;
(3)多机多卡分布式;
(4)网络通信优化(以太网,RDMA);
(5)GPU 优化(Kernel 优化,编译优化,显存优化 等);
(6)框架原生化(Tensorflow,PyTorch)。 任职要求
1、具备良好的团队协作能力,热爱钻研技术,善于分析、解决工程问题;
2、熟练掌握 C++ 开发,熟悉常用数据结构和基础算法,有两年及以上 C++ 工程经验更佳;
3、熟悉Tensorflow 或 PyTorch 的使用,有二次开发能力或开源社区贡献经历更佳;
4、有训练框架或推理框架实战经验;
5、加分项
(1)熟悉计算机体系结构,有高性能系统开发、优化经验;
(2)熟悉 GPU硬件结构,有 CUDA 开发、优化经验;
(3)熟悉 深度学习编译优化,有 MLIR / XLA /MLIR 开发、优化经验,熟悉pass编写或代码生成原理和实践;或有传统编译器开发经验,熟悉LLVM原理和使用;
(4)有 ACM、Kaggle 等比赛获奖经历,或 顶会论文发表经历。
所发职位不全,手上职位非常多,欢迎咨询!
电话:18519274080
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.190.149.*