您好,猎头彬彬,合作国内外70+企业,base北上广深武汉新加坡等
游戏,跨境贸易/电商/物流,云服务/基础软件,手机/芯片,私募量化,车企,社区分享,短视频,广告, ChatGPT
职位描述
为快手场景下大规模搜广推Sparse模型和AIGC类的生成式大模型训练提供业务领先的网络通讯解决方案
工作内容:
1、分布式通讯算子库的开发、优化;
2、大规模RPC框架的开发优化;
3、大规模集合通讯、RDMA通讯库的开发、优化。
任职要求
1、具备良好的团队协作能力,热爱钻研技术,善于分析、解决工程问题;
2、熟练掌握 C++ 开发,熟悉常用数据结构和基础算法,有两年及以上 C++ 工程经验更佳;
3、熟悉grpc、brpc等RPC框架的使用、原理,熟悉NCCL的使用;
4、加分项
1)有grpc、brpc的二次开发经验;
2)有nccl的二次开发经验尤佳;
3)熟悉GPU、NvLink等服务器硬件架构以及RDMA、IB等高性能网络架构者优先,有CUDA/RDMA相关开发经验者优先;
4)有AI训练或者推理系统研发部署经验、熟悉模型并行/数据并行/流水并行等分布式训练加速的基本原理者优先。
所发职位不全,手上职位非常多,欢迎咨询!
电话:18519274080
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.190.149.*