您好,猎头彬彬,合作国内外70+企业,base北上广深武汉新加坡等
游戏,跨境贸易/电商/物流,云服务/基础软件,手机/芯片,私募量化,车企,社区分享,短视频,广告, ChatGPT
工作职责:
1.优化AIGC/NLP/多模态大模型的分布式训练稳定性和效率, 支持千卡并行的大模型训练
岗位要求
2.熟悉deepspeed, megatron等大模型分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略
3.有大规模分布式训练性能优化的相关经验,支持过多级多卡的分布式并行任务训练和性能调优
4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化,如transformer,前后处理等。
所发职位不全,手上职位非常多,欢迎咨询!
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.189.242.*