您好,猎头彬彬,合作国内外70+企业,base北上广深武汉新加坡等
游戏,跨境贸易/电商/物流,云服务/基础软件,手机/芯片,私募量化,车企,社区分享,短视频,广告, ChatGPT
职位描述:
1. 搭建强化学习模型,并不断完善和优化算法,应用在LLM alignment,多智能体博弈等场景中;
2. 研究方向包括但不限于:RM相关优化、强化学习算法优化与调优;
3. 跟踪学术界最新的研究进展和业界最新应用。
职位要求:
1. 熟悉常用的强化学习算法(DQN,DDPG,PPO,A3C 等);
2. 在强化学习领域,有解决实际问题的调优经验,NLP领域优先,有大模型的RLHF/RLAIF等经验优先;
3. 熟练掌握Pytorch 等深度学习框架;具有deepspeed等LLM模型训练框架使用经验;
4. 具备优秀的分析和解决问题、沟通协作能力。
所发职位不全,手上职位非常多,欢迎咨询!
电话:18519274080
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.189.211.*