您好,猎头彬彬,合作国内外70+企业,基地北上广深武汉新加坡等
游戏,跨境贸易/电商/物流,云服务/基础软件,手机/芯片,私募量化,车企,社区分享,短视频,广告, ChatGPT
岗位职责 :
1.负责大模型强化学习方向技术研发,包括数据探索与增强、奖励模型优化、强化策略迭代及效果评估等,持续提升算法的效率与效果;
2.强化学习技术前瞻探索,包括但不限于离线强化学习、环境模型学习、约束强化学习等方向;
3.基于强化学习技术,利用人类反馈信号提升语言模型能力
岗位基本需求:
1.五年以上相关工作经验,具备强化学习的业务实践并取得较好的业务价值;
2.扎实的算法基础,熟悉强化学习、自然语言处理和机器学习技术,对技术开发及应用有热情;
3.具备强化学习算法优化经验,熟悉DQN、TRPO、PPO、SAC、BCQ、MCQ、SUNRISE等强化学习算法,能够基于实际业务问题优化算法;
4.熟悉Python、Java等至少一种编程语言,具有良好的编程能力和扎实的数学理论基础;
5.关注行业前沿进展,对技术开发及应用有热情,有自己的想法并乐于挑战自我;
6.良好的沟通能力和跨团队协作能力,能够梳理繁杂的工作并建立有效机制,推动上下游配合完成目标; 具备以下者优先
1、有大语言模型算法优化和大规模分布式强化学习框架优化经验优先
2、有强化学习相关方向的团队或项目管理经验者优先
岗位亮点
1.良好的技术氛围,与志同道合的技术牛人一起工作;
2.有机会投身大语言模型研发,为AGI目标而躬身奋斗。
所发职位不全,手上职位非常多,欢迎咨询!
电话:18519274080
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.190.149.*