工作职责:
* 参与公司内机器学习平台的研发和维护, 服务于全公司各产品
* 解决资源管理调度、模型训练、模型推理、模型管理、工作流编排、数据集存储管理等机器学习系统问题
* 设计构建高可用高性能的机器学习系统和平台, 包括: 基于 GPU 的异构高性能系统的设计(涉及到计算、存储、网络等资源的最优化配置), 提供模型生产与部署的一站式服务
任职资格:
* Linux开发环境下良好的系统编程、数据结构、算法基础、系统设计能力, 熟悉操作系统和计算机体系结构;
* 熟练掌握Linux环境下的C/C++/Go/Python/Java等1至2种以上语言, 了解MySQL/Redis/MQ等组件原理;
* 熟悉至少一种主流的编排调度系统(Kubernetes/ YARN/Mesos),有相关开发经验;
* 有能力撰写技术文档, 有良好的文档习惯。
加分项
* 熟悉 django、flask等相关技术,有其后端开发经验;
* 熟悉 Kubernetes 架构,有云原生系统开发经验
* 对机器学习系统有理解、认识或经验者优先, 熟悉GPU应用和研发者优先;
* 有过异地多活,高可用架构,跨机房数据传输相关工作经验者优先
* 有对规模化平台进行资源优化/成本优化经验者优先
* 有实际的大规模分布式系统、云计算平台或私有云产品架构相关工作经历优先.
手机号同微信:18519274080
邮箱:herocanjob@163.com
--
FROM 122.189.211.*