您好,猎头彬彬,合作国内外70+企业,基地北上广深武汉新加坡等
游戏,跨境贸易/电商/物流,云服务/基础软件,手机/芯片,私募量化,车企,社区分享,短视频,广告, ChatGPT
工作职责:
1. 负责大规模分布式与并行软件框架、资源管理与弹性调度系统、分布式系统监控与分析系统的架构设计、关键技术研究及核心代码开发工作
2. 负责机器学习集群运维开发,优化平台软件栈,提升用户体验
3. 设计维护私有Kubernetes计算集群,并设计开发公有私有云混合任务调度架构
4. 参与分布式关键技术领域,开源软件的分析、研究、优化及改进工作
5. 协助其他团队,在GPU集群上开发及优化计算应用
任职要求:
1. 计算机及相关专业,本科及以上学历,五年以上相关工作经验,博士不限工作年限
2. 熟悉&精通C/C++/Go/Python等编程语言的一门或多门,熟悉常用算法、数据结构,熟悉Linux系统及其下的开发经验
3. 熟悉机器学习框架及分布式集群资源管理与调度相关的云计算技术的理念、架构、设计、实现,有如PyTorch,Tensorflow,Kubernetes、Mesos、Yarn、KubeFlow、Docker、ETCD、Celery等相关集群实践经验者优先
4. 熟悉异构并行计算,对 GPU / OpenCL / CUDA 的实践应用有深刻理解者优先
5. 具备丰富的分布式系统运维、监控和性能分析经验
6. 熟悉操作系统底层知识,内核及文件系统,SPDK、RDMA等底层技术
7. 有本领域架构设计或开源社区代码贡献或相关产品研发经验者优先"
所发职位不全,手上职位非常多,欢迎咨询!
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.190.149.*