职位描述:
支持大规模的人工智能(深度学习)平台,基于领先的 200Gbps 的 Infiniband RDMA 网络
和最新的 GPU。结合硬件,操作系统对平台进行深度分析和优化。
#异构集群 #自研存储系统 # 榨干 GPU 算力 #算子优化
1.负责设计、维护、保障和调优大规模高性能计算机集群;
2.负责对新技术和解决方案进行调研评估,推动和提升效率。
任职要求:
1.操作系统领域专家,有 Linux 方面的开发、运维或支持经验;
2.精通 Linux 内核,Linux 性能分析工具(systemtap,perf ebpf);
3.具有大规模计算集群、分布式存储的基础架构、基础服务的设计、维护、调优经验;
4.熟悉高性能计算及网络(RDMA,Infiniband)者优先。
运维岗位具体要求:
1、年龄不宜超过 36 岁,工作年限 3 年以上,学校以 985 本科为主,如果工程项目经验非
常突出,可酌情考虑;
2、技术重点:
1)需要精通 Linux 内核,Linux 性能分析工具(systemtap,perf ebpf)
2)具有大规模计算集群基础架构、基础服务的设计、维护、调优经验
3)具备运维自动化的相关经验,熟练掌握 phython 或 Golang
4)加分项:高性能计算(RDMA,Infiniband) 3、不考虑以下几种:业务运维、应用运维、大数据运维、数据库运维
所发职位不全,手上职位非常多,欢迎咨询!
电话:18519274080
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.189.211.*