职责
o 带领部署运维团队制定部署上线和运维支持方案,进行资源规划和合理分配,支持客户项目的高效部署和运维工作,包括调试、配置、维护、监控、优化等工作;
o 带领团队及时响应并处理客户现场一线问题或突发故障,快速处理运维事故,保障业务稳定运行;如解决服务器、虚拟机故障;支撑客户的故障排查、服务请求、配置变更(如软件升级)等各项工作;
o 带领客户支持部署运维团队,持续进行团队培训、考核,提升团队成员能力满足岗位要求;
o 开发客户部署运维指导文档、工具及其他种类的技术资料;
o 与客户建立良好的沟通机制,定期对客户部署运维问题进行总结回顾;
从项目的生命周期来看:
o 项目规划阶段:负责参与并审核客户项目架构设计的合理性和可运维性,以确保在上线之后能高效稳定的运行;
o 项目实施阶段:负责带领团队使用自动化的工具或脚本高效地完成部署上线任务,之后可以快速稳定地迭代;
o 项目运维阶段:负责支持客户项目交付后稳定运行,在此期间对出现的各种问题可以快速定位并解决;在日常工作中不断优化系统架构和部署运维的合理性,以提升系统的稳定性和高可用。
任职资格:
o 5年以上云端数据中心基础设施建设和运维/交付经验,三年以上大型云平台的实际运维经验,管理过10人以上的运维团队优先;
o 熟悉英伟达AI加速卡或同类产品适配、性能调优,部署应用,问题调试者优先;
o 精通Linux操作系统的安装、操作和维护;熟练 Linux 容器化工具(Docker、Kubernetes),及其生态(容器打包、集群管理和监控、任务编排、运维排错);
o 精通主流公有云,有相关认证者优先;熟悉云计算、云网络、云存储相关技术和实现; 熟悉分布式计算或者存储系统,比如Hadoop/Hbase/Storm等,熟悉网络基础知识,TCP/IP协议工作原理;
o 熟练使用脚本语言Python/Shell进行脚本开发;
o 熟悉自动化运维和监控平台的架构,熟悉Ansible、Saltstack的部署和使用;熟悉开源的监控平台工具,比如:Ganglia、Nagios、Zabbix等;
o 具有良好的沟通协调能力,团队合作精神,优秀的执行力;有很强的问题分析和trouble shooting的能力;
o 必要的差旅以现场支持客户问题解决;
o 本科以上学历、计算机或相关专业毕业;
o 熟悉项目管理流程和方法论,具备良好的问题总结,项目规划、推进能力;
软素质要求
o 强烈的责任心与主动性,对所负责工作有owner意识,并能自我驱动成长;
o 能承担较大工作压力,有较强独立分析、解决问题的能力;
o 工作中需要胆大心细,具备探索创新精神。
所发职位不全,手上职位非常多,欢迎咨询!
电话:18519274080
微信号:Brylin1991
邮箱: herocanjob@163.com
所发职位不全,手上职位非常多,欢迎咨询!
电话:18519274080
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.189.211.*