岗位职责:
1、负责公司业务系统运维工作,提升业务稳定性和工程效率,与业务方保持高效沟通,建立良好合作关系;
2、负责应用上线评审、上线交付、配置变更、状态监控、容量管理、故障应急响应工作;
3、参与业务服务端架构的高可用设计和性能优化,保证高效、可靠的业务迭代;
4、负责线上重大问题排查,紧急事故处理,后续事故分析与优化;
5、负责应用故障演练、应急预案、SOP手册编写工作,确保故障时业务能快速恢复;
6、负责应用高可用建议及管理,包括限流、降级,容错、容灾,同城多活,确保应用质量;
7、建立SLA评估标准,计算故障对SLA影响,并对SLA后续改进措施进行跟进;
8、负责运维规范、流程文档编制,并将其工具化、平台化,确保运维安全,提升运维效率。
任职资格:
1、5年以上互联网公司运维相关经验;
2、熟悉JVM虚拟机的内存机制、GC机制,能进行JAVA进程异常的故障定位及排查;
3、熟悉Nginx,Zookeeper, Kafka, RocketMQ等常用WEB中间件的维护与使用;
4、熟悉常见监控系统,如Zabbix,Grafana,Prometheus等;
5、熟悉Memcache、Redis、Twemproxy等开源缓存解决方案;
6、有丰富的系统故障排查和解决经验,突出的分析和解决问题的能力;
7、良好的troubleshooting思路与经验,能够快速解决线上事故。
欢迎咨询!
电话:18519274080
微信号:Brylin1991
邮箱: herocanjob@163.com
--
FROM 122.189.211.*