SRE 运维负责人
工作职责
1. 负责公司基础架构系统(包括不限于网关、消息队列、RPC、数据库、缓存)的故障发现、应急响应、系统突发故障快速恢复等风险与技术领域的系统与工具研发;
2. 负责线上系统可靠性改进,通过持续的全方位数据运营(包括可用性指标、历史事故、资源利用率等),找到系统薄弱点,推动技改落地;
3. 持续打磨监控体系与应急预案体系,提升监控效率,缩短故障定位时长。
任职资格
1. 计算机或相关专业本科以上学历,5年及以上互联网相关工作经验;
2. 良好的团队合作精神与沟通协助能力,较强的自驱力;
3. 良好的逻辑思维能力和一定的问题抽象能力,乐于技术专研,具备批判性思维能力和习惯;
4. 熟悉SRE的主要职责,对可用性保障工作有深刻理解和认同;
5. 熟悉dubobo等RPC及kafka、ZK等工作原理;
6. 熟悉redis、mysql工作原理与优化经验;
7. 大型高并发、高可用系统架构经验优先,熟悉服务治理,对限流、降级、服务隔离等有深刻理解;
8. 优秀的trouble shooting能力,强力的责任心和使命感。
加分项:熟悉K8s,或者有基础组件源码改造的候选人。
合作北上广深杭 国企 外企 互联网 量化私募 无人驾驶 区块链 芯片 元宇宙的职位
VX:Brylin1991
邮箱:herocanjob@163.com
--
FROM 117.153.40.*