Site Reliability Engineer Sênior (Remoto)
Papel na Empresa
Como SRE você será o ponto focal técnico para garantir confiabilidade, disponibilidade, performance e segurança dos serviços em produção, atuando na prevenção e resposta a incidentes críticos e na evolução contínua da operação. Este papel envolve liderar e executar práticas de SRE (observabilidade, SLI/SLO, post-mortem, automação e governança de mudanças), garantindo estabilidade dos sistemas em AWS Além disso, você irá orientar tecnicamente o time, disseminando boas práticas e elevando o padrão operacional.
Requisitos
Sólida experiência com operação/sustentação de ambientes críticos e alta disponibilidade;
Domínio de AWS (serviços essenciais e arquitetura distribuída), com foco em: VPC / Redes | IAM | Load Balancer (ALB/NLB) | CloudWatch(e serviços correlatos);
Experiência com mensageria: RabbitMQ e/ou AmazonMQ (idealmente ambos);
Conhecimento forte em rede (conceitos e prática em cloud): subnets, rotas, SG/NACL, DNS, conectividade e troubleshooting;
Experiência com ferramentas de monitoramento/observabilidade (Datadog, Prometheus, OpenTelemetry, Zabbix, Grafana, CloudWatch);
Forte habilidade em troubleshooting de infraestrutura, redes e sistemas em produção;
Experiência com Linux;
Conhecimentos em bancos de dados relacionais (MySQL, PostgreSQL) para apoio em análise e diagnóstico;
Perfil de liderança técnica, proatividade e excelente comunicação para atuação em crise;
Participação em projetos de automação, confiabilidade, observabilidade ou SRE;
Vivência com governança de mudanças (GMUD/Change Management) e operação orientada a processos.
Principais Responsabilidades
Ser referência técnica e atuar como ponto focal em incidentes críticos e War Rooms, coordenando ações, mitigação e comunicação;
Implementar e evoluir práticas de SRE: definição e acompanhamento de SLI/SLO, gestão de error budget e melhoria contínua baseada em dados;
Realizar análise de tendências (incidentes recorrentes, gargalos, alertas ruidosos) para ações preventivas e redução estrutural de riscos;
Conduzir e revisar GMUDs complexas com visão estratégica de impacto no negócio, riscos, rollback e validação pós-mudança;
Acompanhar, revisar e evoluir os processos de observabilidade (métricas, logs e traces), garantindo:
Dashboards acionáveis ;
Alertas bem calibrados (redução de ruído);
Priorização e classificação de eventos;
Atuar no desenho e melhoria de confiabilidade de workloads em AWS, com foco em: ECS Fargate (deploy, escalabilidade, capacidade, tuning e troubleshooting) | Rede AWS (VPC, conectividade, segurança e desempenho) | Mensageria (RabbitMQ/AmazonMQ), (saúde, filas, throughput, latência e padrões de falha);
Criar e manter runbooks/playbooks, padronizando resposta a incidentes e reduzindo MTTR;
Orientar e apoiar tecnicamente profissionais juniores e plenos, promovendo excelência operacional;
Identificar oportunidades de automação (scripts, pipelines, padronizações) para ganho de eficiência e redução de falhas humanas;
Participar de decisões arquiteturais junto às áreas técnicas (Dev, Infra, Arquitetura), influenciando escolhas com foco em confiabilidade;
Garantir alinhamento com stakeholders e gestão de crises com clareza, agilidade e transparência.
Diferencial
Experiência com Infra as Code (Terraform / CloudFormation);
Experiência com CI/CD (GitHub Actions, GitLab CI, Jenkins ou similares);
Experiência com containers e orquestração (Kubernetes/EKS), além de ECS;
Conhecimentos em microserviços e mensageria adicional (Kafka, SQS, SNS);
Certificação ITIL v4;
Certificações em cloud (AWS, Azure ou GCP);
Disponibilidade para atuação em janelas de mudança e suporte em cenários críticos (quando necessário).
O que oferecemos:
- 🏥 Auxílio médico: ajuda de custo mensal para apoiar na contratação do seu plano de saúde.
- 💪 Wellhub, pra manter corpo e mente ativos, do jeito que você gosta.
- 🧠 Terapia online 100% custeada pela empresa, porque saúde mental importa.
- 🥗 Atendimento em nutrição online, com até 2 consultas mensais para cuidar da sua saúde alimentar.
- 🛡️ Seguro de vida com apólice no valor de R$ 125 mil, garantindo mais segurança para você e sua família.
- 🎉 Day off no aniversário, porque o seu dia merece ser especial.
- 🌴 Descanso remunerado, para que você possa recarregar as energias.
- 🏆 Gamificação interna, transformando conquistas em prêmios e reconhecimento.
- 🎓 Parcerias educacionais com faculdades como FIAP, Anhanguera e Instituto Infnet, pra apoiar seu crescimento e aprendizado.
- 📚 Bônus por certificação técnica, reconhecendo e recompensando seu esforço em aprender.
Valorizamos cada voz e cada pessoa, porque sabemos que a diversidade nos torna mais inovadores e fortes.
Localização | Modelo de contratação | Modelo de trabalho |
|---|---|---|
São José dos Campos, SP, BR | Autônomo PJ | Remoto |