Site Reliability Engineer Sênior (Remoto)

Descrição da vaga:

Papel na Empresa

Como SRE você será o ponto focal técnico para garantir confiabilidade, disponibilidade, performance e segurança dos serviços em produção, atuando na prevenção e resposta a incidentes críticos e na evolução contínua da operação. Este papel envolve liderar e executar práticas de SRE (observabilidade, SLI/SLO, post-mortem, automação e governança de mudanças), garantindo estabilidade dos sistemas em AWS Além disso, você irá orientar tecnicamente o time, disseminando boas práticas e elevando o padrão operacional.


Requisitos

Sólida experiência com operação/sustentação de ambientes críticos e alta disponibilidade;

Domínio de AWS (serviços essenciais e arquitetura distribuída), com foco em: VPC / Redes | IAM | Load Balancer (ALB/NLB) | CloudWatch(e serviços correlatos);

Experiência com mensageria: RabbitMQ e/ou AmazonMQ (idealmente ambos);

Conhecimento forte em rede (conceitos e prática em cloud): subnets, rotas, SG/NACL, DNS, conectividade e troubleshooting;

Experiência com ferramentas de monitoramento/observabilidade (Datadog, Prometheus, OpenTelemetry, Zabbix, Grafana, CloudWatch);

Forte habilidade em troubleshooting de infraestrutura, redes e sistemas em produção;

Experiência com Linux;

Conhecimentos em bancos de dados relacionais (MySQL, PostgreSQL) para apoio em análise e diagnóstico;

Perfil de liderança técnica, proatividade e excelente comunicação para atuação em crise;

Participação em projetos de automação, confiabilidade, observabilidade ou SRE;

Vivência com governança de mudanças (GMUD/Change Management) e operação orientada a processos.


Principais Responsabilidades

Ser referência técnica e atuar como ponto focal em incidentes críticos e War Rooms, coordenando ações, mitigação e comunicação;

Implementar e evoluir práticas de SRE: definição e acompanhamento de SLI/SLO, gestão de error budget e melhoria contínua baseada em dados;

Realizar análise de tendências (incidentes recorrentes, gargalos, alertas ruidosos) para ações preventivas e redução estrutural de riscos;

Conduzir e revisar GMUDs complexas com visão estratégica de impacto no negócio, riscos, rollback e validação pós-mudança;

Acompanhar, revisar e evoluir os processos de observabilidade (métricas, logs e traces), garantindo:

Dashboards acionáveis ;

Alertas bem calibrados (redução de ruído);

Priorização e classificação de eventos;

Atuar no desenho e melhoria de confiabilidade de workloads em AWS, com foco em: ECS Fargate (deploy, escalabilidade, capacidade, tuning e troubleshooting) | Rede AWS (VPC, conectividade, segurança e desempenho) | Mensageria (RabbitMQ/AmazonMQ), (saúde, filas, throughput, latência e padrões de falha);

Criar e manter runbooks/playbooks, padronizando resposta a incidentes e reduzindo MTTR;

Orientar e apoiar tecnicamente profissionais juniores e plenos, promovendo excelência operacional;

Identificar oportunidades de automação (scripts, pipelines, padronizações) para ganho de eficiência e redução de falhas humanas;

Participar de decisões arquiteturais junto às áreas técnicas (Dev, Infra, Arquitetura), influenciando escolhas com foco em confiabilidade;

Garantir alinhamento com stakeholders e gestão de crises com clareza, agilidade e transparência.


Diferencial

Experiência com Infra as Code (Terraform / CloudFormation);

Experiência com CI/CD (GitHub Actions, GitLab CI, Jenkins ou similares);

Experiência com containers e orquestração (Kubernetes/EKS), além de ECS;

Conhecimentos em microserviços e mensageria adicional (Kafka, SQS, SNS);

Certificação ITIL v4;

Certificações em cloud (AWS, Azure ou GCP);

Disponibilidade para atuação em janelas de mudança e suporte em cenários críticos (quando necessário).


O que oferecemos:

  1. 🏥 Auxílio médico: ajuda de custo mensal para apoiar na contratação do seu plano de saúde.
  2. 💪 Wellhub, pra manter corpo e mente ativos, do jeito que você gosta.
  3. 🧠 Terapia online 100% custeada pela empresa, porque saúde mental importa.
  4. 🥗 Atendimento em nutrição online, com até 2 consultas mensais para cuidar da sua saúde alimentar.
  5. 🛡️ Seguro de vida com apólice no valor de R$ 125 mil, garantindo mais segurança para você e sua família.
  6. 🎉 Day off no aniversário, porque o seu dia merece ser especial.
  7. 🌴 Descanso remunerado, para que você possa recarregar as energias.
  8. 🏆 Gamificação interna, transformando conquistas em prêmios e reconhecimento.
  9. 🎓 Parcerias educacionais com faculdades como FIAP, Anhanguera e Instituto Infnet, pra apoiar seu crescimento e aprendizado.
  10. 📚 Bônus por certificação técnica, reconhecendo e recompensando seu esforço em aprender.

Valorizamos cada voz e cada pessoa, porque sabemos que a diversidade nos torna mais inovadores e fortes.

Localização
Modelo de contratação
Modelo de trabalho
São José dos Campos, SP, BR
Autônomo PJ
Remoto