SRE Sênior (Remoto)

Descrição da vaga:

Papel na Empresa:

Como SRE você será o ponto focal técnico para garantir confiabilidade, disponibilidade, performance e segurança dos serviços em produção, atuando na prevenção e resposta a incidentes críticos e na evolução contínua da operação.

Este papel envolve liderar e executar práticas de SRE (observabilidade, SLI/SLO, post-mortem, automação e governança de mudanças), garantindo estabilidade dos sistemas em AWS

Além disso, você irá orientar tecnicamente o time, disseminando boas práticas e elevando o padrão operacional.


Requisitos:

Sólida experiência com operação/sustentação de ambientes críticos e alta disponibilidade;

Domínio de AWS (serviços essenciais e arquitetura distribuída), com foco em:

VPC / Redes

IAM

Load Balancer (ALB/NLB)

CloudWatch(e serviços correlatos)

Experiência com mensageria: RabbitMQ e/ou AmazonMQ (idealmente ambos);

Conhecimento forte em rede (conceitos e prática em cloud): subnets, rotas, SG/NACL, DNS, conectividade e troubleshooting;

Experiência com ferramentas de monitoramento/observabilidade (Datadog, Prometheus, OpenTelemetry, Zabbix, Grafana, CloudWatch);

Forte habilidade em *troubleshooting* de infraestrutura, redes e sistemas em produção;

Experiência com Linux;

Conhecimentos em bancos de dados relacionais (MySQL, PostgreSQL) para apoio em análise e diagnóstico;

Perfil de liderança técnica, proatividade e excelente comunicação para atuação em crise;

Participação em projetos de *automação, confiabilidade, observabilidade ou SRE

Vivência com governança de mudanças (GMUD/Change Management) e operação orientada a processos.



Principais Responsabilidades:


Ser referência técnica e atuar como ponto focal em incidentes críticos e War Rooms, coordenando ações, mitigação e comunicação;

Implementar e evoluir práticas de SRE: definição e acompanhamento de SLI/SLO, gestão de error budget e melhoria contínua baseada em dados;

Realizar análise de tendências (incidentes recorrentes, gargalos, alertas ruidosos) para ações preventivas e redução estrutural de riscos;

Conduzir e revisar GMUDs complexas com visão estratégica de impacto no negócio, riscos, rollback e validação pós-mudança;

Acompanhar, revisar e evoluir os processos de observabilidade(métricas, logs e traces), garantindo:

Dashboards acionáveis

Alertas bem calibrados (redução de ruído)

Priorização e classificação de eventos

Atuar no desenho e melhoria de confiabilidade de workloads em AWS, com foco em:

ECS Fargate (deploy, escalabilidade, capacidade, tuning e troubleshooting)

Rede AWS (VPC, conectividade, segurança e desempenho)

Mensageria (RabbitMQ/AmazonMQ)** (saúde, filas, throughput, latência e padrões de falha)


Nossos incentivos:

  1. Auxílio médico: ajuda de custo mensal para apoiar na contratação do seu plano de saúde.
  2. Wellhub, pra manter corpo e mente ativos, do jeito que você gosta.
  3. Terapia online 100% custeada pela empresa, porque saúde mental importa.
  4. Atendimento em Nutrição online, com até 2 consultas mensais para cuidar da sua saúde alimentar.
  5. Seguro de vida com apólice no valor de R$125 mil, garantindo mais segurança para você e sua família.
  6. Day off no aniversário, porque o seu dia merece ser especial.
  7. Descanso remunerado, para que você possa recarregar as energias.
  8. Gamificação interna, transformando conquistas em prêmios e reconhecimento.
  9. Parcerias educacionais com faculdades como FIAP, Anhanguera e Instituto Infnet, pra apoiar seu crescimento e aprendizado.
  10. Bônus por certificação técnica, reconhecendo e recompensando seu esforço em aprender.


Valorizamos cada voz e cada pessoa, porque sabemos que a diversidade nos torna mais inovadores e fortes.

Localização
Modelo de contratação
Modelo de trabalho
São José dos Campos, SP, BR
Autônomo PJ
Remoto