SRE Sênior (Remoto)
Papel na Empresa:
Como SRE você será o ponto focal técnico para garantir confiabilidade, disponibilidade, performance e segurança dos serviços em produção, atuando na prevenção e resposta a incidentes críticos e na evolução contínua da operação.
Este papel envolve liderar e executar práticas de SRE (observabilidade, SLI/SLO, post-mortem, automação e governança de mudanças), garantindo estabilidade dos sistemas em AWS
Além disso, você irá orientar tecnicamente o time, disseminando boas práticas e elevando o padrão operacional.
Requisitos:
Sólida experiência com operação/sustentação de ambientes críticos e alta disponibilidade;
Domínio de AWS (serviços essenciais e arquitetura distribuída), com foco em:
VPC / Redes
IAM
Load Balancer (ALB/NLB)
CloudWatch(e serviços correlatos)
Experiência com mensageria: RabbitMQ e/ou AmazonMQ (idealmente ambos);
Conhecimento forte em rede (conceitos e prática em cloud): subnets, rotas, SG/NACL, DNS, conectividade e troubleshooting;
Experiência com ferramentas de monitoramento/observabilidade (Datadog, Prometheus, OpenTelemetry, Zabbix, Grafana, CloudWatch);
Forte habilidade em *troubleshooting* de infraestrutura, redes e sistemas em produção;
Experiência com Linux;
Conhecimentos em bancos de dados relacionais (MySQL, PostgreSQL) para apoio em análise e diagnóstico;
Perfil de liderança técnica, proatividade e excelente comunicação para atuação em crise;
Participação em projetos de *automação, confiabilidade, observabilidade ou SRE
Vivência com governança de mudanças (GMUD/Change Management) e operação orientada a processos.
Principais Responsabilidades:
Ser referência técnica e atuar como ponto focal em incidentes críticos e War Rooms, coordenando ações, mitigação e comunicação;
Implementar e evoluir práticas de SRE: definição e acompanhamento de SLI/SLO, gestão de error budget e melhoria contínua baseada em dados;
Realizar análise de tendências (incidentes recorrentes, gargalos, alertas ruidosos) para ações preventivas e redução estrutural de riscos;
Conduzir e revisar GMUDs complexas com visão estratégica de impacto no negócio, riscos, rollback e validação pós-mudança;
Acompanhar, revisar e evoluir os processos de observabilidade(métricas, logs e traces), garantindo:
Dashboards acionáveis
Alertas bem calibrados (redução de ruído)
Priorização e classificação de eventos
Atuar no desenho e melhoria de confiabilidade de workloads em AWS, com foco em:
ECS Fargate (deploy, escalabilidade, capacidade, tuning e troubleshooting)
Rede AWS (VPC, conectividade, segurança e desempenho)
Mensageria (RabbitMQ/AmazonMQ)** (saúde, filas, throughput, latência e padrões de falha)
⭐ Nossos incentivos:
- Auxílio médico: ajuda de custo mensal para apoiar na contratação do seu plano de saúde.
- Wellhub, pra manter corpo e mente ativos, do jeito que você gosta.
- Terapia online 100% custeada pela empresa, porque saúde mental importa.
- Atendimento em Nutrição online, com até 2 consultas mensais para cuidar da sua saúde alimentar.
- Seguro de vida com apólice no valor de R$125 mil, garantindo mais segurança para você e sua família.
- Day off no aniversário, porque o seu dia merece ser especial.
- Descanso remunerado, para que você possa recarregar as energias.
- Gamificação interna, transformando conquistas em prêmios e reconhecimento.
- Parcerias educacionais com faculdades como FIAP, Anhanguera e Instituto Infnet, pra apoiar seu crescimento e aprendizado.
- Bônus por certificação técnica, reconhecendo e recompensando seu esforço em aprender.
Valorizamos cada voz e cada pessoa, porque sabemos que a diversidade nos torna mais inovadores e fortes.
Localização | Modelo de contratação | Modelo de trabalho |
|---|---|---|
São José dos Campos, SP, BR | Autônomo PJ | Remoto |