PT

Engenheiro de IA

Descrição da vaga:

Estamos em busca de um(a) Engenheiro(a) de IA Sênior para assumir a manutenção e a evolução contínua do Plataforma Agents de IA — nosso framework de orquestração de agentes de IA

que automatiza ciclos completos de desenvolvimento de software (refinement → dev →security → QA → deploy) em nossos projetos reais, em produção.


Esta não é uma vaga de "treinar modelo" nem de "fazer prompt em chatbot". E engenharia de plataforma com foco em confiabilidade, observabilidade e auto-recuperação de agentes autônomos rodando 24/7 em produção, escrevendo código de desenvolvimento, fazendo git push, abrindo PRs, mergeando em omolog, fazendo cherry-pick para produção.


O que é o Plataforma Agents de IA

Para você decidir se a vaga te interessa, precisa entender o que vai manter:


Orquestrador: Le as issues (Jira), identifica issues prontas pra cada stage, dispara

agentes (Claude/OpenIA/Gemini/DeepSeek) com contexto rico, valida o resultado, posta

comentario na issue, e avanca o status. Roda em servidores Linux, com auto-update.

Agentes (@dev, @qa, @sec, @devops, @pm, @po, @sm, @analyst, @architect, @data-engineer, @ux-design-expert): cada um com persona, authority matrix definida, skills executáveis e Gates de qualidade.

Rules: Mais de 60 regras formais que governam o comportamento dos agentes — desde naming conventions até anti-hallucination validation em 7 camadas. Cada rule nasce de um bug real anonimizado em produção e tem detector regex + caso aplicação por agent.

Recovery loops: quando um stage falha (CI quebra, conflict de cherry-pick, working tree dirty, autocompact thrashing), o orquestrador detecta deterministicamente e redispara o agente em --mode=ci_recovery com contexto enriquecido. Cap de tentativas, anti-oscilação, escalada pra humano quando esgota.

Multi-repo via submodules: projetos clientes tem 2 a 30+ sub-repos. Vertex orquestra cherry-pick coordenado, dependency promotion cross-issue, working-tree auto-recovery, validação de paridade de coverage Sonar.

Stack: Bash 5+ (nucleo), Python, Node.js/TypeScript (CLIs auxiliares), gh CLI, jq,

integrações HTTP com Jira/GitHub via curl + retry policy.


O que você vai fazer


Manutenção do core (40%)

• Manter e evoluir fix de bugs, refatorações controladas, redução de complexidade

ciclomática.

• Garantir que retry policies (Git, PM API, autocompact, recovery loops) continuem

determinísticas e sem custo desnecessário.

• Manter as integrações com Jira API (ADF, webhooks, transitions, comments via helper canônico) funcionais frente a mudancas de schema/comportamento.

• Operar e melhorar o sistema de telemetria (dashboards de custo por agent/stage/issue).

• Diagnosticar incidentes em produção (cliente reporta "agent crashou em loop", "PR criado no repo errado", "deploy não promoveu") e fechar com case study anonimizado + nova rule preventiva.


Evolução de agents e rules (35%)

• Criar e refinar rules quando bugs sistemicos forem detectados — cada rule nova segue o template canônico (detector regex, aplicação por agent, caso real anonimizado, antipatterns, checklist).

• Calibrar prompts dos agents para reduzir alucinação, scope creep, falsos positivos e ciclos de retrabalho.

• Manter o agent-authority.md consistente quando authorities mudarem (ex: @dev

ganhou ownership de PR contra homolog em v2.0.146).

• Criar/refatorar skills.

• Medir impacto de cada rule nova (redução de ciclos de retrabalho, custo USD por issue, leakage rate de bugs Categoria A vs B).


Integrações com LLM CLIs (25%)

• Manter compatibilidade com mudanças de breaking change dos provedores (Claude Code, OpenAI CLI, Gemini CLI, DeepSeek direct).

• Avaliar e integrar novos providers/modelos quando custo-benefício mudar (ex:

DeepSeek-Reasoner para recovery loops, Haiku para classificação).

• Otimizar custo: identificar stages onde modelo menor resolve.

• Implementar fallbacks quando um provider está em outage (ja existe retry transient;

expandir cobertura).

• Trabalhar com tokenização, context windows, autocompact thrashing detection —

entender as falhas reais de cada modelo, não a teoria.


O que esperamos de você


Stack técnica — obrigatório

Bash/Shell avançado e Linux — você e confortável lendo e escrevendo 500+ linhas de

bash com set -euo pipefail, traps, subshells, file locks, jq, awk, sed, heredocs,

parameter expansion avançada. Não tem medo de poll.sh. Sabe diferenciar [ ] de [[

]] e porque importa.

Node.js / TypeScript — escreve TS com strict mode, entende quando não usar Node

(ex: lógica de orquestração crítica fica em bash justamente porque e mais previsível que async JS).

Git e GitHub avançado — cherry-pick com -m 1, submodules, gh pr

create/merge/edit/list --search, git revert, git rebase --autosquash, resolução

de conflicts nao-triviais, branch protection rules, GitHub Actions workflows.

Prompt engineering aplicado a agentes autônomos — você já calibrou prompts em produção, sabe que "diga ao modelo o que não fazer" raramente funciona, entende o

efeito de exemplos few-shot vs zero-shot, e já debugou ao menos uma vez porque um agente está "alucinando" um PR que não criou.


Experiência

• 5+ anos de engenharia de software produzindo sistemas em produção.

• Pelo menos 1 ano com agentes autônomos / orquestração de LLMs em ambiente

real (não bootcamp, não side project) — você sabe a diferença entre "rodou no demo" e "rodou em prod 24/7 sem humano".

• Histórico comprovado de manter sistemas legados com debt técnico — você não quer "reescrever do zero".

• Inglês técnico fluente para leitura/escrita (documentação, issues, comentários de código em inglês obrigatórios; comunicação verbal pode ser PT/EN/ZH dependendo do time).


Mentalidade

Determinismo > magia. Você prefere uma regex feia em bash que sempre funciona a um ML model elegante que falha em 5% dos casos. Em orquestração de agentes, 5% de falha = produto inviável.

Forensics sobre intuição. Antes de propor solução, você lê o log, o diff, a issue real do cliente. Não inventa hipótese.

Documentação executável. Quando você cria uma rule nova, ela tem detector regex que pode rodar em CI. "Documentei em texto" não basta.

Empatia por agente. Você consegue ler um prompt de 8k tokens e identificar onde o modelo vai se confundir, por que, e o que ajustar.


Diferenciais

• Experiencia com Claude Agent SDK, OpenAI Agents SDK, LangGraph ou frameworks de orquestração equivalentes.

• Já implementou ou manteve sistemas de retry policy + backoff exponencial + circuit breaker em integrações com APIs externas instáveis.

• Já trabalhou com monorepos via submodules (nao apenas Nx/Turborepo) e entende

os trade-offs.

• Contribuições open-source em projetos relacionados (CLIs, dev tooling, agent

frameworks).

• Experiencia com DevOps em servidores Linux dedicados (não apenas k8s/cloud managed): systemd, cron, logrotate, monitoring com ferramentas leves.

• Familiaridade com conventional commits, semantic-release, gitflow trifásico

(feature → homolog → main com cherry-pick).

• Já escreveu post-mortem público / case study técnico que outras pessoas referenciam.


Benefícios

• VR/VA – Flash Benefícios

• Assistência Médica – Bradesco Saúde

• Assistência Odontológica – Bradesco

• Programa de Orientação Pessoal – C4Life

• Day Off de Aniversário

• TotalPass

• Parcerias educacionais (FIAP e Alura)

Localização
Modelo de contratação
Modelo de trabalho
São Bernardo do Campo, SP, BR
Autônomo PJ
Remoto