Engenheiro DevOps / SRE Pleno/Sênior

Indeed

Tempo Integral

Presencial

Sem Limite de Experiência

Sem Limite de Formação

PV49+C7 Lisboa, Portugal

Favoritos

Alguns conteúdos foram traduzidos automaticamente pelo sistemaVer original

Descrição

Resumo: Procuramos um Engenheiro DevOps / SRE Pleno/Sênior para aprimorar e operar uma plataforma de produção, com foco em confiabilidade, observabilidade e resposta a incidentes em um ambiente de alta carga. Pontos principais: 1. Melhorar a confiabilidade e expandir a cobertura de monitoramento em um sistema de alta carga 2. Impacto direto na confiabilidade, escalabilidade e velocidade dos desenvolvedores 3. Oportunidade de evoluir para uma propriedade mais ampla da plataforma e liderança em SRE Estamos procurando um **Engenheiro DevOps / SRE Pleno/Sênior** para ajudar a operar e aprimorar nossa plataforma de produção no GCP \+ GKE, com Cloudflare como front-end, observabilidade no Datadog e CI/CD nas GitHub Actions. Você trabalhará em estreita colaboração com engenheiros seniores/principais, implementando melhorias de confiabilidade, expandindo a cobertura de monitoramento e reduzindo o esforço operacional — especialmente importante em um sistema de alta carga com picos súbitos de tráfego. **Responsabilidades da função** ------------------------- * **Operações de plataforma (GCP/GKE)** * Operar e dar suporte a sistemas de produção no **GCP**, principalmente no **GKE** e em serviços gerenciados. * Executar melhorias de plataforma e tarefas operacionais delegadas por proprietários seniores/principais. * **IaC \& Habilitação de entrega** * Implementar alterações de infraestrutura por meio do **Terraform** (e do **Terragrunt**, quando utilizado). * Manter e aprimorar **gráficos Helm** e manifestos Kubernetes. * Melhorar a confiabilidade dos fluxos de trabalho de **GitHub Actions / CI/CD** e da automação de implantação. * **Observabilidade \& Monitoramento (Datadog)** * Criar e manter painéis/monitores no Datadog e garantir que os alertas estejam saudáveis. * Preencher lacunas de monitoramento em componentes críticos; reduzir alertas excessivos e melhorar a qualidade do sinal. * **Resposta a incidentes** * Participar da resposta a incidentes e do suporte operacional: triagem, mitigação usando runbooks, escalonamento e correções pós-incidente. * Contribuir para postmortems com fatos claros, cronogramas e tarefas de remediação acionáveis. * **Noções básicas de segurança (DevSecOps)** * Executar/configurar ferramentas e monitoramento de segurança, auxiliar na triagem de achados e implementar correções sob orientação. * Apoiar práticas de segurança por padrão (higiene de segredos, controles de acesso, reforço básico). * **Consciência de custos** * Identificar e implementar otimizações de custo (dimensionamento adequado, eliminação de desperdícios, melhorias de eficiência) sem prejudicar a confiabilidade. **Qualificações obrigatórias** --------------------------- * Experiência prática em produção com **Kubernetes** (de preferência **GKE**) e operações básicas de cluster. * Experiência prática com **Terraform** e **Helm** em fluxos de trabalho baseados em PR. * Familiaridade com serviços do GCP usados em operações SaaS (por exemplo, **Cloud SQL, BigQuery, BigTable, Pub/Sub, Cloud Run, Memorystore**). * Habilidades de monitoramento/alerta e solução de problemas (de preferência com **Datadog**). * Mentalidade forte de script/automação para reduzir trabalho manual e prevenir incidentes repetitivos. * Consciência de confiabilidade: compreensão de como as alterações afetam disponibilidade/latência e como operar sob restrições de SLA. **Qualificações desejáveis** ---------------------------- * Noções básicas de Cloudflare (WAF/DNS, conceitos de edge; Workers/CDN são um diferencial). * Experiência escrevendo/mantendo runbooks e participando de postmortems. * Exposição aos requisitos **SOC 2 / PCI\-DSS** ou disposição para aprender. * Experiência em produtos de consumo de alta carga ou desenvolvimento de jogos. **Como é o sucesso nesta função** --------------------------- * Cobertura de monitoramento aprimorada e alertas mais saudáveis (menos ruído, detecção mais rápida). * Implantações mais rápidas e seguras, com menos etapas manuais e menos regressões em produção. * Incidentes são triados de forma eficaz e resolvidos dentro dos prazos esperados. * A confiabilidade da plataforma melhora por meio da entrega contínua de correções operacionais e automação. * Os custos evoluem na direção correta graças a otimizações recorrentes e salvaguardas. **Por que se juntar a nós** --------------- * Ambiente totalmente em nuvem e de alta carga, com desafios reais de engenharia (não apenas "manter as luzes acesas"). * Equipe pequena com propriedade, autonomia e iteração rápida. * Excelente oportunidade de evoluir para uma propriedade mais ampla da plataforma e para caminhos de liderança em SRE. * Impacto direto na confiabilidade, escalabilidade e velocidade dos desenvolvedores. ***A Aghanim ajuda desenvolvedores de jogos a alcançarem independência financeira e criativa, fornecendo as soluções de que precisam para lançar, operar e fazer crescer seus negócios.***

Fonte da Informação: indeed Ver publicação original