Engenheiro DevOps / SRE Pleno/Sênior

Indeed

Tempo Integral

Presencial

Sem Limite de Experiência

Sem Limite de Formação

PV49+C7 Lisboa, 1000-001, Portugal

Favoritos

Alguns conteúdos foram traduzidos automaticamente pelo sistemaVer original

Descrição

Resumo: Procuramos um Engenheiro DevOps / SRE Pleno/Sênior para aprimorar e operar uma plataforma de produção de alta carga no GCP/GKE, com foco em confiabilidade, observabilidade e resposta a incidentes, além de oportunidades de crescimento. Pontos principais: 1. Operar e aprimorar uma plataforma de produção de alta carga no GCP/GKE 2. Focar na confiabilidade, observabilidade e redução do esforço operacional 3. Oportunidade de crescimento rumo à propriedade da plataforma e liderança em SRE Estamos procurando um **Engenheiro DevOps / SRE Pleno/Sênior** para ajudar a operar e aprimorar nossa plataforma de produção no GCP \+ GKE, com Cloudflare como proxy frontal, observabilidade no Datadog e CI/CD nas GitHub Actions. Você trabalhará em estreita colaboração com engenheiros seniores/principais, implementando melhorias de confiabilidade, ampliando a cobertura de monitoramento e reduzindo o esforço operacional — especialmente importante em um sistema de alta carga com picos súbitos de tráfego. **Responsabilidades da função** ------------------------- * **Operações da plataforma (GCP/GKE)** * Operar e dar suporte a sistemas de produção no **GCP**, principalmente no **GKE** e em serviços gerenciados. * Executar melhorias na plataforma e tarefas operacionais delegadas pelos proprietários seniores/principais. * **Infraestrutura como código (IaC) e habilitação de entrega** * Implementar alterações de infraestrutura por meio do **Terraform** (e do **Terragrunt**, quando utilizado). * Manter e evoluir **gráficos Helm** e manifestos Kubernetes. * Aprimorar a confiabilidade dos fluxos de trabalho de **GitHub Actions / CI/CD** e da automação de implantações. * **Observabilidade e monitoramento (Datadog)** * Criar e manter painéis/monitores no Datadog e garantir que os alertas estejam saudáveis. * Preencher lacunas de monitoramento em componentes críticos; reduzir alertas ruidosos e melhorar a qualidade do sinal. * **Resposta a incidentes** * Participar da resposta a incidentes e do suporte operacional: triagem, mitigação usando runbooks, escalonamento e correções pós-incidente. * Contribuir para postmortems com fatos claros, cronogramas e tarefas de remediação acionáveis. * **Noções básicas de segurança (DevSecOps)** * Executar/configurar ferramentas e monitoramento de segurança, auxiliar na triagem de achados e implementar correções sob orientação. * Apoiar práticas de segurança por padrão (higiene de segredos, controles de acesso, endurecimento básico). * **Consciência de custos** * Identificar e implementar otimizações de custos (dimensionamento adequado, eliminação de desperdícios, melhorias de eficiência), sem prejudicar a confiabilidade. **Qualificações obrigatórias** --------------------------- * Experiência prática em produção com **Kubernetes** (idealmente **GKE**) e operações básicas de cluster. * Experiência prática com **Terraform** e **Helm** em fluxos de trabalho baseados em PR. * Familiaridade com serviços do GCP utilizados em operações SaaS (por exemplo, **Cloud SQL, BigQuery, BigTable, Pub/Sub, Cloud Run, Memorystore**). * Habilidades em monitoramento/alertas e solução de problemas (preferencialmente com **Datadog**). * Mentalidade forte de script/automação para reduzir trabalho manual e prevenir incidentes repetitivos. * Consciência de confiabilidade: compreensão de como as alterações afetam disponibilidade/latência e como operar sob restrições de SLA. **Qualificações desejáveis** ---------------------------- * Noções básicas de Cloudflare (WAF/DNS, conceitos de edge; Workers/CDN são um diferencial). * Experiência na escrita/manutenção de runbooks e participação em postmortems. * Exposição aos requisitos **SOC 2 / PCI\-DSS** ou disposição para aprendê-los. * Experiência em produtos de consumo de alta carga ou desenvolvimento de jogos. **O que significa ter sucesso nessa função** --------------------------- * Cobertura aprimorada de monitoramento e alertas mais saudáveis (menos ruído, detecção mais rápida). * Implantações mais rápidas e seguras, com menos etapas manuais e menos regressões em produção. * Incidentes são triados de forma eficaz e resolvidos dentro dos prazos esperados. * A confiabilidade da plataforma melhora por meio da entrega contínua de correções operacionais e automação. * Os custos seguem na direção correta graças a otimizações recorrentes e guardrails. **Por que se juntar a nós** --------------- * Ambiente exclusivamente em nuvem, de alta carga, com desafios reais de engenharia (não apenas "manter as luzes acesas"). * Equipe pequena, com propriedade, autonomia e iterações rápidas. * Excelente oportunidade de crescer rumo à propriedade abrangente da plataforma e às carreiras de liderança em SRE. * Impacto direto na confiabilidade, escalabilidade e velocidade dos desenvolvedores. ***Aghanim ajuda desenvolvedores de jogos a alcançarem independência financeira e criativa, fornecendo as soluções de que precisam para lançar, operar e expandir seus negócios.***

Fonte da Informação: indeed Ver publicação original

João Santos

Indeed · HR

Empresa

Indeed

João Santos

Indeed · HR

Vagas semelhantes

Engenheiro DevOps / SRE Pleno/Sênior

Descrição

Empresa

Vagas semelhantes

JAVA BACKEND SPRINGBOOT (HÍBRIDO)

Cabeleireira c/experiencia

Construção de edifício

DESENVOLVEDOR .NET SÊNIOR (HÍBRIDO)

Funcionários de limpeza entrada imediata

Desenvolvedor Senior Full Stack (.NET Core / Angular / Azure)