Navegar
···
Entrar / Registrar

Engenheiro DevOps / SRE Pleno / Sênior

Indeed
Tempo Integral
Presencial
Sem Limite de Experiência
Sem Limite de Formação
PV49+C7 Lisboa, Portugal
Favoritos
Compartilhar
Alguns conteúdos foram traduzidos automaticamente pelo sistemaVer original

Descrição

Resumo: Procuramos um Engenheiro DevOps/SRE Pleno/Sênior para aprimorar e operar uma plataforma de produção de alta carga no GCP/GKE, com foco em confiabilidade, monitoramento, resposta a incidentes e otimização de custos. Pontos de destaque: 1. Oportunidade de impactar a confiabilidade, escalabilidade e velocidade dos desenvolvedores. 2. Equipe pequena com propriedade, autonomia e iteração rápida. 3. Alto potencial de crescimento para assumir a propriedade da plataforma e liderança em SRE. Estamos procurando um **Engenheiro DevOps / SRE Pleno / Sênior** para ajudar a operar e melhorar nossa plataforma de produção no GCP \+ GKE, com Cloudflare como front-end, observabilidade no Datadog e CI/CD no GitHub Actions. Você trabalhará em estreita colaboração com engenheiros seniores/principais, implementando melhorias de confiabilidade, ampliando a cobertura de monitoramento e reduzindo esforços operacionais repetitivos — especialmente importante em um sistema de alta carga com picos súbitos de tráfego. **Responsabilidades do cargo** ------------------------- * **Operações de plataforma (GCP/GKE)** * Operar e dar suporte a sistemas de produção no **GCP**, principalmente no **GKE** e em serviços gerenciados. * Executar melhorias na plataforma e tarefas operacionais delegadas pelos proprietários seniores/principais. * **IaC \& Habilitação de entrega** * Implementar alterações na infraestrutura por meio de **Terraform** (e **Terragrunt**, quando utilizado). * Manter e evoluir **gráficos Helm** e manifestos Kubernetes. * Melhorar a confiabilidade dos fluxos de trabalho do **GitHub Actions / CI/CD** e da automação de implantações. * **Observabilidade \& Monitoramento (Datadog)** * Criar e manter painéis/monitores no Datadog e garantir que os alertas estejam saudáveis. * Preencher lacunas de monitoramento em componentes críticos; reduzir alertas excessivos e melhorar a qualidade do sinal. * **Resposta a incidentes** * Participar na resposta a incidentes e no suporte operacional: triagem, mitigação usando runbooks, escalonamento e correções pós-incidente. * Contribuir para relatórios pós-mortem com fatos claros, cronogramas e tarefas corretivas acionáveis. * **Noções básicas de segurança (DevSecOps)** * Executar/configurar ferramentas e monitoramento de segurança, auxiliar na triagem de achados e implementar correções sob orientação. * Apoiar práticas de segurança por padrão (gestão adequada de segredos, controles de acesso, reforço básico de segurança). * **Consciência de custos** * Identificar e implementar otimizações de custos (dimensionamento adequado, eliminação de desperdícios, melhorias de eficiência) sem prejudicar a confiabilidade. **Qualificações obrigatórias** --------------------------- * Experiência prática em produção com **Kubernetes** (idealmente **GKE**) e operações básicas de cluster. * Experiência prática com **Terraform** e **Helm** em fluxos de trabalho baseados em PR. * Familiaridade com serviços do GCP usados em operações SaaS (ex.: **Cloud SQL, BigQuery, BigTable, Pub/Sub, Cloud Run, Memorystore**). * Habilidades em monitoramento/alertas e solução de problemas (preferencialmente **Datadog**). * Mentalidade forte de script/automação para reduzir trabalho manual e prevenir incidentes repetitivos. * Consciência de confiabilidade: compreensão de como as alterações afetam disponibilidade/latência e como operar dentro de restrições de SLA. **Qualificações desejáveis** ---------------------------- * Noções básicas de Cloudflare (WAF/DNS, conceitos de edge; Workers/CDN são um diferencial). * Experiência na criação/manutenção de runbooks e participação em relatórios pós-mortem. * Exposição aos requisitos **SOC 2 / PCI\-DSS** ou disposição para aprendê-los. * Experiência em produtos de consumo de alta carga ou desenvolvimento de jogos. **Como será o sucesso** --------------------------- * Cobertura de monitoramento aprimorada e alertas mais saudáveis (menos ruído, detecção mais rápida). * Implantações mais rápidas e seguras, com menos etapas manuais e menos regressões em produção. * Incidentes triados de forma eficaz e resolvidos dentro dos prazos esperados. * A confiabilidade da plataforma melhora por meio da entrega contínua de correções operacionais e automação. * Os custos evoluem na direção correta graças a otimizações recorrentes e salvaguardas. **Por que se juntar a nós** --------------- * Ambiente exclusivamente em nuvem e de alta carga, com desafios reais de engenharia (não apenas “manter as luzes acesas”). * Equipe pequena com propriedade, autonomia e iteração rápida. * Excelente oportunidade de crescer rumo à propriedade abrangente da plataforma e à liderança em SRE. * Impacto direto na confiabilidade, escalabilidade e velocidade dos desenvolvedores. ***A Aghanim ajuda desenvolvedores de jogos a alcançarem independência financeira e criativa, fornecendo as soluções de que precisam para lançar, operar e expandir seus negócios.***

Fonte da Informação:  indeed Ver publicação original
João Santos
Indeed · HR

Empresa

Indeed
Cookie
Configurações de cookie
Nosso aplicativo
Download
Baixado no
APP Store
Download
Ir para baixar
Google Play
© 2025 Servanan International Pte. Ltd., Todos os direitos reservados. support@ok.com