




Resumo: Esta posição de Engenheiro SRE concentra-se em melhorar a confiabilidade, a operabilidade e a observabilidade dos serviços de produção por meio de engenharia prática, trabalho operacional e atividades de melhoria contínua. Pontos principais: 1. Oportunidade de melhorar a confiabilidade e a operabilidade dos serviços de produção 2. Engajar-se com ferramentas modernas de observabilidade e automação, incluindo assistência por IA 3. Contribuir para a melhoria contínua no monitoramento, alertas e automação FAÇA HISTÓRIA CONOSCO! Na PMI, escolhemos fazer algo incrível. Estamos transformando totalmente o nosso negócio e construindo nosso futuro com produtos sem fumaça, capazes de melhorar a vida de um bilhão de fumantes em todo o mundo. Com uma mudança tão grande, vem uma oportunidade igualmente grande. Portanto, independentemente de onde você se juntar a nós, desfrutará da liberdade para imaginar e entregar soluções melhores e mais brilhantes, bem como do espaço para impulsionar sua carreira em direções infinitamente diferentes. **Finalidade da função** ---------------- A função de Engenheiro SRE concentra-se em melhorar a confiabilidade, a operabilidade e a observabilidade dos serviços de produção por meio de engenharia prática e trabalho operacional. A função combina responsabilidades operacionais diárias com atividades de melhoria contínua no monitoramento, alertas, suporte a incidentes, registro de logs e automação. O Engenheiro SRE trabalha em sistemas em produção e é esperado que investigue problemas em produção, solucione problemas complexos e implemente melhorias que tornem os serviços mais confiáveis e fáceis de operar. Isso inclui configurar e manter painéis, alertas, visualizações de logs e automações usando ferramentas SRE estabelecidas e práticas de infraestrutura como código. A função é orientada à execução e aplica padrões e estruturas definidos, em vez de definir a estratégia organizacional de confiabilidade. A função também inclui apoiar a adoção e o uso de SLIs e SLOs, implementando definições acordadas, garantindo fontes corretas de dados e ajudando as equipes a utilizar sinais de confiabilidade nas operações diárias. O foco está na implementação consistente e no uso operacional, não na propriedade própria do quadro de confiabilidade. Espera-se uma mentalidade orientada à IA. Isso significa compreender os conceitos e as aplicações potenciais de capacidades assistidas por IA dentro das ferramentas SRE (por exemplo, detecção de anomalias, redução de ruído, correlação e suporte à automação), além de ser capaz de trabalhar com recursos habilitados por IA, quando disponíveis. A função não exige a construção de modelos de IA, mas exige a capacidade de compreender como os recursos orientados por IA influenciam a observabilidade, os alertas e os fluxos operacionais, bem como utilizá-los de forma responsável dentro das ferramentas existentes. Além disso, espera-se que o Engenheiro SRE interaja com fornecedores externos relacionados às ferramentas e plataformas SRE. Isso inclui atuar como ponto de contato técnico em tópicos operacionais, como solução de problemas, integrações, atualizações e uso de funcionalidades. A interação com fornecedores deverá crescer progressivamente ao longo do tempo, começando com colaboração guiada e evoluindo para uma propriedade técnica mais autônoma. No geral, a função destina-se a um engenheiro capaz de operar de forma independente em tarefas complexas, aplicar práticas SRE de maneira consistente, compreender ferramentas modernas de observabilidade e automação (incluindo capacidades assistidas por IA) e contribuir para a melhoria da confiabilidade por meio de mudanças práticas e mensuráveis. **Principais responsabilidades** ------------------------ * Monitoramento e observabilidade + Implementar e aprimorar capacidades de monitoramento para garantir visibilidade em tempo real e detecção proativa de problemas. + Projetar, construir e manter painéis, alertas e telemetria de suporte. * Suporte a plantão e habilitação de escalonamento + Melhorar o roteamento de alertas, políticas de escalonamento e integrações entre ferramentas de monitoramento e alertas. + Apoiar equipes de plataforma na adoção das melhores práticas de alertas e na redução do ruído gerado por alertas. * Suporte a incidentes e gerenciamento de problemas + Contribuir para a resolução de incidentes complexos por meio de solução estruturada de problemas e análise. + Apoiar a análise da causa-raiz, documentação e ações corretivas para prevenir recorrências. * Agregação e análise de logs + Aprimorar a ingestão, análise e visualização de logs usando ELK. + Construir painéis e alertas reutilizáveis com base em padrões de logs e sinais operacionais. * Implementação de SLO/SLI + Apoiar a definição e implementação de SLIs e SLOs. + Utilizar dados de confiabilidade e orçamentos de erro para orientar melhorias operacionais e de engenharia. * Infraestrutura como código e automação + Desenvolver e manter ativos do Terraform/Terraform Enterprise, incluindo módulos reutilizáveis. + Automatizar processos de onboarding, configuração e fluxos operacionais para reduzir esforços manuais. * Interação e gestão de fornecedores + Atuar como ponto de contato técnico para fornecedores relacionados ao SRE (por exemplo, observabilidade, alertas, CI/CD). + Apoiar o onboarding de ferramentas, atualizações, integrações e resolução de problemas com fornecedores. + Participar de avaliações com fornecedores, acompanhamentos e discussões sobre roadmaps juntamente com engenheiros seniores ou liderança. + Garantir que as soluções fornecidas pelos fornecedores estejam alinhadas com os padrões SRE, a estratégia de ferramentas e as necessidades operacionais. * Documentação e compartilhamento de conhecimento + Manter documentação técnica, runbooks e diretrizes operacionais. + Compartilhar conhecimento dentro da equipe SRE e contribuir para práticas repetíveis e escaláveis. **Capacidades obrigatórias** --------------------------- ### **Práticas SRE / Confiabilidade** * Compreensão intermediária dos princípios e práticas SRE. * Capacidade de lidar com tarefas mais complexas e contribuir para a melhoria contínua dos processos. * Habilidades intermediárias de solução de problemas e troubleshooting em ambientes de produção. ### **Habilidades técnicas** * New Relic: configuração de monitoramento e alertas, incluindo painéis personalizados. * ELK: gerenciamento, análise, visualização e alertas de logs. * Opsgenie: gerenciamento de alertas, roteamento, políticas de escalonamento e integrações. * Terraform / Terraform Enterprise (avançado): tarefas de infraestrutura como código, criação de módulos e gerenciamento de ciclo de vida. * Bitbucket / GitHub (avançado): estratégias de ramificação, pull requests e revisões de código. * Python: scripts e automações, incluindo integrações com APIs. * JavaScript: scripts para automação e integrações com ferramentas. * Jenkins: pipelines CI/CD, fluxos de trabalho complexos e integrações. * AWS: compreensão dos principais serviços em nuvem e fundamentos de confiabilidade. * Coordenação com fornecedores + Capacidade de trabalhar com fornecedores externos em tópicos técnicos, incluindo triagem de problemas, suporte à implementação e acompanhamentos. + Conforto ao representar a perspectiva SRE em discussões com fornecedores. **Capacidades desejáveis** ----------------------------- * Capacidade de orientar engenheiros juniores e fornecer orientação técnica. * Fortes habilidades de comunicação e colaboração, incluindo trabalho com equipes internas e com fornecedores externos. **Capacidades opcionais** ------------------------------- * Compreensão de Node.js. * Familiaridade com tecnologias de contêineres (Docker, Kubernetes). * Familiaridade com Ansible. Atenção: somente serão consideradas inscrições realizadas online. Somente os candidatos selecionados serão contatados. Observação exclusiva para candidatos da Polônia: Nesta posição, você receberá no mínimo PLN 17.621 brutos por mês


