




Resumo: Este cargo de Engenheiro SRE concentra-se em aprimorar a confiabilidade, operabilidade e observabilidade dos serviços de produção por meio de engenharia prática, trabalho operacional e atividades de melhoria contínua. Pontos principais: 1. Melhorar a confiabilidade, operabilidade e observabilidade dos serviços de produção 2. Combinar responsabilidades operacionais com atividades de melhoria contínua 3. Operar de forma independente em tarefas complexas utilizando práticas modernas de SRE FAÇA HISTÓRIA CONOSCO! Na PMI, escolhemos fazer algo incrível. Estamos transformando totalmente o nosso negócio e construindo nosso futuro com produtos sem fumaça, capazes de melhorar a vida de um bilhão de fumantes em todo o mundo. Com grandes mudanças vêm grandes oportunidades. Portanto, independentemente de onde você se juntar a nós, desfrutará da liberdade para conceber e entregar soluções melhores e mais brilhantes, além do espaço necessário para impulsionar sua carreira em direções infinitamente distintas. **Finalidade do cargo** ---------------- O cargo de Engenheiro SRE concentra-se na melhoria da confiabilidade, operabilidade e observabilidade dos serviços de produção por meio de engenharia prática e trabalho operacional. O cargo combina responsabilidades operacionais diárias com atividades de melhoria contínua em monitoramento, alertas, suporte a incidentes, registro de logs e automação. O Engenheiro SRE trabalha em sistemas em produção e é esperado que investigue problemas em produção, solucione problemas complexos e implemente melhorias que tornem os serviços mais confiáveis e fáceis de operar. Isso inclui configurar e manter painéis, alertas, visualizações de logs e automações utilizando ferramentas SRE estabelecidas e práticas de infraestrutura como código. O cargo é orientado à execução e aplica padrões e estruturas definidos, em vez de definir a estratégia organizacional de confiabilidade. O cargo também inclui apoiar a adoção e o uso de SLIs e SLOs implementando definições acordadas, garantindo fontes corretas de dados e auxiliando as equipes a utilizar sinais de confiabilidade nas operações diárias. O foco está na implementação consistente e no uso operacional, não na propriedade própria do quadro de confiabilidade. Espera-se uma mentalidade orientada por IA. Isso significa compreender os conceitos e as possíveis aplicações de capacidades assistidas por IA dentro das ferramentas SRE (por exemplo, detecção de anomalias, redução de ruído, correlação e suporte à automação) e ser capaz de trabalhar com recursos habilitados por IA, sempre que disponíveis. O cargo não exige a construção de modelos de IA, mas exige a capacidade de compreender como os recursos orientados por IA influenciam a observabilidade, os alertas e os fluxos de trabalho operacionais, bem como utilizá-los de forma responsável dentro das ferramentas existentes. Além disso, espera-se que o Engenheiro SRE interaja com fornecedores externos relacionados às ferramentas e plataformas SRE. Isso inclui atuar como ponto de contato técnico para tópicos operacionais, tais como solução de problemas, integrações, atualizações e uso de funcionalidades. A interação com fornecedores deverá crescer progressivamente ao longo do tempo, começando com colaboração guiada e avançando rumo a uma propriedade técnica mais autônoma. No geral, o cargo destina-se a um engenheiro capaz de operar de forma independente em tarefas complexas, aplicar práticas SRE de maneira consistente, compreender ferramentas modernas de observabilidade e automação (incluindo capacidades assistidas por IA) e contribuir para a melhoria da confiabilidade por meio de mudanças práticas e mensuráveis. **Principais responsabilidades** ------------------------ * Monitoramento \& Observabilidade + Implementar e aprimorar capacidades de monitoramento para garantir visibilidade em tempo real e detecção proativa de problemas. + Projetar, construir e manter painéis, alertas e telemetria de apoio. * Plantão \& Habilitação de escalonamento + Aprimorar o roteamento de alertas, políticas de escalonamento e integrações entre ferramentas de monitoramento e alertas. + Apoiar equipes de plataforma na adoção de boas práticas de alertas e na redução do ruído gerado por alertas. * Suporte a incidentes e gerenciamento de problemas + Contribuir para a resolução de incidentes complexos por meio de solução estruturada de problemas e análise. + Apoiar a análise da causa raiz, documentação e ações corretivas para prevenir recorrências. * Agregação \& análise de logs + Aprimorar ingestão, análise e visualização de logs usando ELK. + Construir painéis e alertas reutilizáveis com base em padrões de logs e sinais operacionais. * Implementação de SLO/SLI + Apoiar a definição e implementação de SLIs e SLOs. + Utilizar dados de confiabilidade e orçamentos de erros para orientar melhorias operacionais e de engenharia. * Infraestrutura como código \& automação + Desenvolver e manter ativos do Terraform/Terraform Enterprise, incluindo módulos reutilizáveis. + Automatizar processos de onboarding, configuração e fluxos de trabalho operacionais para reduzir esforço manual. * Interação \& gestão de fornecedores + Atuar como ponto de contato técnico para fornecedores relacionados ao SRE (por exemplo, observabilidade, alertas, CI/CD). + Apoiar o onboarding de ferramentas, atualizações, integrações e resolução de problemas com fornecedores. + Participar de avaliações de fornecedores, acompanhamentos e discussões sobre roadmaps juntamente com engenheiros seniores ou liderança. + Garantir que as soluções fornecidas pelos fornecedores estejam alinhadas com os padrões SRE, a estratégia de ferramentas e as necessidades operacionais. * Documentação \& compartilhamento de conhecimento + Manter documentação técnica, runbooks e diretrizes operacionais. + Compartilhar conhecimento dentro da equipe SRE e contribuir para práticas repetíveis e escaláveis. **Capacidades obrigatórias** --------------------------- ### **Práticas SRE / Confiabilidade** * Compreensão intermediária dos princípios e práticas SRE. * Capacidade de lidar com tarefas mais complexas e contribuir para a melhoria contínua dos processos. * Habilidades intermediárias de solução de problemas e troubleshooting em ambientes de produção. ### **Habilidades técnicas** * New Relic: configuração de monitoramento e alertas, incluindo painéis personalizados. * ELK: gerenciamento, análise, visualização e alertas de logs. * Opsgenie: gerenciamento de alertas, roteamento, políticas de escalonamento e integrações. * Terraform / Terraform Enterprise (avançado): tarefas de IaC, criação de módulos e gerenciamento de ciclo de vida. * Bitbucket / GitHub (avançado): estratégias de branching, pull requests e revisões de código. * Python: scripts e automação, incluindo integrações com APIs. * JavaScript: scripts para automação e integrações com ferramentas. * Jenkins: pipelines CI/CD, fluxos de trabalho complexos e integrações. * AWS: compreensão dos principais serviços em nuvem e fundamentos de confiabilidade. * Coordenação com fornecedores + Capacidade de trabalhar com fornecedores externos em tópicos técnicos, incluindo triagem de problemas, suporte à implementação e acompanhamentos. + Conforto em representar a perspectiva SRE em discussões com fornecedores. **Capacidades desejáveis** ----------------------------- * Capacidade de orientar engenheiros juniores e fornecer orientação técnica. * Fortes habilidades de comunicação e colaboração, incluindo trabalho com equipes internas e com fornecedores externos. **Capacidades opcionais** ------------------------------- * Compreensão do Node.js. * Familiaridade com tecnologias de contêineres (Docker, Kubernetes). * Familiaridade com Ansible. Observe que apenas candidaturas enviadas online serão consideradas. Apenas os candidatos selecionados serão contatados. Observação exclusiva para candidatos da Polônia: Neste cargo, você receberá no mínimo PLN 17.621 brutos por mês


