




Resumo: A Intermedia procura um Engenheiro de Confiabilidade de Site (SRE) prático e altamente analítico para garantir a confiabilidade, disponibilidade, escalabilidade e desempenho de aplicações e serviços críticos. Pontos principais: 1. Focar na melhoria da confiabilidade das aplicações e da excelência operacional 2. Aplicar princípios de engenharia às operações, reduzindo esforços manuais 3. Especialização sólida em monitoramento de aplicações, observabilidade e resposta a incidentes ### **Descrição** **\*\*TODOS OS CANDIDATOS DEVEM RESIDIR EM PORTUGAL\*\*** *Oferecemos um modelo híbrido de trabalho, com um escritório em Coimbra e planos para abrir escritórios em Aveiro e Porto no futuro. Esta abordagem oferece aos membros da equipe flexibilidade para trabalhar remotamente, ao mesmo tempo que se reúnem presencialmente no escritório para colaboração e trabalho em equipe.* **Sobre o cargo** Os Engenheiros de Confiabilidade de Site (SREs) da Intermedia desempenham um papel fundamental ao assegurar a confiabilidade, disponibilidade, escalabilidade e desempenho das nossas aplicações e serviços mais importantes. Como SRE na Intermedia, você concentrar-se-á na melhoria da confiabilidade das aplicações e da excelência operacional, trabalhando em estreita colaboração com equipes de engenharia de software, plataforma e DevOps para projetar, monitorizar, automatizar e aprimorar continuamente a estabilidade dos serviços. Você aplicará princípios de engenharia às operações, reduzirá esforços manuais, reforçará a observabilidade e minimizará o tempo de inatividade, garantindo que os nossos serviços sejam resilientes e estejam sempre prontos para apoiar os nossos clientes. Este cargo é ideal para alguém prático, altamente analítico e confortável ao atuar nas fronteiras entre aplicações, plataformas e operações, com o objetivo de melhorar a confiabilidade em produção em larga escala.### **Principais responsabilidades** * Garantir a disponibilidade, desempenho e confiabilidade de aplicações e serviços críticos, projetando e implementando estratégias robustas de monitoramento, alerta e otimização. * Definir, medir e manter indicadores de nível de serviço (SLIs), objetivos de nível de serviço (SLOs) e orçamentos de erro para apoiar as metas de confiabilidade dos serviços. * Colaborar com equipes de desenvolvimento para melhorar o desempenho, reduzir a latência e aumentar a resiliência das aplicações em produção. * Trabalhar em estreita colaboração com equipes de plataforma e DevOps para assegurar uma integração harmoniosa entre infraestrutura e confiabilidade das aplicações. * Definir padrões de confiabilidade e salvaguardas operacionais para capacidades de plataforma e caminhos padrão (golden paths). * Colaborar com equipes de engenharia de plataforma para projetar capacidades de autoatendimento resilientes. * Automatizar tarefas operacionais, como implantações, reversões, dimensionamento, failover e processos de recuperação. * Melhorar continuamente os pipelines de CI/CD para reduzir intervenções manuais e apoiar práticas seguras e progressivas de entrega. * Integrar validações automatizadas, verificações de confiabilidade e salvaguardas operacionais nos fluxos de desenvolvimento e implantação. * Implementar e manter capacidades de observabilidade em sistemas de produção, incluindo métricas, logs, rastreamentos (traces) e dashboards. * Desenvolver dashboards, alertas e visualizações operacionais que forneçam visibilidade em tempo real sobre a saúde do sistema e o comportamento das aplicações. * Atuar como principal responsável durante incidentes, colaborando com diversas equipes para solucionar, mitigar e resolver problemas em produção. * Realizar análises de causa-raiz para incidentes e impulsionar ações corretivas de longo prazo para evitar recorrências. * Realizar exercícios simulados (fire drills), dias de jogos (game days) e engenharia do caos para validar a resiliência do sistema sob condições de falha. * Monitorar o uso de recursos, tendências de capacidade e comportamento de dimensionamento para apoiar o crescimento futuro e as necessidades de desempenho. * Colaborar com equipes de segurança para garantir que os serviços estejam alinhados às melhores práticas de segurança, incluindo comunicação segura, controles de acesso e proteção de dados. * Liderar ou contribuir para reuniões regulares de prontidão para produção e revisões operacionais, para avaliar a saúde do sistema, analisar incidentes e preparar lançamentos. * Promover boas práticas de engenharia de confiabilidade entre as equipes e contribuir para o fortalecimento da maturidade operacional geral da organização. ### **Competências, conhecimentos e especialização** * Licenciatura em Ciência da Computação, Engenharia ou área afim, ou experiência prática equivalente. * Experiência comprovada em Engenharia de Confiabilidade de Site (SRE), Engenharia de Plataforma ou funções de Infraestrutura/DevOps, com forte responsabilidade operacional. * Especialização sólida em monitoramento de aplicações, plataformas de observabilidade, resposta a incidentes e resolução de problemas em ambientes de produção. * Profundo entendimento dos conceitos de engenharia de confiabilidade, como SLIs, SLOs, orçamentos de erro, qualidade de alertas e gestão de incidentes. * Domínio de scripts e automação utilizando ferramentas e linguagens como Python, Bash, Terraform, Ansible ou similares. * Experiência com plataformas em nuvem, como AWS, Azure ou Google Cloud. * Conhecimento sólido de pipelines de CI/CD, automação de implantações e práticas de entrega progressiva. * Conhecimento sólido de infraestrutura como código (IaC) e abordagens de gerenciamento de configuração. * Experiência com conteinerização e orquestração, como Docker e Kubernetes. * Excelentes habilidades de resolução de problemas, julgamento operacional e atenção aos detalhes. * Excelentes habilidades de comunicação e colaboração, com capacidade de trabalhar eficazmente com equipes de engenharia, plataforma e segurança. **Competências adicionais*** Experiência em práticas e ferramentas de engenharia do caos. * Experiência no suporte a plataformas internas ou equipes de engenharia de plataforma. * Familiaridade com portais de desenvolvedores, caminhos padrão (golden paths), catálogos de serviços ou padrões de plataformas de autoatendimento. * Compreensão de métricas de experiência do desenvolvedor e maturidade operacional para plataformas internas. * Familiaridade com arquiteturas de microsserviços e ambientes multi-inquilino (multi-tenant). * Experiência com pilhas modernas de observabilidade e padrões de telemetria. * Compreensão de plataformas UCaaS e CCaaS, especialmente fluxos de serviços de voz e comunicação. * Experiência na liderança de iniciativas de confiabilidade, revisões de incidentes ou programas de melhoria em produção. * Familiaridade com planejamento de capacidade, testes de resiliência e práticas de prontidão operacional. ### **Diversidade, inclusão e igualdade de oportunidades** Contratamos, promovemos e remuneramos os funcionários com base na sua capacidade de desempenhar as responsabilidades do cargo, sem consideração de raça, cor, crença, religião, sexo, gênero, estado civil, origem nacional, ascendência, idade, cidadania, deficiência física ou mental, orientação sexual ou qualquer outra base protegida pela legislação aplicável (coletivamente denominadas no nosso Código de Conduta como “Classes Protegidas”). Não toleramos discriminação no local de trabalho e estamos comprometidos em providenciar adaptações razoáveis para deficiências identificadas ou outras limitações, conforme exigido por todas as leis aplicáveis. Somos um empregador que oferece igualdade de oportunidades e valorizamos a diversidade na nossa empresa. Não discriminamos com base em raça, religião, cor, origem nacional, gênero, orientação sexual, idade, estado civil, condição de veterano ou deficiência.### **Sobre a Intermedia Intelligent Communications** Para explorar outras oportunidades, visite a nossa página de carreiras: https://www.intermedia.com/about\-us/careers


