Engenheiro de Confiabilidade de Site – Vice-Presidente

Indeed

Tempo Integral

Presencial

Sem Limite de Experiência

Sem Limite de Formação

PV49+C7 Lisboa, 1000-001, Portugal

Favoritos

Alguns conteúdos foram traduzidos automaticamente pelo sistemaVer original

Descrição

Resumo: Como Engenheiro de Confiabilidade de Site, você aplicará princípios de engenharia a desafios de infraestrutura, projetando e implementando sistemas escaláveis, soluções de observabilidade e automação. Pontos principais: 1. Trabalhar na interseção entre engenharia de software e operações 2. Projetar e implementar sistemas que escalem eficientemente 3. Liderar a padronização de monitoramento e alertas por meio de "monitores como código" **Sobre a função** A equipe de Engenharia de Confiabilidade de Site da iCapital é fundamental para garantir que nossa plataforma forneça um serviço consistente e confiável à nossa base de clientes. Como Engenheiro de Confiabilidade de Site, você atuará na interseção entre engenharia de software e operações, aplicando princípios de engenharia a desafios de infraestrutura. Você será responsável por projetar e implementar sistemas que escalem eficientemente, arquitetar soluções de observabilidade que forneçam insights acionáveis e desenvolver automações que melhorem a confiabilidade de nossa plataforma. Essa função exige alguém que pense de forma sistemática sobre confiabilidade, consiga traduzir requisitos comerciais em implementações técnicas e se destaque ao tornar sistemas complexos mais robustos. **Responsabilidades:** * Definir, implementar e iterar objetivos de nível de serviço (SLOs) e indicadores de nível de serviço (SLIs) que reflitam as expectativas dos clientes e do negócio. * Liderar a padronização de monitoramento e alertas por meio de "monitores como código" (preferencialmente com Terraform), incluindo portões de qualidade, tais como severidade, responsabilidade e links para manuais operacionais. * Desenvolver padrões de observabilidade abrangendo métricas, logs e rastreamentos, incluindo padrões de instrumentação e mapeamento de dependências (OpenTelemetry, quando aplicável). * Liderar avaliações técnicas e provas de conceito (PoCs) para plataformas e integrações de observabilidade; definir critérios de sucesso e abordagem de migração para adoção. * Definir e implementar padrões de confiabilidade e operacionalidade para serviços baseados em Kubernetes\-incluindo padrões de dimensionamento, restrições de recursos, segurança nas implantações, painéis e alertas básicos como parte da incorporação de serviços. * Impulsionar a automação para eliminar tarefas repetitivas, melhorar a reprodutibilidade e acelerar a recuperação (fluxos de incidentes, manuais operacionais e correções, conforme adequado). * Atuar como Comandante de Incidente em incidentes de alta\-severidade, liderar análises pós-incidente e impulsionar melhorias sistêmicas por meio de ações definidas e acompanhamento mensurável, utilizando fluxos de trabalho estabelecidos com ferramentas. Participar de rodízios de plantão com foco em melhorar a confiabilidade, reduzir o ruído de alertas e aumentar progressivamente a qualidade do sinal. * **Qualificações:** * 7\+ anos em funções de SRE ou relacionadas, com evidência de senioridade técnica em múltiplos serviços e equipes. * Experiência sólida com AWS e orquestração de contêineres (Kubernetes) em ambientes de produção. * Experiência comprovada na definição de SLOs/SLIs e no uso desses indicadores para orientar decisões operacionais e de engenharia. * Capacidade comprovada de projetar e implementar soluções de observabilidade que gerem insights acionáveis, ao mesmo tempo que reduzem a fadiga de alertas e o ruído operacional. * Habilidades sólidas em infraestrutura como código (IaC) (Terraform preferencialmente) e capacidade de construir automações e padrões reutilizáveis (monitoramento como código, padrões de configuração). * Familiaridade com bancos de dados comuns e serviços gerenciados (por exemplo, Postgres, MongoDB, DynamoDB) e como eles falham em sistemas distribuídos. * Experiência com pelo menos duas pilhas de observabilidade (Prometheus/Grafana, New Relic, Splunk, CloudWatch, ELK, etc.) e capacidade de conduzir a padronização entre elas. * Habilidades sólidas em resposta a incidentes, incluindo liderança de retrospectivas/análises pós-incidente e melhoria da confiabilidade por meio de acompanhamento sistemático. * Habilidades sólidas de depuração em sistemas distribuídos e ambientes de produção, incluindo investigações de desempenho e confiabilidade. * Excelentes habilidades de comunicação escrita e verbal, com capacidade de influenciar equipes de engenharia por meio de padrões, ferramentas e orientações práticas. Acreditamos que as melhores ideias e inovações surgem quando estamos juntos. Os funcionários nesta função trabalharão presencialmente quatro dias por semana, com flexibilidade para trabalhar remotamente um dia (sexta-feira). ### **Benefícios** A iCapital oferece um pacote abrangente de benefícios que inclui um programa de remuneração total composto por salário competitivo, bônus anual por desempenho e participação acionária para todos os funcionários em regime integral; assistência médica com cobertura de 100% custeada pelo empregador para saúde e odontologia; e licença remunerada generosa (PTO). Para obter mais informações sobre a iCapital Network, visite https://www.icapitalnetwork.com/about\-us Twitter: @icapitalnetwork \| LinkedIn: https://www.linkedin.com/company/icapital\-network\-inc

Fonte da Informação: indeed Ver publicação original

João Santos

Indeed · HR

Empresa

Indeed

João Santos

Indeed · HR

Vagas semelhantes

Engenheiro de Confiabilidade de Site – Vice-Presidente

Descrição

Empresa

Vagas semelhantes

Operador(a) de Produção- Seixezelo

OPERADOR DE EXPEDIÇÃO/PRODUÇÃO

Construção de edifício

Operador(a) de Produção - Arcozelo

Operadores de CNC (m/f/d) - Neiva, Viana do Castelo

Empregado de sala