




Resumo: A Arcesium procura um Engenheiro Sênior de Confiabilidade de Sites altamente qualificado e versátil para garantir a estabilidade, confiabilidade e disponibilidade de aplicações de produção críticas para a missão, em um ambiente de alto impacto e ritmo acelerado. Pontos de destaque: 1. Oportunidade de gerar um impacto direto em operações críticas para os negócios 2. Desenvolver-se sob pressão em um ambiente de alta relevância, voltado para a resolução de problemas 3. Acelerar o desenvolvimento profissional desde o primeiro dia **Visão geral da empresa** -------------------- A Arcesium é uma empresa global de tecnologia financeira que resolve desafios complexos orientados por dados, enfrentados por algumas das instituições financeiras mais sofisticadas do mundo. Inovamos constantemente em nossa plataforma e capacidades para atender aos desafios do futuro, antecipar os riscos encontrados por nossos clientes e projetar soluções avançadas que ajudem nossos clientes a alcançar resultados transformadores nos negócios. A tecnologia financeira é um setor de alto crescimento, pois mudanças e inovações continuam a perturbar o status quo e impulsionar grandes transformações. A Arcesium encontra-se em um momento particularmente interessante de seu próprio crescimento, buscando aproveitar sua posição consolidada no mercado e expandir suas operações na busca por novas oportunidades estratégicas de negócios. Valorizamos a curiosidade intelectual, a propriedade proativa e a colaboração com colegas, e capacitamos você para contribuir de forma significativa desde o primeiro dia e acelerar seu desenvolvimento profissional. **Sobre a função e a equipe** Procuramos um Engenheiro Sênior de Confiabilidade de Sites (SRE) inteligente, versátil e altamente qualificado para integrar nossa equipe de Engenharia de Confiabilidade de Sites da Plataforma (PSRE). Essa equipe desempenha um papel crítico ao garantir a estabilidade, confiabilidade e disponibilidade de aplicações de produção críticas para a missão na plataforma Arcesium. A **equipe PSRE** é responsável por: * Observabilidade, monitoramento, registro de logs e rastreamento para detecção e prevenção proativas de problemas. * Construção de ferramentas e infraestrutura que aprimorem a estabilidade e a resiliência dos sistemas. * Solução de problemas em ambientes de produção ativos, com foco profundo na resolução rápida de incidentes. * Governança, declaração, gerenciamento e recuperação de incidentes abrangentes da plataforma, visando minimizar tempo de inatividade e impacto nos negócios. Como SRE nessa equipe de alto impacto, você trabalhará sob prazos rigorosos em um ambiente de alta pressão, onde cada segundo conta na resolução de incidentes críticos de produção. Isso significa que você deve ser capaz de pensar rapidamente, possuir forte capacidade analítica e agir de forma proativa para prevenir e resolver interrupções. **O que você fará:** * **Gestão de incidentes:** Atuar como contato principal e líder para incidentes e questões críticas que afetem nossa plataforma durante o horário comercial de Nova York. Assumir a responsabilidade pelos incidentes, conduzir uma comunicação eficaz e facilitar uma resolução ágil por meio da colaboração com as equipes de engenharia relevantes. * **Monitoramento e análise proativos:** Monitorar continuamente a saúde e o desempenho de nossas aplicações e infraestrutura. Analisar tendências, identificar riscos potenciais e implementar medidas proativas para prevenir incidentes e melhorar a confiabilidade geral do sistema. * **Solução de problemas e resolução de falhas:** Diagnosticar problemas técnicos complexos em diversas camadas da pilha (aplicação, infraestrutura, rede). Utilizar suas habilidades analíticas e conhecimentos técnicos para identificar causas-raiz e implementar soluções eficazes. * **Colaboração e comunicação:** Trabalhar em estreita colaboração com equipes de engenharia, desenvolvimento e operações para garantir uma colaboração perfeita durante a resposta a incidentes e em iniciativas proativas de confiabilidade. Comunicar-se de forma eficaz com partes interessadas em todos os níveis, fornecendo atualizações claras e concisas sobre incidentes e o status do sistema. * **Automação e otimização:** Identificar oportunidades para automatizar tarefas, melhorar a eficiência operacional e aumentar a resiliência de nossos sistemas. Desenvolver ferramentas e scripts conforme necessário para simplificar processos e reduzir intervenções manuais. * **Melhoria contínua:** Contribuir para o desenvolvimento e aprimoramento contínuos de nossas práticas, ferramentas e processos de SRE. Compartilhar seus conhecimentos e especialização com a equipe para fomentar uma cultura de aprendizado e crescimento. **O que procuramos:** * Até 5 anos de experiência em uma função de **Engenharia de Confiabilidade de Sites (SRE), DevOps ou Engenharia de Produção**, com sólida compreensão dos princípios e melhores práticas de SRE. * Experiência em gestão de incidentes, incluindo triagem, escalonamento e resolução de interrupções de alta gravidade. * Domínio de pelo menos uma linguagem de programação (Python ou Java) para automação e depuração. * Experiência prática com Kubernetes (K8s) para gerenciar e orquestrar aplicações em contêineres. * Experiência em nuvem (AWS preferencialmente), com exposição a serviços essenciais como EC2, S3, Lambda e CloudWatch. * Excelentes habilidades de comunicação para articular de forma eficaz desafios técnicos e soluções. * Fortes habilidades de solução de problemas e diagnóstico, com experiência em identificar causas de falhas complexas em produção. * Capacidade de manter a calma sob pressão, realizar múltiplas tarefas e priorizar com eficácia em ambientes dinâmicos. * Fluência em inglês (falado e escrito) é obrigatória. * É necessário ter o direito legal para trabalhar no país. **Habilidades desejáveis (mas não obrigatórias):** * Experiência com Terraform ou CloudFormation para infraestrutura como código. * Experiência com ferramentas de monitoramento (ex.: Datadog, Prometheus, Grafana) * Familiaridade com arquiteturas de aplicações web e boas práticas. * Exposição a pipelines CI/CD e fluxos de trabalho DevOps. **Por que se juntar a nós?** Esta não é uma função típica de SRE — **esta é uma função que impacta diretamente operações críticas para os negócios**. Se você **desenvolve-se sob pressão, possui mentalidade voltada à resolução de problemas e gosta de trabalhar em um ambiente de alta relevância**, este é o lugar certo para você. **Pronto para fazer a diferença? Candidate-se agora!** *A Arcesium e suas afiliadas não discriminam em questões de emprego com base em raça, cor, religião, gênero, identidade de gênero, gravidez, origem nacional, idade, elegibilidade para serviço militar, condição de veterano, orientação sexual, estado civil, deficiência ou qualquer outra categoria protegida por lei. Observe que, para nós, isso vai além de uma cláusula jurídica padrão. Estamos genuinamente comprometidos com esses princípios, que constituem uma parte importante de nossa cultura corporativa, e estamos ansiosos para receber candidaturas de indivíduos extraordinariamente qualificados, com uma ampla variedade de origens e características pessoais.*


