




Resumo: Projetar e desenvolver o plano de controle da plataforma para gerenciar infraestrutura em nuvem GPU e cargas de trabalho de IA distribuídas, com foco em serviços centrais de orquestração. Pontos de destaque: 1. Projetar e desenvolver serviços de plano de controle de infraestrutura em nuvem GPU. 2. Construir sistemas distribuídos para orquestrar clusters GPU em múltiplas regiões. 3. Definir decisões técnicas de projeto e garantir a confiabilidade da plataforma. **Localização e modalidade de trabalho:** EMEA / Remoto **Início:** Ago 2026 **Tipo de contrato:** Prestador de serviços ou empregado CLT **Sobre a Radian Arc.** A Radian Arc fornece uma plataforma de infraestrutura como serviço (IaaS) para executar aplicações de jogos na nuvem, inteligência artificial e aprendizado de máquina dentro das redes de operadoras de telecomunicações. Nossas equipes nos Estados Unidos, Austrália, Europa Central, Malásia, Cingapura e Japão oferecem às operadoras de telecomunicações uma plataforma de computação de borda baseada em GPU, sem necessidade de despesas de capital, facilitando baixa latência e melhor economia para serviços de valor agregado e monetização dos investimentos em 5G. **Impacto que você terá** Projetar e desenvolver o plano de controle da plataforma responsável por gerenciar infraestrutura em nuvem GPU e cargas de trabalho de IA distribuídas. Esta posição concentra-se na construção de serviços centrais de orquestração que provisionam, gerenciam e coordenam recursos de computação, rede e armazenamento em clusters globais de GPU. O Engenheiro de Software Sênior projetará e implementará sistemas distribuídos que alimentam o plano de controle da plataforma, permitindo a orquestração confiável de clusters Kubernetes, cargas de trabalho GPU e infraestrutura multi-inquilino. Você construirá APIs, serviços e operadores nativos do Kubernetes que automatizam o gerenciamento do ciclo de vida da infraestrutura e fornecem os primitivos necessários para executar cargas de trabalho de IA em larga escala em múltiplas regiões. Esta função trabalha em estreita colaboração com as equipes de plataforma, rede, armazenamento e infraestrutura para garantir que o plano de controle se integre perfeitamente à infraestrutura subjacente de GPU, às malhas de rede e aos sistemas de armazenamento desagregados. O foco está em entregar, de forma independente, principais componentes do plano de controle, resolver problemas complexos de sistemas distribuídos e orquestração, e melhorar a confiabilidade e operabilidade da plataforma dentro da direção estratégica mais ampla da plataforma. **O que você fará** **Desenvolvimento do Plano de Controle da Plataforma** * Projetar e desenvolver os serviços do plano de controle da plataforma responsáveis por gerenciar a infraestrutura em nuvem GPU. * Implementar APIs e serviços que orquestrem recursos de computação, rede e armazenamento. * Construir serviços distribuídos responsáveis pelo gerenciamento do ciclo de vida dos clusters e pela orquestração da infraestrutura. * Implementar sistemas confiáveis de gerenciamento de estado para componentes distribuídos de infraestrutura. **Integração com a Plataforma Kubernetes** * Desenvolver operadores e controladores Kubernetes que automatizem a infraestrutura da plataforma. * Implementar APIs de ciclo de vida de clusters responsáveis por: * Provisionamento de clusters, * Atualizações de clusters, * Gerenciamento do ciclo de vida de nós. * Automação de infraestrutura. * Integrar serviços da plataforma com planos de controle Kubernetes executados em infraestrutura bare-metal. **Orquestração de Infraestrutura de IA** * Desenvolver frameworks de orquestração que gerenciem cargas de trabalho GPU em clusters distribuídos. * Implementar serviços da plataforma que otimizem o agendamento e a utilização de recursos para cargas de trabalho de IA. * Integrar o plano de controle da plataforma com componentes tais como: * NVIDIA GPU Operator, * KServe, * Argo Workflows, * Integração com SLURM, * Virtualização KubeVirt. **Engenharia de Sistemas Distribuídos** * Construir sistemas distribuídos que coordenem cargas de trabalho em clusters GPU em múltiplas regiões. * Implementar serviços capazes de lidar com cargas de trabalho de orquestração de infraestrutura de alta vazão. * Projetar mecanismos escaláveis para gerenciamento de estado distribuído e coordenação. * Contribuir com entradas práticas de projeto para componentes da plataforma. **Confiabilidade e Operações** * Projetar sistemas para alta disponibilidade e tolerância a falhas. * Implementar observabilidade, monitoramento e alertas para serviços da plataforma. * Participar na resposta a incidentes e em rodízios de plantão para sistemas da plataforma. * Realizar análise de causa-raiz e implementar melhorias sistêmicas para a confiabilidade da plataforma. **Excelência em Engenharia** * Definir decisões técnicas de projeto para componentes da plataforma. * Manter altos padrões de testes, CI/CD e segurança operacional. * Participar em discussões arquitetônicas, revisões de código e projeto de sistemas. * Contribuir com padrões repetíveis, qualidade de implementação e maturidade operacional no domínio de software da plataforma. **Pilha Tecnológica** Desenvolvimento da Plataforma * Go. * Controladores / operadores Kubernetes. * Arquitetura de sistemas distribuídos. * APIs REST / gRPC. Infraestrutura da Plataforma * Kubernetes. * Helm. * Fluxos de trabalho GitOps. Componentes da Plataforma de IA * NVIDIA GPU Operator. * KServe * Argo Workflows. * Integração com SLURM * KubeVirt. Integração de Armazenamento * Armazenamento distribuído Weka * Armazenamento desagregado VAST * HCI StorPool * Drivers CSI Observabilidade * Prometheus * Grafana * OpenTelemetry **O que você precisará** Experiência Principal * 5+ anos de experiência na construção de sistemas distribuídos ou plataformas de infraestrutura. * Forte experiência em programação em Go. * Experiência no desenvolvimento de operadores e controladores Kubernetes. Engenharia de Plataforma Kubernetes * Profundo entendimento dos componentes internos do Kubernetes e da arquitetura do seu plano de controle. * Experiência na construção de automação de infraestrutura em torno do Kubernetes. * Familiaridade com ambientes Kubernetes multi-inquilino. Sistemas Distribuídos * Experiência no projeto e operação de sistemas distribuídos em larga escala. * Compreensão do gerenciamento de estado distribuído e da coordenação de serviços. * Experiência na construção de serviços de infraestrutura confiáveis e altamente disponíveis. Conhecimento de Infraestrutura e Sistemas * Conhecimento sólido de sistemas Linux. * Experiência na solução de problemas em sistemas produtivos complexos. * Compreensão da infraestrutura de rede e armazenamento utilizada por sistemas distribuídos. Excelência Operacional * Experiência na operação de sistemas produtivos de alta disponibilidade. * Familiaridade com ferramentas de observabilidade, tais como Prometheus e Grafana. * Experiência na participação em rodízios de plantão e resposta a incidentes. Atributos Pessoais * Fortes habilidades analíticas e de resolução de problemas. * Excelentes habilidades de comunicação e colaboração. * Paixão por construir sistemas de infraestrutura confiáveis em larga escala. **O que oferecemos** * Pacote remuneratório atrativo, refletindo sua especialização e experiência. * Um excelente ambiente de trabalho caracterizado por amabilidade, diversidade internacional, flexibilidade e abordagem favorável ao modelo híbrido. * Você fará parte de uma scale-up em rápido crescimento com uma missão de gerar impacto positivo, oferecendo uma evolução de carreira emocionante. Nossos títulos de cargo podem abranger mais de um nível profissional. O salário-base efetivo depende de diversos fatores, tais como competências transferíveis, experiência profissional, necessidades do negócio e demandas do mercado. **Nossa responsabilidade inclusiva** A Radian Arc está comprometida em criar um ambiente diverso e inclusivo e tem orgulho de ser uma empregadora que oferece igualdade de oportunidades. Todos os candidatos qualificados receberão consideração para contratação, independentemente de raça, cor, religião, gênero, identidade ou expressão de gênero, orientação sexual, origem nacional, genética, deficiência, idade, status de veterano ou qualquer outra categoria protegida pela legislação aplicável.


