La team Engineering s’agrandit et recherche son/sa futur·e Site Reliability Engineer 👋
Batch est une Customer Engagement Platform (CEP) destinée aux grandes entreprises du secteur B2C (retail, médias, luxe, banques, services) avec des millions de profils clients. Elle permet aux équipes marketing de recueillir et d’unifier la donnée client partout où elle se trouve via des APIs et des SDKs, de communiquer nativement via tous les canaux (Email, Push Notifications Mobile et Web, SMS, Messages In-App) et de se connecter facilement aux autres plateformes MarTech (CDPs, Analytics, etc.).
L'Engineering chez Batch est organisée en squads: 3 squads métiers, 1 squad Infra et 1 squad Platform.
Le/la Site Reliability Engineer aura pour mission de construire, de maintenir et d’améliorer de façon continue notre plateforme.
Quelques informations sur notre infrastructure :
- 80% du footprint de l’infrastructure est distribué sur des serveurs Bare Metal
- Aucune délégation de nos services "régalien": Nos clusters de bases de données, plateforme de compute (Kubernetes), services de support (logging, monitoring, alerting ...) sont déployés et maintenus par l'équipe Infra.
👉 Missions
Maintenir les systèmes distribués et infrastructures sous jacentes et participer à leurs évolutions
- Observer, analyser et suivre le comportement des systèmes distribués de notre infrastructure afin de proposer des modifications à apporter pour en optimiser notre usage ;
- Suivre les changements et nouveautés des systèmes distribués & participer à leur évaluation et leur intégration dans notre stack technique ;
- Participer aux diverses tâches quotidiennes permettant le maintien de l’infrastructure et proposer des façons d’automatiser les tâches récurrentes ;
- Participer à l’élaboration de la roadmap technique de l’équipe Infra ;
- Participer, avec le reste de l’équipe technique, à l’architecture des nouvelles fonctionnalités.
La stack infra
Du fait de notre choix d’opérer notre propre infrastructure, de nombreux fondamentaux systèmes, doublés d’une volonté d’automatiser pour assurer la montée en charge :
Réseau : BGP, Routing avancé, VPN, NAT, Quagga, nftables
Stack : HAProxy, Debian, Kubernetes, Cilium, DirectPV, KeaDHCP, Docker, Kafka, etcd, Cassandra, MariaDB, Clickhouse, Redis, Proxmox, Consul, Traefik
IAC : Ansible, Pulumi, Terraform, ArgoCD
Monitoring : VictoriaMetrics, Tempo, Grafana, AlertManager