👉 Contexte
Nous sommes à la recherche d’un SRE pour renforcer l’équipe technique de notre client et accompagner la montée en puissance de sa plateforme e-commerce.
Ce rôle stratégique implique une vision globale de l’architecture, une forte sensibilité sécurité, ainsi qu’une capacité à intervenir rapidement et efficacement sur les incidents tout en améliorant la résilience
📍🏠 Mission en full télétravail (depuis la France)
⏳ Mission longue, contrats de 6 mois renouvelables
📆 Début de mission : ASAP
❌ Freelance uniquement, pas d’ESN
🚀 Missions principales
Gestion de la fiabilité et réponse à incident :
• Suivre les budgets d’erreur et arbitrer avec les équipes produit : pas de nouvelles features si la fiabilité est en danger.
• Être en première ligne sur les incidents
• Coordonner la réponse (diagnostic, communication, mitigation).
• Rédiger et animer les post-mortems, identifier les causes racines et mettre en place des correctifs systémiques.
Capacité, Performance et Sécurité :
• Planifier la capacité (scaling horizontal/vertical).
• Effectuer des tests de charge, de résilience et du chaos engineering.
• Anticiper les goulets d’étranglement.
• Optimiser les coûts de l’infrastructure
• Veiller à ce que l’infrastructure respecte les standards en matière de sécurité
Build :
• Éliminer les tâches récurrentes par des scripts, pipelines, auto-healing.
• Construire des mécanismes de déploiement et de rollback sécurisés et fiables.
• Optimiser le Disaster Recovery Plan en collaboration avec l’équipe platform engineering
Observabilité & excellence opérationnelle :
• Maintenir et améliorer la stack d’observability basée sur OTEL et Elastic.
• Développer de nouvelles metrics et renforcer l’observabilité globale.
• Améliorer les temps de détection (MTTD) et de résolution (MTTR).
• Garantir que les déploiements respectent les standards de fiabilité.
• Mise en place de process de déploiement fiables (blue/green, canary releases, progressive delivery).
Culture & pratiques :
• Former les devs à la responsabilité de la production, tout en restant gardien de la fiabilité.
• Instaurer une approche “reliability-first” dans la roadmap.
• Former et accompagner les équipes internes dans la prise en main des outils.
• Rédaction et mise à jour de la documentation relative à l’infrastructure, aux processus et aux meilleures pratiques pour faciliter le partage des connaissances et l’intégration des nouveaux membres de l’équipe.
🥋 Profil recherché :
Techniques :
• Maîtrise des environnements Cloudflare, Elastic, CI/CD (Github ou équivalent), Terraform ou autre IaC.
• Solides compétences en sécurité applicative.
• Bonnes bases en observabilité, monitoring et métriques.
• Expérience sur stack JS
Transverses :
• Capacité à documenter et formaliser (ADR, guidelines)
• Pédagogie et accompagnement des équipes
• Capacité d’analyse et de debugging dans une architecture distribuée
• Langages & environnements appréciés : TypeScript, Nuxt, C#, Azure, GCP, Elastic, outils CI/CD, solutions de monitoring.
• Expérience au sein d’un univers e-commerce et/ou retail