Site Reliability Engineer (SRE)
Le Site Reliability Engineer (SRE) est le garant de la disponibilité, de la performance et de la robustesse des systèmes informatiques en production. Sa mission centrale : faire en sorte que les applications et services numériques fonctionnent de manière fiable pour des milliers, voire des millions d'utilisateurs, en combinant des pratiques d'ingénierie logicielle avec des enjeux d'exploitation des systèmes. Il construit des infrastructures résistantes et automatise tout ce qui peut l'être pour éviter les pannes et les interventions manuelles répétitives. Au quotidien, le SRE surveille des tableaux de bord de métriques (via des outils comme Grafana, Prometheus ou Datadog), répond aux alertes en cas d'incident, analyse les causes profondes d'une panne et rédige des post-mortems pour éviter qu'elle ne se reproduise. Il écrit des scripts et des pipelines d'automatisation en Python, Go ou Bash, gère des environnements cloud (AWS, GCP, Azure), orchestre des conteneurs avec Kubernetes et collabore étroitement avec les équipes de développement pour intégrer la fiabilité dès la conception des applications. Ses journées oscillent entre résolution de problèmes urgents et travaux de fond visant à améliorer la stabilité sur le long terme. Ce métier convient particulièrement aux profils qui aiment résoudre des énigmes complexes sous pression, qui trouvent une satisfaction profonde dans l'automatisation et l'optimisation, et qui savent garder leur calme lors d'incidents critiques. Curieux, rigoureux et à l'aise avec l'incertitude, ils apprécient autant le travail en équipe pluridisciplinaire que les phases de concentration solitaire sur un problème technique ardu.
Débutant
60 k€
/ an
✨ estimation
Confirmé
90 k€
/ an
✨ estimation
Senior
120 k€
/ an
✨ estimation
Compétences clés
Formations recommandées
BTS Services Informatiques aux Organisations (SIO)
BUT Informatique parcours Administration et Sécurité des Systèmes et des Réseaux
Licence Professionnelle Administration et Sécurité des Réseaux
Master Informatique spécialité Architecture des Systèmes d'Information / Cloud Computing
Diplôme d'ingénieur spécialité Informatique / Réseaux et Systèmes
Formations pour devenir Site Reliability Engineer (SRE)
Générées par IA · parcours recommandés en France
Une journée type
9h – Daily stand-up avec l'équipe SRE : revue des incidents de la nuit, état des alertes et des error budgets
9h30 – Analyse post-mortem d'un incident de production survenu la veille, rédaction du document blameless post-mortem
11h – Développement d'un runbook automatisé en Python pour remédier à un scénario de saturation mémoire récurrent
14h – Revue de code d'un module Terraform soumis par l'équipe développement, vérification des bonnes pratiques de résilience
16h – Travail sur l'amélioration des dashboards Grafana et ajustement des seuils d'alerte Prometheus pour réduire le bruit