#14 Scaler sa réponse à incidents - Le cas Algolia
Manage episode 313269700 series 3264488
Cette semaine-là, Xavier reçoit plus de 80 alertes la nuit. Impossible de dormir correctement. Il y a forcément quelque chose à faire pour sortir les ingénieurs on-call de cette spirale et éviter une alert fatigue. Mais par où commencer ?
Dans cet épisode, on retrace la façon dont Algolia a réorganisé ses efforts de maintenance opérationnelle à mesure que son moteur de recherche gagne en popularité.
Aujourd'hui je reçois Xavier Grand, Software Engineer au sein de l'équipe d'Algolia depuis son incubation à YCombinator en 2014, Xavier est aujourd'hui Manager Search à Algolia.
Nous revenons sur la façon dont Algolia a fait évoluer ses équipes et sa stratégie pour répondre à des outages à mesure que le produit, l'équipe et la codebase prenaient du volume, en particulier :
- Les 3 étapes clés du chemin parcouru par les équipes tech d'Algolia pour gagner en maturité sur la réponse à incidents 🗝
- L'importance d'organiser le transfert de connaissances des experts de la codebase vers les nouveaux collaborateurs et comment accompagner les nouveaux venus pour leur premier cycle on-call 🚨📊👩💻
- De l'importance de monitorer les causes et non les symptômes 🤒
Ressources
- La recommandation de Xavier; Le Google SRE Workbook, excellente ressource (et gratuite) pour animer un club de lecture avec votre équipe et réfléchir ensemble sur des bonnes pratiques transposables dans votre organisation.
- Pour un exemple de blog post mortem d'Algolia, je recommande cet excellent article de blog sur leur gestion de l'attaque Salt en mai 2020.
Chapters
1. Intro - Xavier, son parcours et Algolia en bref (00:00:00)
2. Les 3 étapes vers une stratégie de gestion d'incidents solide (00:04:07)
3. Structurer sa réponse à incidents (00:11:15)
4. Affiner le choix de ses métriques (00:12:33)
5. Le challenge humain - onboarder ses on-call (00:13:53)
6. Des protips pour une équipe souhaitant level up son incident management? (00:20:13)
7. Les prochains jalons (00:21:35)
8. Une reco ? (00:26:00)
26 episodes