Artwork

Content provided by François Paupier. All podcast content including episodes, graphics, and podcast descriptions are uploaded and provided directly by François Paupier or their podcast platform partner. If you believe someone is using your copyrighted work without your permission, you can follow the process outlined here https://player.fm/legal.
Player FM - Podcast App
Go offline with the Player FM app!

#14 Scaler sa réponse à incidents - Le cas Algolia

29:23
 
Share
 

Manage episode 313269700 series 3264488
Content provided by François Paupier. All podcast content including episodes, graphics, and podcast descriptions are uploaded and provided directly by François Paupier or their podcast platform partner. If you believe someone is using your copyrighted work without your permission, you can follow the process outlined here https://player.fm/legal.

Cette semaine-là, Xavier reçoit plus de 80 alertes la nuit. Impossible de dormir correctement. Il y a forcément quelque chose à faire pour sortir les ingénieurs on-call de cette spirale et éviter une alert fatigue. Mais par où commencer ?

Dans cet épisode, on retrace la façon dont Algolia a réorganisé ses efforts de maintenance opérationnelle à mesure que son moteur de recherche gagne en popularité.

Aujourd'hui je reçois Xavier Grand, Software Engineer au sein de l'équipe d'Algolia depuis son incubation à YCombinator en 2014, Xavier est aujourd'hui Manager Search à Algolia.

Nous revenons sur la façon dont Algolia a fait évoluer ses équipes et sa stratégie pour répondre à des outages à mesure que le produit, l'équipe et la codebase prenaient du volume, en particulier :

  • Les 3 étapes clés du chemin parcouru par les équipes tech d'Algolia pour gagner en maturité sur la réponse à incidents 🗝
  • L'importance d'organiser le transfert de connaissances des experts de la codebase vers les nouveaux collaborateurs et comment accompagner les nouveaux venus pour leur premier cycle on-call 🚨📊👩‍💻
  • De l'importance de monitorer les causes et non les symptômes 🤒

Ressources

  continue reading

Chapters

1. Intro - Xavier, son parcours et Algolia en bref (00:00:00)

2. Les 3 étapes vers une stratégie de gestion d'incidents solide (00:04:07)

3. Structurer sa réponse à incidents (00:11:15)

4. Affiner le choix de ses métriques (00:12:33)

5. Le challenge humain - onboarder ses on-call (00:13:53)

6. Des protips pour une équipe souhaitant level up son incident management? (00:20:13)

7. Les prochains jalons (00:21:35)

26 episodes

Artwork
iconShare
 
Manage episode 313269700 series 3264488
Content provided by François Paupier. All podcast content including episodes, graphics, and podcast descriptions are uploaded and provided directly by François Paupier or their podcast platform partner. If you believe someone is using your copyrighted work without your permission, you can follow the process outlined here https://player.fm/legal.

Cette semaine-là, Xavier reçoit plus de 80 alertes la nuit. Impossible de dormir correctement. Il y a forcément quelque chose à faire pour sortir les ingénieurs on-call de cette spirale et éviter une alert fatigue. Mais par où commencer ?

Dans cet épisode, on retrace la façon dont Algolia a réorganisé ses efforts de maintenance opérationnelle à mesure que son moteur de recherche gagne en popularité.

Aujourd'hui je reçois Xavier Grand, Software Engineer au sein de l'équipe d'Algolia depuis son incubation à YCombinator en 2014, Xavier est aujourd'hui Manager Search à Algolia.

Nous revenons sur la façon dont Algolia a fait évoluer ses équipes et sa stratégie pour répondre à des outages à mesure que le produit, l'équipe et la codebase prenaient du volume, en particulier :

  • Les 3 étapes clés du chemin parcouru par les équipes tech d'Algolia pour gagner en maturité sur la réponse à incidents 🗝
  • L'importance d'organiser le transfert de connaissances des experts de la codebase vers les nouveaux collaborateurs et comment accompagner les nouveaux venus pour leur premier cycle on-call 🚨📊👩‍💻
  • De l'importance de monitorer les causes et non les symptômes 🤒

Ressources

  continue reading

Chapters

1. Intro - Xavier, son parcours et Algolia en bref (00:00:00)

2. Les 3 étapes vers une stratégie de gestion d'incidents solide (00:04:07)

3. Structurer sa réponse à incidents (00:11:15)

4. Affiner le choix de ses métriques (00:12:33)

5. Le challenge humain - onboarder ses on-call (00:13:53)

6. Des protips pour une équipe souhaitant level up son incident management? (00:20:13)

7. Les prochains jalons (00:21:35)

26 episodes

All episodes

×
 
Loading …

Welcome to Player FM!

Player FM is scanning the web for high-quality podcasts for you to enjoy right now. It's the best podcast app and works on Android, iPhone, and the web. Signup to sync subscriptions across devices.

 

Quick Reference Guide