In Post Mortem, engineers reflect on real-life incidents of IT systems they experienced. In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened and how the people behind those systems solved the situation. Along the way, you'll get hands-on advice shared by experienced practitioners that you can implement within your team to limit the risk of such incidents.
…
continue reading
1
#24 The New Face of Conflict: AI in Warfare with COL ANTAL
1:00:20
1:00:20
Play later
Play later
Lists
Like
Liked
1:00:20
In this episode of the Post Mortem podcast, we dive deep into the impact of artificial intelligence in modern warfare with retired Colonel John Antal. With over 30 years of experience in the US Army and a prolific career as an author and software industry expert, COL Antal shares his insights into the future of warfare. We explore the concept of de…
…
continue reading
1
#23 D'entrepreneur à investisseur - le parcours de Philippe Laval
55:40
55:40
Play later
Play later
Lists
Like
Liked
55:40
Dans l’épisode #23 du podcast Post Mortem, je reçois Philippe Laval, ingénieur & fondateur de plusieurs entreprises dont SINEQUA, Philippe est aujourd’hui CTO à Jolt Capital, un fonds d’investissement dans la DeepTech en Europe. Dans la tech, les parcours de carrières pour les ingénieurs logiciels se distinguent souvent en deux voies proposées en e…
…
continue reading
1
#22 L'évolution de la boîte à outils du Data Scientist
31:18
31:18
Play later
Play later
Lists
Like
Liked
31:18
Dans l’épisode #22 du podcast Post Mortem, je reçois Alex Combessie. Alex est co-fondateur et CEO de Giskard – une solution d’évaluation de modèles d’IA. Avec Alex, on revient sur les différentes prises de consciences qui ont touché les équipes data autour de la mise en production de projets IA. On s’interroge également sur la disponibilité de l’ou…
…
continue reading
1
#21 L'investigation d'incidents cyber avec Thomas et François de Defants
24:20
24:20
Play later
Play later
Lists
Like
Liked
24:20
La cybersécurité est un domaine ingrat. Le défenseur doit s’assurer que l’ensemble de son système est sécurisé, là où l’attaquant a besoin d’une unique faille pour atteindre son objectif. La gestion d’incident cyber implique de collecter et d’analyser minutieusement les journaux des différentes applications et serveurs, comment faire pour s’assurer…
…
continue reading
1
#20 Comment Arte a réinventé la VoD en Europe
27:54
27:54
Play later
Play later
Lists
Like
Liked
27:54
Nous sommes en 2007 ; Alors que Steve Jobs annonce le premier iPhone, la chaîne franco-allemande se lance déjà dans le replay avec Arte+7. Fast-forward 10 ans, et c’est un service de VoD complet - Arte.tv - qui offre un catalogue de contenu et une proposition de valeur qui n’a pas à rougir des mastodontes américains. - Comment expliquer cette trans…
…
continue reading
Le Department of Defense américain, c’est plus de 2.9 millions de personnels dont plus de 320 000 personnels à l’U.S. Air Force. Déployer et maintenir du logiciel opérationnel à cette échelle - dans un contexte de compétition international grandissante - nécessite de pouvoir ajuster rapidement ses priorités, de prototyper et déployer des solutions …
…
continue reading
En une semaine, une crypto monnaie censée assurer la parité avec le dollar ne vaut plus que quelques centimes. Ce sont 2 des tops 10 projets de l’écosystème crypto qui s’écroulent sous les yeux des investisseurs voyant leurs réserves en asset « stable » fondre. - Commente expliquer la chute des deux projets phares de l’écosystème Terra ? Dans l’épi…
…
continue reading
1
#17 Incident BGP chez Facebook & OVH
1:03:59
1:03:59
Play later
Play later
Lists
Like
Liked
1:03:59
En octobre dernier, Facebook était indisponible plusieurs heures durant. Le même mois, l’hébergeur français OVH a également subit un incident. Leur point commun ? BGP. Le Border Gateway Protocol. Dans cet épisode #17 de Post Mortem, Stéphane Bortzmeyer nous fait découvrir les coulisses d’internet. Là où le « cloud », le « serverless » se fracasse à …
…
continue reading
Steve Withey, Principal Software Engineer @ ASOS, walks us through the journey ASOS tech teams followed towards adopting a blameless postmortem culture. In today's episode, we cover: What motivated this transition towards a blameless PM culture and how it happened; How to drive the cultural change among your team to make this blameless approach wor…
…
continue reading
1
#15 Le ML Ops pour accélérer l’innovation, de la R&D à la production
15:43
15:43
Play later
Play later
Lists
Like
Liked
15:43
Ils ont fait x4 en effectif en moins de 2 ans et ont recruté plus de 60 Data Scientists. Preligens est une scale-up proposant des solutions logicielles dans le domaine de la défense et a connu une croissance fulgurante ces deux dernières années. Aujourd’hui, je reçois Marie-Caroline Corbineau, Data Scientist au sein de l’équipe R&D de Preligens pou…
…
continue reading
1
#14 Scaler sa réponse à incidents - Le cas Algolia
29:23
29:23
Play later
Play later
Lists
Like
Liked
29:23
Cette semaine-là , Xavier reçoit plus de 80 alertes la nuit. Impossible de dormir correctement. Il y a forcément quelque chose à faire pour sortir les ingénieurs on-call de cette spirale et éviter une alert fatigue. Mais par où commencer ? Dans cet épisode, on retrace la façon dont Algolia a réorganisé ses efforts de maintenance opérationnelle à mes…
…
continue reading
Quelle interface choisir pour les utilisateurs de mon site ? Le nouveau système de recommandation de mon application a-t-il un impact ? Pour qui ? Un test AB permet de comparer deux variantes afin d’identifier la plus efficace pour l’objectif recherché. Aujourd’hui, je reçois Cyril De Catheu, Data Engineer @ AB Tasty pour discuter des dessous d’une…
…
continue reading
1
#12 Comment Google anonymise vos données personnelles avec la Differential Privacy
38:30
38:30
Play later
Play later
Lists
Like
Liked
38:30
Des emojis les plus populaires sur iOS à l'affluence dans votre boutique préférée sur Google Maps; comment ces informations sont obtenues? Et quelles garanties peut-on avoir quant à la préservation de l'anonymat des utilisateurs? Dans ce Post Mortem thématique, le Docteur Damien Desfontaines - Senior Software Engineer, Privacy pour Google nous parl…
…
continue reading
1
#11 Prédiction de retards à la SNCF 🚉
35:48
35:48
Play later
Play later
Lists
Like
Liked
35:48
Tous les jours, des millions de voyageurs prennent le train sur le réseau SNCF, mais parfois, un train subit un retard. Aujourd'hui je reçois Héloïse Nonne, Head of Data Science & Engineering @ eSNCF, pour comprendre comment ce problème est adressé en interne pour améliorer l'information voyageurs. Après avoir présenté les spécificités d'un projet …
…
continue reading
1
#10 Competitive Data Science Vs Réalité business
19:19
19:19
Play later
Play later
Lists
Like
Liked
19:19
Les plateformes de Data Science comme Kaggle permettent de découvrir des jeux de données variés et de se tester face à d'autres compétiteurs. Plus votre modèle performe, meilleur est votre classement sur le leaderboard. Avec des jeux de données "curated" et des métriques à optimiser définies dès le début, le setup d'un Kaggle est souvent bien diffé…
…
continue reading
1
#9 Avalanche de requêtes et effets de bords mystérieux
22:37
22:37
Play later
Play later
Lists
Like
Liked
22:37
Les fêtes de fin d’années sont synonymes de pics d’activités pour le e-commerce. Alors comment réagir quand on se rend compte qu’un incident se profile à l’horizon du moment le plus business critique de l’année ? Une conversation avec Théo Carrive, CTO de Cheerz. Concepts mentionnés: La commande EXPLAIN de PostgreSQL pour obtenir le plan d’exécutio…
…
continue reading
1
#8 When the facts change, I change my model
23:28
23:28
Play later
Play later
Lists
Like
Liked
23:28
"When the Facts Change, I Change My Mind. What Do You Do, Sir?" disait JM Keynes. L’économiste soulignait alors l’importance de réajuster ses a priori et sa représentation du monde lorsqu'on on est confronté à de nouveaux éléments. C’est la même chose lorsqu’on entraîne un modèle de machine learning et qu’on le déploie. Les données que l’on va renc…
…
continue reading
Action items resulting from a postmortem analysis are often to implement more advanced monitoring or deploy new tools to track usage at a fine-grain level. Today, Timothy Raymond shows us that a good old checklist can sometimes be the most efficient way to prevent regressions in production. Some concepts mentioned in the episode: Roadblocking in ad…
…
continue reading
1
#6 Monitor early,  fix bugs early 🇫🇷
26:33
26:33
Play later
Play later
Lists
Like
Liked
26:33
Loïc Carbonne, VP Engineering @ Theodo, nous partage son expérience sur la réduction du lead time de résolution des incidents. Au travers des leçons apprises lors du développement d’applications web, Loïc nous propose des outils et méthodes pour s’organiser afin: 1) d’identifier plus rapidement les bugs 2) et de réduire leur temps de résolution. En…
…
continue reading
1
#5 Autoscaling lag et gestion des incidents chez Doctolib 🇫🇷
33:08
33:08
Play later
Play later
Lists
Like
Liked
33:08
Benoit Lafontaine, Engineering Director chez Doctolib, nous partage le post mortem d’un incident récent dû à une évolution soudaine de la charge sur la partie patient de leur service. Malgré une architecture d’auto-scaling déjà en place, le service a été dégradé quelques minutes. Benoît revient également sur la façon dont les incidents sont gérés c…
…
continue reading
1
#4 La divulgation de vulnérabilités, théorie et pratique 🇫🇷
36:14
36:14
Play later
Play later
Lists
Like
Liked
36:14
Que faire lorsque l'on rencontre une vulnérabilité dans un produit ou un service numérique? On explore avec Rayna Stamboliyska (Twitter: @MaliciaRogue) le rôle de la divulgation coordonnée de vulnérabilités; en quoi celle-ci permet de fluidifier la remontée des vulnérabilités et offre un compromis intéressant pour préserver la sécurité des utilisat…
…
continue reading
1
#3 La Data Science dans les grands groupes, avec Ouriel Bettach 🇫🇷
28:24
28:24
Play later
Play later
Lists
Like
Liked
28:24
Ouriel Bettach, Data Scientist depuis plus de 6ans, nous propose un panorama de ses expériences au sein de grands groupes industriels sur des projets de machine learning (ML). On en profite pour faire le bilan sur la façon dont les grands groupes approchent des projets ML et d’évoquer les points bloquants récurrents dans ces projets, avant d’ouvrir…
…
continue reading
Wi-Fi Protected Access 3 (WPA3) est destiné à remplacer WPA 2 - en service depuis 2004 - en rendant presque impossible de craquer le mot de passe d'un réseau. Problème, des chercheurs ont révélé qu'un attaquant peut exploiter des failles dans les implémentations existantes de WPA 3 pour récupérer le mot de passe de la victime. Dans cet épisode, Moh…
…
continue reading
In Post Mortem, we have engineers coming back on real-life incidents of IT systems. In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened, how the people behind those systems solved the situation. Along the way, …
…
continue reading
C’est quoi un « post mortem » ? Dans cet épisode je définis le thème du podcast, on y partage des retours d’expériences sur des incidents survenus dans des systèmes informatique. Un post mortem, d’après Wikipédia, c’est un process que l’on réalise à la fin d’un projet pour analyser ce qui a fonctionné et ce qui a moins bien marché dans un projet. L…
…
continue reading
Nicolas walks us through a challenging service migration he experienced at Criteo, a personalized retargeting company. A Windows to Linux server migration was on the way for several months already when they realized that the logging backend they used was not working as expected under Linux and failed to collect metrics. Problem: By that time, 95% o…
…
continue reading