François Paupier public
[search 0]
More
Download the App!
show episodes
 
Artwork

1
Post Mortem

François Paupier

Unsubscribe
Unsubscribe
Monthly
 
In Post Mortem, engineers reflect on real-life incidents of IT systems they experienced. In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened and how the people behind those systems solved the situation. Along the way, you'll get hands-on advice shared by experienced practitioners that you can implement within your team to limit the risk of such incidents.
  continue reading
 
Loading …
show series
 
In this episode of the Post Mortem podcast, we dive deep into the impact of artificial intelligence in modern warfare with retired Colonel John Antal. With over 30 years of experience in the US Army and a prolific career as an author and software industry expert, COL Antal shares his insights into the future of warfare. We explore the concept of de…
  continue reading
 
Dans l’épisode #23 du podcast Post Mortem, je reçois Philippe Laval, ingénieur & fondateur de plusieurs entreprises dont SINEQUA, Philippe est aujourd’hui CTO à Jolt Capital, un fonds d’investissement dans la DeepTech en Europe. Dans la tech, les parcours de carrières pour les ingénieurs logiciels se distinguent souvent en deux voies proposées en e…
  continue reading
 
Dans l’épisode #22 du podcast Post Mortem, je reçois Alex Combessie. Alex est co-fondateur et CEO de Giskard – une solution d’évaluation de modèles d’IA. Avec Alex, on revient sur les différentes prises de consciences qui ont touché les équipes data autour de la mise en production de projets IA. On s’interroge également sur la disponibilité de l’ou…
  continue reading
 
La cybersécurité est un domaine ingrat. Le défenseur doit s’assurer que l’ensemble de son système est sécurisé, là où l’attaquant a besoin d’une unique faille pour atteindre son objectif. La gestion d’incident cyber implique de collecter et d’analyser minutieusement les journaux des différentes applications et serveurs, comment faire pour s’assurer…
  continue reading
 
Nous sommes en 2007 ; Alors que Steve Jobs annonce le premier iPhone, la chaîne franco-allemande se lance déjà dans le replay avec Arte+7. Fast-forward 10 ans, et c’est un service de VoD complet - Arte.tv - qui offre un catalogue de contenu et une proposition de valeur qui n’a pas à rougir des mastodontes américains. - Comment expliquer cette trans…
  continue reading
 
Le Department of Defense américain, c’est plus de 2.9 millions de personnels dont plus de 320 000 personnels à l’U.S. Air Force. Déployer et maintenir du logiciel opérationnel à cette échelle - dans un contexte de compétition international grandissante - nécessite de pouvoir ajuster rapidement ses priorités, de prototyper et déployer des solutions …
  continue reading
 
En une semaine, une crypto monnaie censée assurer la parité avec le dollar ne vaut plus que quelques centimes. Ce sont 2 des tops 10 projets de l’écosystème crypto qui s’écroulent sous les yeux des investisseurs voyant leurs réserves en asset « stable » fondre. - Commente expliquer la chute des deux projets phares de l’écosystème Terra ? Dans l’épi…
  continue reading
 
En octobre dernier, Facebook était indisponible plusieurs heures durant. Le même mois, l’hébergeur français OVH a également subit un incident. Leur point commun ? BGP. Le Border Gateway Protocol. Dans cet épisode #17 de Post Mortem, Stéphane Bortzmeyer nous fait découvrir les coulisses d’internet. Là où le « cloud », le « serverless » se fracasse à…
  continue reading
 
Steve Withey, Principal Software Engineer @ ASOS, walks us through the journey ASOS tech teams followed towards adopting a blameless postmortem culture. In today's episode, we cover: What motivated this transition towards a blameless PM culture and how it happened; How to drive the cultural change among your team to make this blameless approach wor…
  continue reading
 
Ils ont fait x4 en effectif en moins de 2 ans et ont recruté plus de 60 Data Scientists. Preligens est une scale-up proposant des solutions logicielles dans le domaine de la défense et a connu une croissance fulgurante ces deux dernières années. Aujourd’hui, je reçois Marie-Caroline Corbineau, Data Scientist au sein de l’équipe R&D de Preligens pou…
  continue reading
 
Cette semaine-là, Xavier reçoit plus de 80 alertes la nuit. Impossible de dormir correctement. Il y a forcément quelque chose à faire pour sortir les ingénieurs on-call de cette spirale et éviter une alert fatigue. Mais par où commencer ? Dans cet épisode, on retrace la façon dont Algolia a réorganisé ses efforts de maintenance opérationnelle à mes…
  continue reading
 
Quelle interface choisir pour les utilisateurs de mon site ? Le nouveau système de recommandation de mon application a-t-il un impact ? Pour qui ? Un test AB permet de comparer deux variantes afin d’identifier la plus efficace pour l’objectif recherché. Aujourd’hui, je reçois Cyril De Catheu, Data Engineer @ AB Tasty pour discuter des dessous d’une…
  continue reading
 
Des emojis les plus populaires sur iOS à l'affluence dans votre boutique préférée sur Google Maps; comment ces informations sont obtenues? Et quelles garanties peut-on avoir quant à la préservation de l'anonymat des utilisateurs? Dans ce Post Mortem thématique, le Docteur Damien Desfontaines - Senior Software Engineer, Privacy pour Google nous parl…
  continue reading
 
Tous les jours, des millions de voyageurs prennent le train sur le réseau SNCF, mais parfois, un train subit un retard. Aujourd'hui je reçois Héloïse Nonne, Head of Data Science & Engineering @ eSNCF, pour comprendre comment ce problème est adressé en interne pour améliorer l'information voyageurs. Après avoir présenté les spécificités d'un projet …
  continue reading
 
Les plateformes de Data Science comme Kaggle permettent de découvrir des jeux de données variés et de se tester face à d'autres compétiteurs. Plus votre modèle performe, meilleur est votre classement sur le leaderboard. Avec des jeux de données "curated" et des métriques à optimiser définies dès le début, le setup d'un Kaggle est souvent bien diffé…
  continue reading
 
Les fêtes de fin d’années sont synonymes de pics d’activités pour le e-commerce. Alors comment réagir quand on se rend compte qu’un incident se profile à l’horizon du moment le plus business critique de l’année ? Une conversation avec Théo Carrive, CTO de Cheerz. Concepts mentionnés: La commande EXPLAIN de PostgreSQL pour obtenir le plan d’exécutio…
  continue reading
 
"When the Facts Change, I Change My Mind. What Do You Do, Sir?" disait JM Keynes. L’économiste soulignait alors l’importance de réajuster ses a priori et sa représentation du monde lorsqu'on on est confronté à de nouveaux éléments. C’est la même chose lorsqu’on entraîne un modèle de machine learning et qu’on le déploie. Les données que l’on va renc…
  continue reading
 
Action items resulting from a postmortem analysis are often to implement more advanced monitoring or deploy new tools to track usage at a fine-grain level. Today, Timothy Raymond shows us that a good old checklist can sometimes be the most efficient way to prevent regressions in production. Some concepts mentioned in the episode: Roadblocking in ad…
  continue reading
 
Loïc Carbonne, VP Engineering @ Theodo, nous partage son expérience sur la réduction du lead time de résolution des incidents. Au travers des leçons apprises lors du développement d’applications web, Loïc nous propose des outils et méthodes pour s’organiser afin: 1) d’identifier plus rapidement les bugs 2) et de réduire leur temps de résolution. En…
  continue reading
 
Benoit Lafontaine, Engineering Director chez Doctolib, nous partage le post mortem d’un incident récent dû à une évolution soudaine de la charge sur la partie patient de leur service. Malgré une architecture d’auto-scaling déjà en place, le service a été dégradé quelques minutes. Benoît revient également sur la façon dont les incidents sont gérés c…
  continue reading
 
Que faire lorsque l'on rencontre une vulnérabilité dans un produit ou un service numérique? On explore avec Rayna Stamboliyska (Twitter: @MaliciaRogue) le rôle de la divulgation coordonnée de vulnérabilités; en quoi celle-ci permet de fluidifier la remontée des vulnérabilités et offre un compromis intéressant pour préserver la sécurité des utilisat…
  continue reading
 
Ouriel Bettach, Data Scientist depuis plus de 6ans, nous propose un panorama de ses expériences au sein de grands groupes industriels sur des projets de machine learning (ML). On en profite pour faire le bilan sur la façon dont les grands groupes approchent des projets ML et d’évoquer les points bloquants récurrents dans ces projets, avant d’ouvrir…
  continue reading
 
Wi-Fi Protected Access 3 (WPA3) est destiné à remplacer WPA 2 - en service depuis 2004 - en rendant presque impossible de craquer le mot de passe d'un réseau. Problème, des chercheurs ont révélé qu'un attaquant peut exploiter des failles dans les implémentations existantes de WPA 3 pour récupérer le mot de passe de la victime. Dans cet épisode, Moh…
  continue reading
 
In Post Mortem, we have engineers coming back on real-life incidents of IT systems. In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened, how the people behind those systems solved the situation. Along the way, …
  continue reading
 
C’est quoi un « post mortem » ? Dans cet épisode je définis le thème du podcast, on y partage des retours d’expériences sur des incidents survenus dans des systèmes informatique. Un post mortem, d’après Wikipédia, c’est un process que l’on réalise à la fin d’un projet pour analyser ce qui a fonctionné et ce qui a moins bien marché dans un projet. L…
  continue reading
 
Nicolas walks us through a challenging service migration he experienced at Criteo, a personalized retargeting company. A Windows to Linux server migration was on the way for several months already when they realized that the logging backend they used was not working as expected under Linux and failed to collect metrics. Problem: By that time, 95% o…
  continue reading
 
Loading …

Quick Reference Guide