18/11/2023 –, A002
Vous faites tourner un service en ligne, votre téléphone vient de sonner, la production est à terre, vos services ne répondent plus.
Ca pourrait être la panique, mais grâce à cette conférence, vous éviterez les pièges habituels du débogage d'un incident. Et aurez les bons tableaux de bords pour trouver rapidement les bonnes réponses à vos questions et sauver votre prod !
Après avoir vu les pièges courants lors du débogage d'incident (et notamment lors d'un incident de performance), nous nous arrêterons sur les méthodes USE (Usage, Saturation, Errors) & RED (Rate, Errors, Duration).
Enfin, nous verrons comment appliquer ces méthodes pour créer des dashboards de monitoring efficace et qui vous aident vraiment lors d'incidents
Après avoir longtemps développé, je suis ensuite passé coté infrastructure et opérations. Comment construire et opérer des systèmes complexes; la place de l'humain, de l'organisation et de la culture d'équipe pour y arriver sont des sujets qui me passionnent.
Actuellement tech lead chez OVHcloud, je travaille dans les équipes qui conçoivent et opèrent les produits de sécurité.