Kriss

18 février 2018

Nos articles sur Medium

Chaos engineering sur Amazon Web Services : faire son propre GameDay.

Le virage Cloud est en train d’être pris à-bras-le-corps par les entreprises françaises. L’attrait des ressources à la demande (à l’heure...

Sep 10, 2018 / Read More

Chaos engineering sur AWS : automatiser ses pannes

La mise en place du chaos engineering se fait en plusieurs étapes. Normalement la première étape est la mise en place de pratiques autour...

Sep 10, 2018 / Read More

Faire vos Days of Chaos — Atelier de création de pannes

C’est au cours de notre 5ème meetup dans les locaux de la Société Générale que nous avons proposé aux participants du Paris Chaos Enginee...

Sep 07, 2018 / Read More

Un Gameday dans ma team : Un besoin de transmettre du savoir-faire

Je suis actuellement lead devops chez Jin, une agence de communication digitale qui édite des logiciels, mon objectif étant de faire en s...

May 28, 2018 / Read More

Un nouveau tour d’horizon du Chaos Engineering

Depuis peu, le Chaos Engineering a pris de l’ampleur. Nous sommes encore assez loin d’une discipline mise en pratique de manière structur...

May 25, 2018 / Read More

Faire vos propres Days of Chaos? Par où commencer?

Kriss et moi même avons été sollicités par l’INSEE pour les accompagner dans la mise en place de leurs propres Days of Chaos. Nous allons...

Apr 04, 2018 / Read More

Ingénierie du Chaos — Un exemple d’apprentissage

Je travaille chez un leader du e-commerce de vente de voyage situé en france. Nous faisons du Chaos Engineering depuis maintenant 2 ans, ...

Feb 20, 2018 / Read More

Ingénierie du chaos — Chaos Engineering in French — Comment convaincre votre boss de se lancer dans…

Un article basé sur notre présentation lors du second meetup de la Paris Chaos Engineering Community

Feb 18, 2018 / Read More

Ingénierie du Chaos — Comment Commencer? — Partie 3 : Expliquer et faire partager la démarche

La communication est un élément clé dans la mise en place d’une démarche de Chaos Engineering. Il est impératif que tous les intervenants...

Feb 09, 2018 / Read More

Ingénierie du Chaos — Comment Commencer? — Partie 2 : Choisir ses expérimentations

Vous êtes résilient, ou tout du moins vous en êtes convaincu? Vous avez suffisamment confiance en vous? Vos équipes sont au point?L’expér...

Dec 21, 2017 / Read More

3 octobre 2017

Présentation #slideshare Days of Chaos à DEVOPS REX 2017

3 octobre 20173 octobre 2017

Retour en image sur DEVOPS REX 2017

Ce diaporama nécessite JavaScript.

3 juillet 20173 octobre 2017

AWS SUMMIT GAMEDAY : TESTEZ LA RÉSILIENCE DE VOS APPLICATIONS

Lors du dernier AWS SUMMIT PARIS 2017, le 27 juin, Jean-Charles Fesantieu (D2SI) et Laurent Pulce (Veolia Global Enterprise) ont présenté conjointement le retour d’expérience des GameDay AWS expérimentés par les équipes de Veolia Water Technologies, une journée où les équipes Dev et Ops s’entraînent à la détection et la résolution d’incidents dans un environnement de simulation.

Lors de ce summit, a eu lieu le« Gameday Challenge », le premier jamais organisé par AWS en Europe. Ce jeu grandeur nature s’est déroulé le 20 juin, en présence de 13 partenaires AWS. Les trois équipes ayant remporté la compétition sont :

Claranet,
D2SI,
WeScale et Xebia

Sources :

26 avril 201726 avril 2017

Et si Toy Story 2 n’avait jamais existé ?

De l’importance de tester nos backups et nos scénarios de reprises :

17 mars 201722 avril 2017

#daysofchaos : un article sur les Days Of Chaos @Voyagessncf_com par le Blog du modérateur

Le Blog du Modérateur a abordé la démarche Devops @Voyagessncf_com et évoque le concept de Day Of Chaos :

L’entreprise s’est également inspirée des GameDays d’AWS pour tester la résilience de ses applications. Le vendredi 13 janvier (sic), les équipes applicatives volontaires ont participé à un Day of Chaos. Toutes les 30 minutes, des exploitants simulaient des pannes en pré-production. Les équipes obtenaient des points en fonction des détections, des diagnostics et des résolutions. Ce type d’événement gamifié permet d’initier les équipes de développement à ces concepts.

Retrouvez l’article complet sur le Blog du Modérateur

11 septembre 201626 avril 2017

Et si on jouait à couper un datacenter : Facebook Storm ?

Pour se préparer à la perte d’un datacenter, Facebook teste régulièrement la résistance de ses infrastructures aux événements extrêmes.

Lors de la keynote de Jay Parikh, le responsable des infrastructures chez Facebook, à la conférence @Scale qui s’est tenu le 2 septembre 2016 à San Jose, en Californie, Facebook a levé le voile sur les tests qu’il mène afin de s’assurer que son infrastructure résiste aux événements les plus extrêmes. Connu sous l’appellation projet Storm, le programme simule des pannes massives dans les datacenters.

Storm est né suite à l’ouragan Sandy, qui a frappé la côte Est des États-Unis en octobre 2012, avec pour objectif de garder un milliard d’utilisateurs connectés même en cas d’événement extrême comme celui-là.

Et si on jouait à couper un datacenter ?

Facebook met alors en place l’équipe Swat, deux douzaines de spécialistes chargés de piloter les équipes d’ingénierie dans une série de stress-tests permettant de mesurer la résistance des infrastructures à des chocs externes, comme un ouragan. « Nous avons résolu des problèmes auxquels personne ne s’était attaqués auparavant, des problèmes que personne n’a résolu ailleurs dans l’industrie », assure Jay Parikh, dans une interview à nos confrères de SiliconAngle. Facebook gère un trafic de plusieurs dizaines de To/s, des dizaines de Mégawatts de puissance électrique, des milliers de services logiciels.

Le projet Storm a débuté par des tests limités, consistant à mesurer les conséquences sur l’expérience utilisateur de brusques écarts de trafic réseau. Ce qui a permis aux équipes d’ingénierie de détecter et corriger des problèmes dans la gestion du trafic ou l’équilibrage de charge notamment. En 2014, l’équipe Swat s’estime armée pour le grand saut : un crash test impliquant l’arrêt d’un datacenter entier. Si les utilisateurs n’en ont pas ressenti les effets, selon l’ingénieur, les conséquences en arrière-plan sont majeures. « Un grand nombre d’éléments n’ont plus fonctionné », résume Jay Parikh. Les ingénieurs de Facebook se sont servis de cette expérience, et de la suivante de même nature, pour retravailler leur système de contrôle du trafic réseau, afin de rendre les transitions plus douces en cas d’événements exceptionnels de cette nature.

Infrastructure Facebook : si complexe…

Storm est toujours actif aujourd’hui ; des tests sont menés très régulièrement sur les infrastructures et de nouveaux scénarios de pannes sont déployés. Des scénarios que Jay Parikh s’est toutefois refusé à dévoiler pour ne pas renseigner ses concurrents sur ce sujet clef dans les infrastructures dites hyperscale. « Nous avons sans cesse des surprises », dit-il. En dehors de la préparation aux événements exceptionnels comme une catastrophe naturelle, le projet aide aussi Facebook à faire fonctionner son infrastructure au quotidien, selon Jay Parikh. Une infrastructure si complexe « qu’il n’existe pas un seul individu chez Facebook capable de comprendre comment l’ensemble du système fonctionne ».

Source : https://www.forbes.com/sites/roberthof/2016/09/11/interview-how-facebooks-project-storm-heads-off-data-center-disasters/#6fd8d6634875