Nos articles sur Medium

Voyages-sncf.com : Days of Chaos #2

Les Days of Chaos sont revenus le 07/07/17!


Nom de la session : 12 Monkey (Tiré du film l’armée des 12 singes)

Nombre de joueurs : 135 (Tournoi) / 22 (gestion de crise)

Nombre d’équipes : 20

Temps de jeu : 3h

Ambiance : 5/5


Erreurs de jeunesse gommées! Nous avons appliqué toutes les recommandations que nous nous étions faites après la première session et l’organisation s’en est ressentie. Plus facile, des joueurs et des préparateurs convainvu, des pannes validée et testées. Le succès de la première session y est certainement pour beaucoup.

Nouveautés de la session : une gestion de crise (sur une simulation d’incident majeur) en parallèle du tournoi. Et pour gérer la crise nous avons réussi à faire jouer…notre CODIR!

AWS SUMMIT GAMEDAY : TESTEZ LA RÉSILIENCE DE VOS APPLICATIONS

Lors du dernier AWS SUMMIT PARIS 2017, le 27 juin, Jean-Charles Fesantieu (D2SI) et Laurent Pulce (Veolia Global Enterprise)  ont présenté conjointement le retour d’expérience des GameDay AWS expérimentés par les équipes de Veolia Water Technologies, une journée où les équipes Dev et Ops s’entraînent à la détection et la résolution d’incidents dans un environnement de simulation.

Lors de ce summit, a eu lieu le« Gameday Challenge », le premier jamais organisé par AWS en Europe. Ce jeu grandeur nature s’est déroulé le 20 juin, en présence de 13 partenaires AWS. Les trois équipes ayant remporté la compétition sont :

  • Claranet,
  • D2SI,
  • WeScale et Xebia

Sources :

#daysofchaos : un article sur les Days Of Chaos @Voyagessncf_com par le Blog du modérateur

Le Blog du Modérateur a abordé la démarche Devops @Voyagessncf_com et évoque le concept de Day Of Chaos :

L’entreprise s’est également inspirée des GameDays d’AWS pour tester la résilience de ses applications. Le vendredi 13 janvier (sic), les équipes applicatives volontaires ont participé à un Day of Chaos. Toutes les 30 minutes, des exploitants simulaient des pannes en pré-production. Les équipes obtenaient des points en fonction des détections, des diagnostics et des résolutions. Ce type d’événement gamifié permet d’initier les équipes de développement à ces concepts.

Retrouvez l’article complet sur le Blog du Modérateur

Voyages-sncf.com : Days of Chaos #1

Vendredi 13 janvier 2017 : le premier « Days of Chaos » a eu lieu chez Voyages-sncf.com! 🙂


Nom de la session : Ender’s game (Tiré du film la Stratégie Ender)

Nombre de joueurs : 113

Nombre d’équipes : 18

Temps de jeu : 3h30, initialement prévu 4h

Ambiance et accueil des joueurs : 5/5


En synthèse : un réussite pour une première!

Et si on jouait à couper un datacenter : Facebook Storm ?

Pour se préparer à la perte d’un datacenter, Facebook teste régulièrement la résistance de ses infrastructures aux événements extrêmes.

Lors de la keynote de Jay Parikh, le responsable des infrastructures chez Facebook, à la conférence @Scale qui s’est tenu le 2 septembre 2016 à San Jose, en Californie, Facebook a levé le voile sur les tests qu’il mène afin de s’assurer que son infrastructure résiste aux événements les plus extrêmes. Connu sous l’appellation projet Storm, le programme simule des pannes massives dans les datacenters.

Storm est né suite à l’ouragan Sandy, qui a frappé la côte Est des États-Unis en octobre 2012, avec pour objectif de garder un milliard d’utilisateurs connectés même en cas d’événement extrême comme celui-là.

Et si on jouait à couper un datacenter ?

Facebook met alors en place l’équipe Swat, deux douzaines de spécialistes chargés de piloter les équipes d’ingénierie dans une série de stress-tests permettant de mesurer la résistance des infrastructures à des chocs externes, comme un ouragan. « Nous avons résolu des problèmes auxquels personne ne s’était attaqués auparavant, des problèmes que personne n’a résolu ailleurs dans l’industrie », assure Jay Parikh, dans une interview à nos confrères de SiliconAngle. Facebook gère un trafic de plusieurs dizaines de To/s, des dizaines de Mégawatts de puissance électrique, des milliers de services logiciels.

Le projet Storm a débuté par des tests limités, consistant à mesurer les conséquences sur l’expérience utilisateur de brusques écarts de trafic réseau. Ce qui a permis aux équipes d’ingénierie de détecter et corriger des problèmes dans la gestion du trafic ou l’équilibrage de charge notamment. En 2014, l’équipe Swat s’estime armée pour le grand saut : un crash test impliquant l’arrêt d’un datacenter entier. Si les utilisateurs n’en ont pas ressenti les effets, selon l’ingénieur, les conséquences en arrière-plan sont majeures. « Un grand nombre d’éléments n’ont plus fonctionné », résume Jay Parikh. Les ingénieurs de Facebook se sont servis de cette expérience, et de la suivante de même nature, pour retravailler leur système de contrôle du trafic réseau, afin de rendre les transitions plus douces en cas d’événements exceptionnels de cette nature.

Infrastructure Facebook : si complexe…

Storm est toujours actif aujourd’hui ; des tests sont menés très régulièrement sur les infrastructures et de nouveaux scénarios de pannes sont déployés. Des scénarios que Jay Parikh s’est toutefois refusé à dévoiler pour ne pas renseigner ses concurrents sur ce sujet clef dans les infrastructures dites hyperscale. « Nous avons sans cesse des surprises », dit-il. En dehors de la préparation aux événements exceptionnels comme une catastrophe naturelle, le projet aide aussi Facebook à faire fonctionner son infrastructure au quotidien, selon Jay Parikh. Une infrastructure si complexe « qu’il n’existe pas un seul individu chez Facebook capable de comprendre comment l’ensemble du système fonctionne ».

Source : https://www.forbes.com/sites/roberthof/2016/09/11/interview-how-facebooks-project-storm-heads-off-data-center-disasters/#6fd8d6634875