Et si on jouait à couper un datacenter : Facebook Storm ?

Pour se préparer à la perte d’un datacenter, Facebook teste régulièrement la résistance de ses infrastructures aux événements extrêmes.

Lors de la keynote de Jay Parikh, le responsable des infrastructures chez Facebook, à la conférence @Scale qui s’est tenu le 2 septembre 2016 à San Jose, en Californie, Facebook a levé le voile sur les tests qu’il mène afin de s’assurer que son infrastructure résiste aux événements les plus extrêmes. Connu sous l’appellation projet Storm, le programme simule des pannes massives dans les datacenters.

Storm est né suite à l’ouragan Sandy, qui a frappé la côte Est des États-Unis en octobre 2012, avec pour objectif de garder un milliard d’utilisateurs connectés même en cas d’événement extrême comme celui-là.

Et si on jouait à couper un datacenter ?

Facebook met alors en place l’équipe Swat, deux douzaines de spécialistes chargés de piloter les équipes d’ingénierie dans une série de stress-tests permettant de mesurer la résistance des infrastructures à des chocs externes, comme un ouragan. « Nous avons résolu des problèmes auxquels personne ne s’était attaqués auparavant, des problèmes que personne n’a résolu ailleurs dans l’industrie », assure Jay Parikh, dans une interview à nos confrères de SiliconAngle. Facebook gère un trafic de plusieurs dizaines de To/s, des dizaines de Mégawatts de puissance électrique, des milliers de services logiciels.

Le projet Storm a débuté par des tests limités, consistant à mesurer les conséquences sur l’expérience utilisateur de brusques écarts de trafic réseau. Ce qui a permis aux équipes d’ingénierie de détecter et corriger des problèmes dans la gestion du trafic ou l’équilibrage de charge notamment. En 2014, l’équipe Swat s’estime armée pour le grand saut : un crash test impliquant l’arrêt d’un datacenter entier. Si les utilisateurs n’en ont pas ressenti les effets, selon l’ingénieur, les conséquences en arrière-plan sont majeures. « Un grand nombre d’éléments n’ont plus fonctionné », résume Jay Parikh. Les ingénieurs de Facebook se sont servis de cette expérience, et de la suivante de même nature, pour retravailler leur système de contrôle du trafic réseau, afin de rendre les transitions plus douces en cas d’événements exceptionnels de cette nature.

Infrastructure Facebook : si complexe…

Storm est toujours actif aujourd’hui ; des tests sont menés très régulièrement sur les infrastructures et de nouveaux scénarios de pannes sont déployés. Des scénarios que Jay Parikh s’est toutefois refusé à dévoiler pour ne pas renseigner ses concurrents sur ce sujet clef dans les infrastructures dites hyperscale. « Nous avons sans cesse des surprises », dit-il. En dehors de la préparation aux événements exceptionnels comme une catastrophe naturelle, le projet aide aussi Facebook à faire fonctionner son infrastructure au quotidien, selon Jay Parikh. Une infrastructure si complexe « qu’il n’existe pas un seul individu chez Facebook capable de comprendre comment l’ensemble du système fonctionne ».

Source : https://www.forbes.com/sites/roberthof/2016/09/11/interview-how-facebooks-project-storm-heads-off-data-center-disasters/#6fd8d6634875