On nomme hyperscale « la capacité d’une architecture technique à s’adapter rapidement à des demandes importantes de ressources dans des systèmes à grande échelle ». Les entreprises qui fournissent des services d’infrastructure hyperscale sont des hyperscalers : Amazon Web Services, Google Cloud Platform, Microsoft Azure, IBM Cloud et Alibaba Cloud par exemple. Ce type de services en nuages (cloud computing) a été inventé en 2006 par Amazon pour commercialiser ses capacités de calcul excédentaires parce qu’elles étaient surdimensionnées en prévision de la période de pointe des fêtes de fin d’année.
Meta ne commercialise pas de services d’infrastructure, mais il a construit une infrastructure hyperscale pour ses propres services : Facebook, Instagram, WhatsApp... C’est elle que décrit l’article de Chunqiang Tang pour les CACM (Communications of the Association for Computing Machinery) de février 2025 intitulé Meta’s Hyperscale Infrastructure : Overview and Insights (en accès libre, pp. 52-63). Chunqiang Tang est chercheur chez Meta, après avoir été chercheur au centre de recherche T.J. Watson d’IBM. Il est partie prenante dans la création et l’évolution de cette infrastructure.
Alors qu’en France la plupart des entreprises et même des universités et des centres de recherche en sont encore à considérer leurs centres informatiques comme des « services support », ce qui sent bon les années 1970 [1], il est utile de comprendre le fonctionnement d’une entreprise vraiment moderne, qui a compris dès le départ que l’informatique était son système nerveux et sa mémoire, ce qui lui permet d’avancer avec succès dans la troisième révolution industrielle.
L’idée centrale que je retiens à la lecture de l’article, c’est que tout avance d’un même pas : la recherche et la production sont mises en œuvre par les mêmes équipes, tous les équipements des centres de calcul et de données sont identiques de par le monde, Meta mise sur les logiciels libres (et en publie), ainsi que sur le matériel open-source.
Le développement logiciel obéit à une logique de dépôt unique (monorepo) et de déploiement rapide en production. Archiver le code de tous les projets dans le même dépôt facilite les échanges entre équipes et la réutilisation du logiciel. L’accent est mis sur les services FaaS (Function as a Service), c’est-à-dire des fonctions exécutées dans des environnements virtuels et qui font appel à un service séparé pour accéder aux données. Ce découplage du traitement et du stockage des données confère une souplesse considérable au développement, au déploiement et à l’exploitation des applications. On appelle cela le Serverless Computing.
Meta est une grande entreprise industrielle : près de 80 000 salariés, un réseau privé mondial de plusieurs dizaines de milliers de kilomètres de fibre optique, des dizaines de millions de serveurs (principalement sous Linux) répartis dans des centaines de centres de calcul (datacenters).
De surcroît, Meta noue des accords avec les fournisseurs d’accès à l’Internet (FAI) avec lesquels le trafic échangé est important afin d’installer dans leurs points de présence (POP) des serveurs intermédiaires, ce qui assure de meilleurs temps de réponse aux utilisateurs finals tout en réduisant la bande passante sur l’Internet global. Meta a installé ainsi des milliers de tels serveurs intermédiaires (dits « serveurs cache ») de par le monde, qui constituent un réseau de distribution de données (CDN). Pour faire fonctionner ce dispositif au mieux Meta utilise la réécriture d’adresse Web (URL) à la volée pour rediriger efficacement la requête de l’utilisateur.
De façon générale Meta apporte le plus grand soin au paramétrage des protocoles de l’Internet de façon à obtenir les meilleurs temps de réponse pour la plus faible consommation de bande passante. Meta gère ainsi une table d’informations de routage des appels de procédures à distance (RPC), qui lui permet de diriger des milliards de RPC par seconde qui transitent par des millions de routeurs : oui, quand on a d’un côté des procédures de type FaaS, découplées des serveurs de données, selon le modèle du Serverless Computing, fatalement il y a beaucoup de RPC, puisque les pauvres procédures FaaS doivent faire appel à des serveurs BaaS (Backend as a Service) pour obtenir leurs données.
À un niveau plus bas dans les couches de l’Internet, les serveurs cache des POP de Meta collectent des informations sur la capacité et les performances des multiples liaisons réseau qui les concernent et les utilisent pour indiquer au protocole BGP (Border Gateway Protocol) leurs préférences d’itinéraire pour une destination donnée.
Les accès aux données sont également hiérarchisés :
– les données « brûlantes » (hot), très souvent utilisées et modifiées, comme la base de données des relations sociales entre abonnés, sont conservées en mémoire vive et dans des mémoires persistantes de type SSD (Solid-State Drive) ;
– les données « chaudes » (warm), telles que vidéos, images ou résumés d’activité, sont conservées dans un système de fichiers distribué qui utilise des disques durs ;
– les données « froides » (cold), comme des vidéos haute définition de 10 ans d’âge, sont archivées dans un système au temps d’accès plus long.
De façon générale, Meta utilise du matériel et des choix de configuration bon marché, et compense la moins bonne fiabilité de telles bases matériel par des solutions logiciel à base de fragmentation et de redondance de l’information.
Toutes les méthodes évoquées ici sont somme toute assez classiques, c’est leur usage systématique et raisonné par des ingénieurs et des techniciens compétents en nombre suffisant qui fait le succès de la solution.