Patrimoine logiciel : une bibliothèque alexandrine de code source comprenant 11 milliards de fichiers


Le scientifique Roberto Di Cosmo dirige une archive qui vise à rassembler les instructions d’utilisation de tous les programmes informatiques du monde et a réussi à faire déclarer les logiciels patrimoine mondial par l’UNESCO.

Roberto Di Cosmo (Parme, 1963) a une obsession : il veut rassembler tous les codes sources du monde en un seul endroit. Cette sorte de Bibliothèque d’Alexandrie de la programmation doit être sans but lucratif et accessible à tous, des chercheurs aux entreprises privées ou aux particuliers. Faire connaître l’architecture des applications logicielles que nous utilisons à tout le monde, ou à toute personne qui le souhaite, nous aidera à les comprendre et à les améliorer. Pour générer plus de connaissances, pour la prospérité de la société.

Cette année, cela fait cinq ans que le rêve de ce scientifique italien basé à Paris a commencé à devenir réalité. Grâce à son engagement personnel, l’initiative Software Heritage est née à l’été 2016 au centre de recherche INRIA de la capitale française. Depuis lors, elle a collecté plus de 11 milliards de fichiers uniques provenant de plus de 160 millions de dépôts. Tout ce code tient dans un pétaoctet (un million de téraoctets, soit 1 000 gigaoctets), soit l’équivalent des données accumulées par le télescope spatial Hubble en 455 ans. La copie maîtresse de cette super archive est détenue par Software Heritage, bien qu’il y en ait deux autres sur des serveurs en nuage chez Microsoft (Azure) et Amazon (AWS).

En 2017, Di Cosmo et son équipe ont réussi à obtenir de l’Unesco qu’elle déclare le logiciel patrimoine culturel mondial, à préserver comme la musique ou la littérature. Et c’est à cela que se consacre Software Heritage, avec le financement d’institutions publiques comme le ministère français de l’innovation et plusieurs universités, mais aussi de banques comme la Société Générale et d’entreprises comme Microsoft, Google, Intel et Huawei.

« Ce que nous faisons est l’équivalent de la création d’une sorte de Google du code », dit Di Cosmo dans son espagnol parfait avec un accent argentin, courtoisie de sa femme. Il est en visite à Madrid pour participer à une conférence sur la science ouverte organisée à l’Universidad Politécnica. L’institution qu’il a fondée et qu’il dirige a beaucoup à dire sur le sujet. « Nous devons construire une infrastructure qui permette de stocker, de référencer, de diffuser et de décrire facilement le code source utilisé dans la recherche, d’une manière accessible à tous », dit-il. La collaboration fructueuse de la communauté scientifique pour développer le vaccin contre le covid est un argument de poids en faveur de cette revendication historique.

Le code source est constitué de lignes de texte écrites dans un langage de programmation qui permettent l’exécution de programmes informatiques. De nombreuses entreprises et développeurs gardent jalousement ces codes : ils gagnent leur vie en les vendant ou en développant des produits basés sur eux. Mais il y a aussi ceux qui publient leurs créations pour que d’autres puissent en profiter. La culture du logiciel libre, née dans les années 1980 et promue par Richard Stallman, promeut cette vision de la programmation : la transparence du code source des programmes, le partage de ses propres développements avec la communauté afin que d’autres puissent les perfectionner ou les utiliser comme point de départ de projets plus importants.

Sommaire

Le triomphe du logiciel libre

« D’une certaine manière, le logiciel libre a gagné. On estime qu’en 2017, entre 80 et 90 % du code des nouvelles applications a été réutilisé à partir d’autres codes existants », note-t-il. « De grandes entreprises comme Microsoft, qui n’utilisaient même pas ce mot il y a quelques années, se tournent désormais massivement vers l’open source. » En effet, les logiciels sont devenus si complexes que personne, aucune entreprise, aucun pays, n’est capable de tout écrire lui-même à partir de zéro : la chose la plus efficace à faire est de couper et de coller des parties de code dont le fonctionnement est déjà connu et de concentrer les efforts sur les nouvelles fonctionnalités.

Ce n’est pas parce qu’il est gratuit qu’il ne contribue pas à faire bouger l’économie. Selon les estimations de la Commission européenne, les entreprises européennes ont investi environ 1 milliard d’euros dans les logiciels libres en 2018, ce qui a eu un impact sur le PIB européen compris entre 65 et 95 milliards d’euros.

Malgré son essor, son existence ne doit pas être considérée comme acquise. « En 2015, Google Code, le dépôt de code sponsorisé par la multinationale américaine, a fermé ses portes, mettant 700 000 projets en danger. Gitorius, un autre des sites les plus populaires au monde, a été racheté par GitLab, qui a choisi de le fermer, affectant ainsi 120 000 projets. Il y a quelques mois, Bitbucket a décidé de modifier un aspect technique et a supprimé 250 000 projets. Sauver tout cela est compliqué », explique l’informaticien.

Software Heritage collecte le matériel de sa grande bibliothèque virtuelle de trois manières. « Nous allons chercher tout le code source sur toutes les plateformes que nous connaissons, avec la difficulté que chacune parle un langage différent techniquement. C’est ainsi que nous obtenons la grande majorité des données », dit-il. « Mais nous ouvrons également deux autres portes : la possibilité pour quiconque d’indiquer un site web avec le code source, afin que nous puissions le récupérer automatiquement, et la collaboration avec des associations scientifiques.

Copies miroir dans chaque pays

Di Cosmo et ses collègues ont choisi dès le départ de maintenir plusieurs copies de leurs archives de code source universel. En plus du leur et de ceux du nuage, la Software Heritage Initiative développe un système de mise en miroir des disques. Il s’agit de copies des archives, mais sous le contrôle administratif et technique d’autres entités. Le premier aura lieu en Italie, à l’Agence nationale pour les nouvelles technologies et l’énergie (ENEA). « Ils auront nos données, mais nous ne pourrons pas écrire dans leurs archives. Ainsi, si un pirate informatique arrive et efface tout, il ne pourra pas faire de même avec cette copie : il devra la pirater également », explique-t-il.

Le scientifique estime qu’il ne faudra pas longtemps pour que les gouvernements réalisent qu’il est dans leur intérêt de soutenir l’initiative et de disposer de leur propre copie miroir. « Aujourd’hui, les logiciels sont essentiels pour que tout fonctionne. Nous créons une copie de tout ce que nous pouvons collecter, et les pays qui le souhaitent auront leur copie miroir. Ainsi, vous ne perdez pas vos données et vous vous assurez également que, quoi qu’il arrive, personne ne pourra vous couper l’accès au programme que vous utilisez. Ainsi, paradoxalement, cette initiative de collaboration mondiale répond également à un besoin d’autonomie stratégique pour chaque pays », conclut M. Di Cosmo.

Le refuge de code source qu’il dirige a une équipe minimale. « Nous avons besoin de 30 à 50 personnes à temps plein et d’un budget annuel de 5 à 10 millions. « Si vous le comparez au coût d’un télescope, d’un navire océanographique ou d’un accélérateur de particules, ce n’est rien. Mais il est vrai qu’étant virtuel, notre travail est moins tangible que d’autres, et le gouvernement est généralement plus apte à financer des machines que des personnes.

Software Heritage collecte le matériel de sa grande bibliothèque virtuelle de trois manières. « Nous allons chercher tout le code source sur toutes les plateformes que nous connaissons, avec la difficulté que chacune parle un langage différent techniquement. C’est ainsi que nous obtenons la grande majorité des données », dit-il. « Mais nous ouvrons également deux autres portes : la possibilité pour quiconque d’indiquer un site web avec le code source, afin que nous puissions le récupérer automatiquement, et la collaboration avec des associations scientifiques.
Copies miroir dans chaque pays

Di Cosmo et ses collègues ont choisi dès le départ de maintenir plusieurs copies de leurs archives de code source universel. En plus du leur et de ceux du nuage, la Software Heritage Initiative développe un système de mise en miroir des disques. Il s’agit de copies des archives, mais sous le contrôle administratif et technique d’autres entités. Le premier aura lieu en Italie, à l’Agence nationale pour les nouvelles technologies et l’énergie (ENEA). « Ils auront nos données, mais nous ne pourrons pas écrire dans leurs archives. Ainsi, si un pirate informatique arrive et efface tout, il ne pourra pas faire de même avec cette copie : il devra la pirater également », explique-t-il.

Le scientifique estime qu’il ne faudra pas longtemps pour que les gouvernements réalisent qu’il est dans leur intérêt de soutenir l’initiative et de disposer de leur propre copie miroir. « Aujourd’hui, les logiciels sont essentiels pour que tout fonctionne. Nous créons une copie de tout ce que nous pouvons collecter, et les pays qui le souhaitent auront leur copie miroir. Ainsi, vous ne perdez pas vos données et vous vous assurez également que, quoi qu’il arrive, personne ne pourra vous couper l’accès au programme que vous utilisez. Ainsi, paradoxalement, cette initiative de collaboration mondiale répond également à un besoin d’autonomie stratégique pour chaque pays », conclut M. Di Cosmo.

Le refuge de code source qu’il dirige a une équipe minimale. « Nous avons besoin de 30 à 50 personnes à temps plein et d’un budget annuel de 5 à 10 millions. « Si vous le comparez au coût d’un télescope, d’un navire océanographique ou d’un accélérateur de particules, ce n’est rien. Mais il est vrai qu’étant virtuel, notre travail est moins tangible que d’autres, et le gouvernement est généralement plus apte à financer des machines que des personnes.

Previous post Uber va briser le monopole des taxis dans les grands aéroports
Next post La crypto-monnaie Squid Game s’effondre dans une escroquerie apparente