Avec Software Heritage, les logiciels feront partie du patrimoine de l’humanité

Télécom SudParis

« Les logiciels sont notre patrimoine », le slogan est clair. Depuis son lancement en 2016 par le chercheur en informatique Roberto Di Cosmo, avec le soutien de l’Inria (Institut national de recherche en informatique et en automatique), le projet Software Heritage veut en être l’incarnation en collectant, préservant et partageant plus de 3 milliards de fichiers de code source, soit plus de 60 millions de logiciels différents. En somme, l'ambition de Software Heritage est de devenir l’archive ouverte et universelle du plus grand nombre de codes sources publiquement disponibles.

Pour Olivier Berger, ingénieur de recherche au département Informatique de Télécom SudParis, cette initiative peut être comparée « au dépôt légal à la Bibliothèque nationale de France ». Attaché aux problématiques entourant les logiciels libres et l’open source, le logiciel est pour lui une forme de « production humaine, qui doit donc être considérée au sens large et rentrer dans le patrimoine commun de l’humanité ».

Si aujourd’hui, l’informatique et les programmes font partie intégrante de nos vies, cela fait 70 ans que des informaticiens créent des logiciels. « Ceux qui ont connu ces anciennes technologies ne seront bientôt plus là pour transmettre ce patrimoine, c’est pourquoi il y a une telle prise de conscience actuellement », explique Olivier Berger. « D’autant plus que ce n’est pas un patrimoine figé : il y a le logiciel qui tourne sur un appareil, et son code source qui est modifié sans cesse par les humains qui l’ont écrit. Se cachent derrière leur intelligence et leur savoir-faire, qui souvent se perdent ».

François Trahay, maître de conférences au département Informatique de Télécom SudParis, voit Software Heritage comme une nouvelle institution en devenir, « à l’image de la BNF, de l’INA, du Louvre ou même Internet Archive, qui archive des millions de pages Internet depuis 1997 ».

Archiver pour mieux étudier … et alerter

software heritage chiffres infographieAfin de collecter et préserver tous ces codes sources, Software Heritage recueille l’action de « pointures de l’informatique », comme le cofondateur du projet, Stefano Zacchiroli, ou Serge Abiteboul et Gérard Berry de l’Académie des sciences, et s’appuie sur des partenaires de poids comme l’UNESCO et des grands groupes tels Huawei et Microsoft (qui a mis à disposition son système cloud, Azure, pour la gestion de ses péta-octets de données).

Chacun souhaite protéger ce patrimoine immatériel « qui, le rappelle Olivier Berger, occupe un secteur économique énorme », et en analyser toutes les facettes. Archive ouverte, Software Heritage est un outil nouveau pour la recherche, non seulement en informatique mais aussi en sociologie. « Avec tout ce code source à disposition, il nous est désormais possible de faire de vraies analyses sociologiques : par exemple, se demander si les développeurs amateurs travaillent mieux qu’en entreprise ? », indique Olivier Berger. Ou, d’un point de vue plus technique, « quelle est la durée de vie d’un bug ? Ou d’un ‘to do’ laissé en commentaire par l’auteur d’un code source ? », ajoute François Trahay.

Il en va de même pour des problématiques politiques et sociétales, notamment autour du soucis de transparence. Les deux chercheurs rappellent le cas du logiciel APB (Admission Post-Bac), à la prise de décision décriée cette année par la Commission nationale Informatique & Liberté (CNIL). « Son algorithme n’était pas transparent : un élève recevait simplement un ‘non’ catégorique quand il était refusé quelque part, sans jamais savoir pourquoi ou dans quel contexte », soulève l’ingénieur de recherche. « Seul un développeur du Ministère de l’Enseignement supérieur sait peut-être comment il fonctionne, mais il serait temps que chacun puisse avoir accès à son code source, pour demander des comptes politiquement ».

Prochaine étape : devenir une institution à part entière ?

« Il y a tellement de choses impliquant du logiciel dans nos vies, tant et si bien qu’il faudra bientôt savoir coder pour être un citoyen éclairé, continue Olivier Berger. Si on commence à voter électroniquement, qu’on se déplace dans des voitures autonomes, il nous faudra une structure qui puisse examiner les codes sources de ces choses-là, pour régler les litiges qu’elles pourront entraîner ».

Labellisé par l’UNESCO, le projet Software Heritage n’est encore cependant qu’une plateforme d’archivage ouverte. Elle nécessite la participation d’un maximum de bénévoles, chercheurs et développeurs amateurs , pour atteindre de telles aspirations.

Pour l’instant portée par l’Inria, la plateforme deviendra un jour « auto-suffisante, comme une fédération, avec sa propre fondation pour la financer » et sera reconnue « d’utilité publique », selon les souhaits d’Olivier Berger. Quant à son collègue, François Trahay, la véritable étape suivante réside plutôt dans « l’archivage de toutes les données publiques sur lesquelles fonctionnent les logiciels déjà stockés » et, en cela, dans l’encouragement du « mouvement open data et open science ». Plus qu’une bibliothèque d’Alexandrie du monde moderne, Software Heritage incarnerait ainsi une prise de conscience nouvelle.

- Félix Gouty


Le 7 novembre 2017, Roberto Di Cosmo a tenu une conférence sur Software Heritage sur le campus de Télécom SudParis.