Algorithme et Grand Débat
Force est de constater qu’aujourd’hui les informations numériques pullulent et que la manière de les trier échappe à beaucoup de monde. Et cette impossibilité à connaître le mode de sélection est une entrave à la liberté des personnes, à leur ouverture sur le monde.
Algorithmes et Grand Débat
Nous sommes de plus en plus nombreux aux Ceméa à envisager le numérique comme un objet « politique » et non seulement technique, preuve en est la récente création de la mission « Libre, Éducation Nouvelle » que j’ai la chance de piloter.
Pour autant, tant à l’interne de notre mouvement qu’à l’externe, il reste parfois compliqué d’expliquer pourquoi le recours aux logiciels libres, aux codes sources ouverts est si important pour notre démocratie sans être ramené à l’éternel et vain débat « Linux VS Windows », « Apple ça marche nickel... » etc.
Il y a quelques jours, alors que je relisais à nouveau le célèbre texte de Lawrence Lessig « Code is Law » traduction française par Framasoft : pour y trouver réconfort et matière à argumentation, j’ai entendu Pascal Perrineau, membre du collège des garants du Grand Débat s’exprimer sur France Inter : “Nous avons demandé à ce que tout soit en ‘open data’, en données ouvertes”… (voir l'émission)
Mon premier réflexe fut de me réjouir que ces propos soient tenus à une heure de grande écoute sur une radio nationale, puis rapidement un doute : pourquoi dit-il cela ? Il n’affirme pas que c’est bien le cas, il insiste sur l’importance que ça le soit ! Je notais donc sur mon calepin « vérifier qui analyse les données du grand débat et comment... »
Je n’ai finalement pas eu beaucoup à chercher, le lendemain, en parcourant les pages « Pixels » du Monde, je tombe sur un article de Claire Legros « Grand débat en ligne et démocratie : l’analyse et la transparence des données en question ».
Quelle remarquable illustration de ce que la mission « Libre, Éducation Nouvelle » tente d’expliquer !
Il ne s’agit pas ici d’émettre un jugement sur la pertinence du Grand Débat, mais bel et bien de regarder attentivement comment une telle expérience, à ce point inédite va se dérouler. Des milliers de débats organisés, des milliers ( 500 000 nous dit-on aujourd’hui) de contributions sur le site dédié à ce Grand Débat. Il sera totalement impossible à des humains de pouvoir analyser, synthétiser, catégoriser toutes ces contributions en un temps record, puisqu’on nous annonce les premières décisions pour la mi-avril. Nécessité donc d’avoir recours à la puissance de calcul des ordinateurs, à des méthodes et des outils d’analyse automatique.
C’est donc là qu’interviennent les algorithmes. Ces fameux algorithmes, objets d’inquiétudes, de fantasmes parfois. Un sondage réalisé par l’Ifop pour la CNIL en 2017 révèle qu’à peine un tiers des sondés dit savoir ce qu’est un algorithme. Voir le sondage.
Voici une définition proposée par la CNIL : « Un algorithme est la description d'une suite d'étapes permettant d'obtenir un résultat à partir d'éléments fournis en entrée. Par exemple, une recette de cuisine est un algorithme permettant d'obtenir un plat à partir de ses ingrédients ! Dans le monde de plus en plus numérique dans lequel nous vivons, les algorithmes mathématiques permettent de combiner les informations les plus diverses pour produire une grande variété de résultats : simuler l'évolution de la propagation de la grippe en hiver, recommander des livres à des clients sur la base des choix déjà effectués par d'autres clients, comparer des images numériques de visages ou d'empreintes digitales, piloter de façon autonome des automobiles ou des sondes spatiales, etc. »
On comprend donc en lisant cette définition qu’un algorithme est loin d’être neutre. Expliquer un algorithme, c’est expliquer son objectif, les paramètres qu’il utilise pour le remplir, la hiérarchie de ces différents paramètres, on ne peut minimiser le risque de reproduction de stéréotypes, de discriminations comme l’explique fort bien Isabelle Falque-Pierrotin dans Libération en mars 2017 (elle est alors présidente de la CNIL, actuellement un des 5 membres du comité des garants) « Nos choix de société ne doivent pas être dictés par les algorithmes ».
L’accès au code du logiciel est donc fondamental pour comprendre pourquoi une contribution arrive avant une autre.
Une fois ce premier travail réalisé, vient donc celui de l’analyse. Nous disposons d’un ensemble de données anonymisées, dans un format qui doit permettre à chacun (chercheurs.ses, journalistes, simples citoyens) de les analyser à l’aide de méthodes scientifiques publiées. Cette possibilité offerte est fondamentale afin de permettre la multiplicité des analyses.
Tout ceci n’est pas nouveau. La mission Etalab, placée sous l’autorité du Premier ministre met par exemple à la disposition de tous au travers de sa plateforme data.gouv.fr un nombre important de données publiques de l’État et des administrations afin « d’encourager la réutilisation des données au-delà de leur utilisation première par l’administration ».
Résumons-nous à ce stade de mon propos. Pour que l’utilisation d’algorithmes sur le traitement de telles données soit insoupçonnable, deux conditions au moins sont nécessaires :
- avoir accès au code source (la recette) de la plateforme afin d’en connaître et d’en comprendre les fonctionnements. Les opérations techniques réalisées à travers la plateforme numérique (algorithmes et scripts d’organisation, traitement, hiérarchisation de l’information, etc.) doivent être explicitées.
Pour illustrer l’importance de cette ouverture du code, il peut être utile de prendre l’exemple de Parcoursup, la plateforme d’entrée dans l’enseignement supérieur. Après quelques pressions, le gouvernement a finalement ouvert le code de la plateforme le 21 mai dernier. On peut donc examiner (sur le dépôt Git de Framasoft !) les algorithmes et le code java utilisé permettant le calcul : « de l’ordre d’appel, des propositions de formations et des propositions d’hébergement en internat ». L’ensemble est complété d’une présentation au format PDF. On peut à ce sujet regretter que l’ouverture ne soit finalement que partielle puisque en vertu du « secret des délibérations », les universités ont été exemptées de publication de leurs « algorithmes locaux ».
Le Défenseur des Droits lui-même a publié dans un communiqué de presse le 21 janvier 2019 sa décision n°2019-021 demandant « à ce que les candidats disposent de l’ensemble des informations relatives aux modalités de traitement de leur candidature ». Le 4 février, le tribunal administratif de la Guadeloupe impose à l’université des Antilles de communiquer « les procédés algorithmiques utilisés dans le cadre du traitement des candidatures d’entrée en licence via la plate-forme Parcoursup, ainsi que le ou les codes sources correspondants »
- Ces données produites doivent être ouvertes, c’est-à-dire accessibles librement et téléchargeables dans un format permettant leur traitement. Cela passe, entre autre par la mise à disposition d’une API (Interface de programmation, un logiciel qui permet de donner des informations à un autre logiciel) comme c’est par exemple le cas sur data.gouv.fr.
L’État a choisi la société la startup Cap Collectif [https://cap-collectif.com] et sa plateforme dite « d’intelligence collective » (le même choix a d’ailleurs été fait par les Gilets jaunes) pour réaliser la collecte et le traitement de l’ensemble des données et plusieurs problèmes et inquiétudes surgissent alors :
Un problème : l’outil numérique choisi par Cap Collectif est un logiciel propriétaire, une véritable boîte noire opaque et sans transparence des données, contrairement aux recommandations du Conseil d’État et de la Cour des comptes et aux engagements pris par la France il y a deux ans, dans le cadre du partenariat pour un gouvernement ouvert, comme le souligne le collectif « Code for France » dans sa tribune. Ni l’État, ni nous citoyens, n’avons accès au code source de cette plateforme. L’API (Interface de programmation), permettant l’accès aux données n’a été finalement ouverte que le 31 janvier.
« Publier rétrospectivement un jeu de données issu d’une plateforme non auditable n’est pas une garantie suffisante que les données n’ont pas été manipulées. Quand bien même nous n’aurions pas de raison de douter des intentions des éditeurs actuels de ces plateformes, le fait que ces entreprises puissent être rachetées à moyen terme par d’autres acteurs est une menace que tout acteur public doit prendre en considération dès lors qu’il engage sa responsabilité dans un processus de récolte d’opinions citoyennes et de concertation démocratique. » Valentin Chaput
Une inquiétude : « Nous sommes opérationnels, pas décideurs, nous donnons des conseils, des recommandations, des avis. Nous avons demandé à ce qu’à la fin du processus, tout soit en données ouvertes sur le site... » annonce Pascal Perrineau lors de son intervention sur France Inter. Rien ne semble donc totalement acquis. Souhaitons qu’il soit entendu !
Nous le voyons bien à la lecture de cet article, bien qu’empreinte de notion technologique, la question posée ici relève bien d’un choix politique, il y est question de la Démocratie, de l’organisation de notre société. La question du numérique, de notre liberté dès lors qu’elle passe à travers le filtre du numérique est bel et bien une question politique. Il nous faut l’aborder en ce sens, afin qu’en citoyens éclairés nous puissions agir.
On voit bien dès lors quel peut être, quel doit être, le rôle d’une association d’éducation populaire dans sa mission d’éducation permanente, d’informer, de vulgariser des phénomènes complexes pour en permettre la compréhension par le plus grand nombre. Le rôle aussi d’un mouvement d’éducation nouvelle comme les Ceméa, pour qu’au-delà de la simple compréhension, chacun puisse alors disposer du pouvoir d’agir.
Pour terminer, je nous invite à découvrir ou re-découvrir un extrait du texte majeur dont il était question au début de cet article « Code is law » (Le code est la loi) de Lawrence Lessig [L Lessig spécialiste de droit constitutionnel, il est entre autres, fondateur de l’organisation des Creative Commons
« . / . Ce n’est pas entre régulation et absence de régulation que nous avons à choisir. Le code régule. Il implémente – ou non – un certain nombre de valeurs. Il garantit certaines libertés, ou les empêche. Il protège la vie privée, ou promeut la surveillance. Des gens décident comment le code va se comporter. Des gens l’écrivent. La question n’est donc pas de savoir qui décidera de la manière dont le cyberespace est régulé : ce seront les codeurs.
La seule question est de savoir si nous aurons collectivement un rôle dans leur choix – et donc dans la manière dont ces valeurs sont garanties – ou si nous laisserons aux codeurs le soin de choisir nos valeurs à notre place. . / . »
Lawrence Lessig « Code is Law » traduction française par Framasoft