« BigData » ou le miroir aux alouettes
Rédigé par Amaury FRANCHETTE le . Publié dans Numérique.
« Bigdata » : voilà un terme qui fleure bon le rêve américain façon « Silicon Valley », surtout lorsqu’on voit comment les GAFA (Google Apple Facebook Amazon) - que nos patrons du CAC40 jalousent autant qu’ils adulent - savent tirer profit de cette encore récente abondance de données que nous permettent désormais de collecter et traiter les dernières évolutions technologique de la décennie. Orange en particulier semble déjà tant rêver d’en tirer un inéluctable profit qu’il en devient nécessaire de s’interroger sur sa réelle compréhension des limites de cet outil.
Le traitement des mégadonnées – c’est ainsi qu’on les nomme en français – consiste à mettre en commun diverses sources d’information collectées de façon massive pour en dégager ensuite des tendances et corrélations inattendues, comme l’illustre le traditionnel exemple « bière et couches ».
Ce que cette démarche possède de particulier, c’est qu’elle amène à découvrir des usages des données dont la finalité n’est déterminée qu’après leur collecte et traitement. De ce fait, elle contrevient d’emblée à l’article 32 de la CNIL dès qu’il s’agit de données à caractère personnel. Evidemment, certains tenteront de présenter la recherche de finalités comme étant une finalité en soi, ce qui n’a pas manqué de déclencher quelques rires polis chez les juristes de la CNIL auxquels l’idée a été soumise.
Corrélation n’est pas causalité
Il est important de souligner que ces corrélations découvertes par l’analyse de données massivement collectés sont livrées sans causalité : il appartient à leur découvreur d’en éprouver la pertinence sans pour autant toujours être en mesure d’en comprendre la logique.
En effet La probabilité veut que plus une base de données croit en taille, plus les occurrences de réplication de certaines valeurs similaires deviennent nombreuses. Cependant le processus d’analyse systématique qui les révèle n’est en aucune mesure capable d’évaluer si ces corrélations découlent d’une réelle causalité, ou si elles ne sont jamais que le fruit du hasard statistique.
Exemple de corrélation fallacieuse (source : spurious correlations)
Ainsi ces traitements ne livrent que des résultats inexploitables en tant que tels puisqu’il est nécessaire d’en éprouver la validité. Chose parfaitement maîtrisée par une entreprise comme Google, puisqu’elle peut immédiatement vérifier l’adéquation entre une nouvelle caractéristique identifiée chez ses utilisateurs et la publicité qu’elle s’applique à leur mettre sous les yeux. En effet, à peine aura-t-elle fait cette modification qu’il lui sera possible de mesurer de quelle façon les utilisateurs ainsi ciblés s’en vont cliquer sur le nouveau lien qui leur est proposé. C’est donc en temps réel que l’entreprise est en mesure de décider s’il est pertinent de poursuivre l’exploitation de la corrélation découverte, ou d’interrompre une démarche inefficace.
Mais qu’en est-il d’une entreprise comme Orange, qui envisage d’utiliser ces méthodes pour analyser les compétences de ses salariés afin de déterminer leurs aptitudes professionnelles et orienter leurs carrières ? Combien de temps dureront ces cycles de validation de la pertinence des analyses, et surtout qu’adviendra-t-il des salariés dont l’évolution professionnelle aura été mise à mal par un algorithme essentiellement en rodage perpétuel ? En effet, sans la capacité d’éprouver en temps réel la pertinence des résultats obtenus inhérente à toute démarche « Bigdata », cette dernière est tout simplement inadaptée à cet usage qu’on veut lui prêter.
Une anonymisation soluble dans l’identification indirecte
Ensuite lorsque des entreprises envisagent pareil traitement des mégadonnées récoltées sur leurs employés et leur activité, comme Orange qui se propose de développer une « expérience salarié de qualité » dans le cadre de ses objectifs pour l’année 2020 (cf. essentiels 2020 : « Le Groupe veut construire un nouveau modèle d’employeur digital et humain, qui reposera sur une expérience salarié de qualité, socle d’une expérience client Orange réussie. ») , elles légitiment leur collecte et utilisation en soulignant que celles-ci sont d’abord rendues anonymes avant toute analyse.
Cependant si l’anonymat ne dispense pas de l’obligation fondamentale de finalité inhérente à tout stockage et traitement de données personnelles, il n’est envisageable que dans des circonstances très spécifiques, dixit Jean-Luc Bernard pour la CNIL : « Quand la loi ou les textes réglementaires l’exigent explicitement comme condition de leur mise en œuvre (ex : le recensement de l’INSEE), quand, dans l’état actuel du droit, il n’y a pas d’autres moyens d’utiliser des données provenant de fichiers nominatifs protégés, dès qu’un fichier de données nominatives doit "sortir" de son environnement naturel, quand les données personnelles réelles doivent servir à la constitution de jeux d’essai destinés aux équipes chargées du développement ou de la maintenance des applications informatiques ».
Cette prudence est d’autant plus légitime que le recoupement d’informations diverses – essence même du traitement des mégadonnées – permet de profiler les pratiques et usages de façons si précises qu’il devient possible d’identifier des individus sans avoir à les nommer : il s’agit de ce que les juristes du CNIL appellent l’ « identification indirecte », qui est de fait une perte d’anonymat.
Dans ces conditions dans quelle mesure un salarié peut-il faire valoir son droit à la consultation, la correction ou encore même l’oubli lorsque son profil est parfaitement identifié dans une base de données qui, si elle recense de façon exhaustive une multitude de détails sur sa vie, les attribue à un Monsieur X ? Cette impuissance touche à son paroxysme lorsqu’on réalise que c’est à travers sa ressemblance avec ce profil anonyme sur lequel il n’a aucune prise que les responsables d’un salarié pourront être amenés à décider de quelle façon gérer sa carrière…
Toujours plus de données… fausses ?
Si le « Bigdata » repose sur l’analyse de données de plusieurs natures, qu’elles soient statiques (date de naissance, sexe, etc) ou dynamiques (données d’usages), que se passe-t-il si les cobayes décident d’adopter des comportements déviants. En effet, si naturellement on ne triche pas sur sa date de naissance avec l’administration, pourquoi aurait-on des scrupules à mentir sur des offres commerciales ou les réseaux sociaux ?
Comme il est indéniable que la volonté d’une partie de la population à ne pas être tracé, suivi, la conduit inéluctablement à changer des clefs d’identification pour brouiller les pistes, il devient légitime de penser que les données d’usage ne sont plus véritables. Qu’en est-il vraiment des amis que l’on a sur Facebook avec lesquels ont interagit ? Sont-ils de vrais amis de la vie réelle ? Ne voit-on pas d’ailleurs d’ores et déjà apparaitre les premières mises en garde sur les publications de ses enfants sur les réseaux sociaux ?
Transposé à l’univers professionnel, quelle valeur accorder au déclaratif lorsqu’on voit déjà de quelle façon certains CV sont-ils arrangés ? En effet, les systèmes d’évaluation d’hôtels ou de sites touristiques peuvent avoir des vertus, mais en sera-t-il de même quand on évaluera ses collègues ou relations professionnelles ? En effet, tout comme dans certains jeux qui donnent le choix aux deux joueurs de s’entraider plutôt que de se battre entre eux pour maximiser leur score, n’en sera-t-il pas de même en cas d’évaluation croisée ?
Quant aux fiches de paye, leur dématérialisation conduit à la baisse drastique de la fiabilité de l’adresse du titulaire qui, n’ayant plus le besoin de la recevoir chez lui, ne prend plus la peine de modifier son adresse réelle, rendant impossible toute planification cohérente du déménagement d’un site pour une entreprise puisque ne sachant plus où ses salariés habitent.
Il n’y a donc aucune certitude, au-delà d’hypothétiques corrélations, que les bases utilisées soient fiables. De façon certaine les plus aguerris aux technologies de l’information seront ceux les plus difficiles à profiler. Faudra-t-il en conclure que moins une personne est traçable plus elle est de qualité ? Un comble pour les chantres du « Bigdata » qui affirment pouvoir découvrir les talents par son truchement.
Des ambitions irréalistes et leurs dérives
Sans entrer dans l’analyse de ce qu’Orange entend précisément en proposant à son personnel de vivre une « meilleure expérience salarié » par le truchement des vertus que prêtent les représentants de cette entreprise au « Bigdata », les points soulevés dans cet article illustrent combien ne suffit-il pas de reproduire l’excuse de la « meilleure expérience client » - par laquelle les GAFA et consorts justifient le traitement des données personnelles qu’ils ont appris à systématiser pour leur plus grand profit - pour venir à bout des avanies qui percluent aujourd’hui encore cette grande entreprise française.
Aussi même s’il est pertinent et nécessaire de savoir s’approprier les transformations induites par les nouveaux usages numériques, leur prêter des qualités inhérentes qui justifieraient leur application sans considération ni de leurs limitations, ni des particularités du contexte traité, relève d’une certaine béatitude qui, lorsqu’elle se refuse au dialogue pour vouloir s’appliquer de gré ou de force, touche avec une indéniable dangerosité à la dérive sectaire.
Pour en savoir plus :
- Les corrélations et leurs limites
- Les premiers pas d’Orange dans la gestion automatisée des carrières et compétences de ces salariés
- Le prix netexplo de 2015 remporté par Orange
- Un interview de Ludovic Guilcher qui développe un peu plus ce concept d’expérience salarié
- Les principes clefs du CIL en terme de protection des données personnelles
- Quand un CIL décide qu'une donnée doit être rendue anonyme