Bien comprendre la nature de l'information

Rédigé par -Fred- 7 commentaires
Classé dans : Informatique - Web Mots clés : aucun
Nous vivons dans un monde où l'information est partout, tout le temps et où il est impossible de s'en passer ou de lui échapper. Nous en sommes gavés et nous en mettons d'énormes quantités à disposition. Mais qu'est-ce que c'est au juste que l'information ? Il est peut être plus simple de dire d'abord ce qu'elle n'est pas pour comprendre ensuite ce qu'elle est et quels usages on peut en faire.



Ce que l'information n'est pas



L'information n'est pas une donnée. Confondre les deux, c'est un peu comme confondre une batterie et l'énergie qu'elle contient (cette image n'est pas parfaite mais convient bien je trouve pour ce point précis). Ce qu'il faut donc garder à l'esprit, c'est que l'information est quelque part contenue dans la donnée. La donnée peut contenir de l'information ou non, tout comme une batterie peut contenir de l'énergie ou non.

L'information n'est pas contenue indéfiniment dans la donnée. Une donnée ne contient une information que de manière temporaire. Dès lors que l'information nous est parvenue, alors la donnée ne contient plus d'information utile de notre point de vue. La donnée n'a pas changé mais son contenu dorénavant est connu. Typiquement, lorsqu'on veut savoir quel temps il va faire, on consulte le bulletin météo correspondant. Une fois que l'on a reçu l'information en question, il n'y a pas d'intérêt à consulter le même bulletin météo peu de temps après puisqu'il est peu probable que les données aient changé. Ce bulletin ne contient alors pour nous qu'une information vraisemblablement périmée et donc inutile. J'oppose ici information utile et information périmée. Si l'information est périmée, c'est comme s'il n'y avait pas d'information du tout.

L'information n'est pas perçue de manière universelle. En fait, l'information contenue dans une donnée ne dépend pas tant de la donnée que de celui qui l'observe. L'observateur est le seul à savoir ce qu'il recherche en analysant une donnée. Deux observateurs différents face à une même donnée vont possiblement retirer des informations différentes de cette donnée. Vous allez par exemple au restaurant avec des amis et êtes face au menu. Le menu est cette donnée que vous et vos amis, les différents observateurs, allez analyser. Certains chercherons parmi les plats proposés ceux dont le goût leur convient le plus, d'autres regarderons les prix en fonction des menus, d'autres enfin rechercheront les plats les moins caloriques ou toute autre chose encore. Fort des informations qu'il aura collecté, chacun fera ensuite des choix différents.

L'information n'a pas de forme particulière. Une même information peut être représentée sous forme analogique ou numérique. Qu'elle soit stockée sur une bande magnétique, sur un DVD ou une feuille de papier, cela ne change rien. La représentation retenu est fixée par le récepteur en fonction de ce qu'il espère retirer comme information. Une antenne reçoit indifféremment tous les signaux analogiques dans sa bande passante. Le rapport signal sur bruit est quelque chose que l'on peut représenter de manière analogique. Le signal reçu bien qu'étant lui même une grandeur physique, doit être représenté sous sa forme numérique pour être exploitable (si bien évidemment c'est un signal numérique qui est traité par l'émetteur, cela va de soit).

L'information n'est pas automatiquement lié à la libération d'une donnée. La non réception d'une donnée peut être une source d'information intéressante pour un récepteur. Un exemple tout bête, j'ai pensé il y a quelque temps (avant de me raviser) à ouvrir un service que j'utilise sur mon serveur uniquement aux heures et aux jours où je l'utilise. Bonne idée dans le sens où ce service ne serait visible qu'à certains moments et inaccessible autrement. Un récepteur autre que moi et constatant cela pourrait arriver à la conclusion que j'ai besoin d'accéder à un service depuis l'extérieur à certains moments de la journée. La bonne idée l'est alors un peu moins car le récepteur peut sans trop se tromper en déduire certaines de mes habitudes et ce, sans se lever de son fauteuil.

Qu'est ce que ça implique ?



Les erreurs d'appréciation de l’émetteur peuvent être tout à fait positives dans de nombreux cas. L'exemple le plus flagrant est celui de l'open data. Les données brutes (ou mieux encore, de flux de données) sont mises à disposition sans présupposer de l'usage qui peut en être fait. En ne présupposant volontairement pas de l'usage, on ne présuppose en fait pas de la quantité et de la nature des informations contenues dans ces données. Cela peut conduire à des traitements tout à fait intéressants et novateurs car d'autres trouvent de l'information et l'exploite là où on ne l'aurait parfois pas imaginé.

Il est par contre plus problématique, lorsqu'on libère une donnée, de donner accès à des informations sensibles sans s'en rendre compte. Vous annoncez par exemple sur votre compte de réseau social les dates durant lesquelles vous serez en congés dans ce magnifique camping au bord de la mer. La donnée est anodine et forcement, vous considérez qu'elle peut être publiée sans restrictions particulières. Pour vous l’émetteur, il n'y a pas d'information dans cette donnée. Vous souhaitez diffuser cette donnée pour faire savoir à vos contacts (les récepteurs) que vous serez à tel endroit durant telle période. C'est l'information que vous pensez que l'on peut retirer de votre donnée. Vous oublier cependant qu'une autre information peut être extraite de cette donnée : vous ne serez pas chez vous durant une période donnée. Cela posera un problème si l'un des récepteurs est mal intentionné et souhaite passer chez vous à l'improviste sans vous prévenir.

Il faut aussi avoir conscience qu'une donnée libérée peut être recoupée avec d'autres données libérées au préalable. Ces autres données peuvent être publique par ailleurs ça ne change rien sur le principe. Individuellement, chacune de ces données peut contenir de l'information pour un récepteur mais, et c'est ce qui est intéressant, la combinaison de ces données peut amener déduire d'autres informations. Les jeux de logigramme mettent ce principe en œuvre et avec quelques assertions simples, il est possible de retrouver un ensemble complet d'associations. Dans la vraie vie, avec un peu de logique, un récepteur ayant accès à des données multiples relative à un même objet ou à une même personne peut lui aussi dégager de l'information là où il n'y en a pas en apparence, surtout si on examine les données individuellement. C'est le principe de l'une des application que j'ai commencé à développer, grâce à laquelle j'espère visualiser l'actualité dominante sur une ou plusieurs sources de données et sur une période précise. C'est aussi de cette manière que les gros silos de données (GAFAM et les autres) profilent leurs visiteurs. La combinaison des jeux de données n'a pas de limite, pas plus que la quantité d'information que l'on peut en retirer.

Protéger les gens d'eux-mêmes



Ce billet n'est pas innocent de ma part. L'information est partout et pour autant, peu ont vraiment conscience de ce que ce terme recouvre. Mécaniquement, cela peut conduire à des erreurs d'appréciation au moment de la libération d'une donnée ou lorsque l'on doit estimer la valeur de cette donnée. J'ai volontairement omis dans ce qui précède le cas où la libération de donnée se fait à notre l'insu puisque c'est un autre problème. C'est la libération volontaire de données quand elle n'est pas maitrisée sur internet qui m'intéresse ici.

Rien n'empêche et n'empêchera cela de perdurer. Toutefois, la gestion de nos données et par ricochet des informations que l'on peut en extraire est l'un des plus gros enjeu de notre siècle. L'évolution des lois informatique et libertés en France illustre bien cela. Lorsque la première loi a été votée en 1978, elle visait à protéger les citoyens des abus d'un état qui aurait pu être trop intrusif. Durant les années 90, on commencé à protéger les citoyens aussi des abus dont ils pourraient être victime de la part d'entreprises privées. Aujourd'hui, les dernières modifications des lois informatique et libertés visent à protéger les individus d'eux-mêmes.

Il y a certainement plusieurs moyens pour protéger les gens d'eux-mêmes, ou mieux, qu'ils sachent se protéger tout seul d'eux-mêmes. Je continue à dire et à redire tout le bien que je pense de la centralisation du net, en espérant être lu au delà du cercle de ceux qui ne sont plus à informer (et pour lesquels ce que je raconte est périmé depuis des lustres). Il y a peut être des outils à créer, comme par exemple un moyen local qui ne soit pas couplé à un service en ligne et permettant d'analyser en temps réel l'ensemble des recoupements possibles avec les jeux de données que l'on libère (en ce moment, mon esprit divague en ce sens). Quoi qu'il en soit, peu importe la solution pour répondre à ce problème, elle doit être de mon point de vue située au plus proche de la source pour être efficace.

7 commentaires

#1  - Cascador a dit :

Hello,

Peux-tu me renvoyer vers un de tes articles où tu approfondis cette idée (ou me l'expliquer) : "Je continue à dire et à redire tout le bien que je pense de la centralisation du net" ?

Merci, Tcho !

Répondre
#2  - -Fred- a dit :

Bonjour,

Le déclencheur pour moi a été d'avoir vu la vidéo de la conférence de Benjamin Bayard "Internet libres et minitel 2.0".

L'idée générale, c'est qu'internet a été pensé au départ comme a-centré, contrairement aux autres réseaux de l'époque. Typiquement, au lieu du cas de figure où les clients en périphérie interrogent quelques gros serveurs dans le réseau, internet permet à toutes les machines d'être à la fois client et serveur.

Dans la vraie vie, en ce qui concerne la parole publique, on est plus proche d'un système centré que d'un système a-centré. En France par exemple, seulement quelques dizaines de milliers de personnes y ont accès, élus, journalistes, chefs d'entreprise, artistes... C'est approximatif mais l'idée est là. Moi, simple particulier lambda, je n'y aurai pas accès de manière régulière même si je trouve quelque chose d'intéressant à dire.

Internet, et notamment le web, permet de casser cela et place tout le monde au même niveau. Le blog d'un éditorialiste célèbre n'est pas moins difficile à atteindre que celui de n'importe quel autre blogueur moins connu. Dans les fait, l'éditorialiste célèbre profitera de sa notoriété publique pour mettre son blog en avant mais si un blogueur inconnu est bon, il sera lu tout autant. Ce qui est important, c'est que les verrous techniques ne sont plus là.

Toutefois, d'autres problèmes apparaissent sur internet. Bien que chaque machine sur le réseau puisse être client ET serveur, les utilisateurs tendent à n'utiliser leur machine que comme des clients leur permettant d'atteindre les serveurs sur le réseau. Ce qui pose un problème, c'est qu'en faisant cela, l'ensemble des utilisateurs favorisent l’émergence de centres sur le réseau. Plutôt que d'héberger chacun ses données sur sa machine, l'essentiel des utilisateurs les confient aux quelques gros acteurs sur internet. Mon observation est assez binaire mais dans les faits, ce qu'il faudrait faire ET pourrait être fait se trouve à mi-chemin entre ces deux extrêmes.

La vraie richesse des gros acteurs du réseau, ce n'est pas la taille de leur infrastructure ou la taille des tuyaux dans lesquels ils font passer leurs données. C'est le nombre de leurs abonnés et la quantité de données qu'ils leurs fournissent. Forts de ces données, chaque opérateur détient un certain pouvoir sur ses abonnés.

Facebook a récemment fait une expérience sur 700 000 de ses utilisateurs anglophone (expérience réalisée à leur insu) afin de déterminer si les émotions exprimées par leurs contacts influait sur leur humeur. Pour information, la réponse est Oui. Le gros problème de cela, c'est que l'expérience montre qu'il a été possible d'influencer de manière significative un grand nombre de personnes en modifiant juste quelques réglages sur un serveur.

Imaginons à présent qu'un acteur ayant le même pouvoir dans n'importe quel pays démocratique s'amuse à influencer la proportion d'indécis avant une élection a favorise un candidat au détriment des autres. Cela peut faire basculer une élection.

Répondre
#3  - Cascador a dit :

Ok mais justement je ne vois pas pourquoi tu recommandes la centralisation du net ? "Je continue à dire et à redire tout le bien que je pense de la centralisation du net".

Tcho !

Répondre
#4  - -Fred- a dit :

Ok, je vois mieux moi aussi ce que tu voulais dire.

l'expression "Je continue à dire et à redire tout le bien que je pense de la centralisation du net" signifie que je parle (très) régulièrement de cela sur mon blog et que j'ai simplement un avis assez clair à ce propos.

L'expression me semble assez naturelle mais doit se comprendre de manière décalée. J'ai cherché un peu le nom que l'on donne à cette figure rhétorique et c'est une Litote (je m'endormirai un peu plus savant ce soir :D ).

Bref, tout s'explique : non, je ne recommande pas (du tout) la centralisation du net, surtout quand on peut faire autrement simplement.

;)

Répondre
#5  - Clèm a dit :

Bonjour,

Le paragraphe sur la perception de l'information me semble erronée en l’état. Une information me semble être perçue de manière universelle. Différents traitements de données, ou observateurs pour reprendre le lexique du billet, permettent d'extraire différentes informations. L'information peut être subjective mais pas relative. Le traitement des données menant à l'information est quant à lui relatif.

Je reprends l'exemple du menu. Les données sont les différents items du menu. L'information est ce qui est disponible dans ce restaurant. Quelque soit l'observateur, cette information sera la même. Conclusion partielle, certaines informations ne sont pas subjectives.

Chercher ce que l'on aime sur le menu relève du traitement des données, pas de l'information elle-même.
Maintenant, les observateurs cherchent à apprécier la qualité du choix. Chaque observateur va donc sommer l'ensemble des items proposés qui lui convient (relatif, dépend de l'observateur) et le comparer soit de manière relative au nombre d'items total soit à un nombre arbitraire.
L'information obtenue est cette fois-ci subjective et dépendra de l'observateur.

Je pousse un tout petit peu plus loin. Un observateur regarde le manu, estime la qualité de ce dernier. Il donne l'information a une autre personne. L'interlocuteur reçoit l'information sans les données. L'information étant la conclusion du traitement des données, l'information propagée par l'observateur ne dépendra pas de l'interlocuteur, par exemple "Le menu propose un large choix de bons plats".

Répondre
#6  - -Fred- a dit :

@Clèm :
Bonjour,

En fait, l'exemple du menu ne traduit pas exactement le fond de ma pensée puisque chaque observateur dispose de ses propres moyens pour capter de la donnée. Ce n'est pas flagrant pour l'exemple du menu mais dans le cas de signaux en milieu marin par exemple, ce que je voulais dire est peut être plus facile à expliquer. Chaque observateur va capter avec ses propres moyens, mettons pour chacun un sonar différent, les mêmes signaux émis par le milieu qu'il observe. Les données captées vont varier en fonction des caractéristiques propres du sonar de chaque observateur (je ne parle même pas de la capacité de traitement de chaque observateur sur les données brutes produite par son sonar). En somme, chaque observateur peut déjà au départ observer un jeu de données différentes. De même, avec une bonne vue, je vois plus de choses qu'un autre avec une moins bonne vue (la scène observée étant la même).

"Le menu propose un large choix de bons plats" --> l'information que captera l'interlocuteur dépendra encore de sa capacité à capter l'information. Si l'interlocuteur entend mal, il captera autre chose que ce que lui dit celui qui a observé le menu.

Je me trompe peut être mais ça ne me semble pas si universel que ça. En tout cas, ta manière de voir est intéressante.

Répondre
#7  - Clèm a dit :

Je crois qu'on exprime la même idée, mais c'est sur le vocabulaire qu'on se heurte.
Je pense qu'on peut définir une information par le résultat d'un traitement de données. Je n'ai pas réfléchi plus que ça, mais c'est ce qui m’apparaît à première vu.
Les moyens pour capter les données sont la part qui concerne le traitement des données.
Par une même série de données, différents traitement donneront différents résultats, donc différentes informations. Un même traitement par différent observateur donnera la même information, à ceci prêt que la connotation peut varier d'un observateur à l'autre.
Je pense qu'une manière correcte de dire "L'information n'est pas perçue de manière universelle" est "L'information dégagée n'est pas universelle."

Répondre

Écrire un commentaire

Quelle est la dernière lettre du mot l0afm ?

Fil RSS des commentaires de cet article