J'avais entendu Mme Cassin à la télévision, et que j'avais trouvé son discours assez réducteur. Je pense maintenant que c'était dû au format télévisé, qui ne permet pas d'exposer une réflexion poussée. J'ai d'ailleurs la même objection à l'égard du documentaire de National Geographic sur le livre Guns, Germs and Steel, avec l'auteur Jared Diamond : celui-ci y répète grosso modo une idée tout le temps. Je suppose qu'à la télévision, on ne doit pas tenter de faire passer plus d'une idée par émission.

Donc, l'ouvrage de Mme Cassin est plus intéressant que je ne l'aurais cru. Bien sûr, il n'apprend rien sur Google (ou du moins, rien qui ne soit anecdotique) à celui qui, connaisseur du monde de l'informatique et de l'Internet, a quelque peu suivi les péripéties des moteurs de recherche et de la numérisation des bibliothèques. Il est cependant assez évident que l'auteur vise plutôt un public plus orienté lettres et sciences humaines, et d'ailleurs déploie de louables efforts didactiques en expliquant certains concepts qui pourraient ne pas être connus de ce public. L'ouvrage n'est par contre pas orienté grand public, pour des raisons que j'exposerai plus loin.

L'effort est parfois maladroit. On a parfois l'impression que l'auteur a paraphrasé, sur différents sujets techniques, des articles de Wikipédia, ou s'est fait expliquer des choses sans toutefois vraiment les comprendre. Il y a quelques contresens, par exemple, page 202, une confusion entre standard ouvert et logiciel open source, page 203, Unix qualifié de logiciel libre, etc. Certaines coquilles font sourire : le pauvre Alan Turing, britannique notamment connu pour avoir contribué au déchiffrage des codes allemands pendant la Seconde guerre mondiale, voit son nom germanisé en Türing ; l'INRIA (institut spécialisé en informatique et automatique) se voit transformé en INRA (institut spécialisé en agronomie). Ceci dit, les erreurs ne concernent pas de points factuels fondamentaux, si ce n'est que j'ai l'impression que l'auteur n'a pas bien saisi la politique de neutralité de Wikipédia.

Malgré un nombre louable de citations, je regrette l'absence de références au sujet de certaines anecdotes. Par exemple, j'ai déjà entendu que Google utiliserait des micro-ordinateurs grand public (donc moins cher) pour fonctionner, et qu'ils auraient même des camions mobiles remplis de tels ordinateurs, afin d'avoir des renforts déplaçables (p. 57 – 58), mais je n'ai jamais trouvé de source sûre à ce sujet (« John Rushby me l'a raconté devant la machine à café » n'est pas une source acceptable pour autre chose qu'une conversation de cocktail). Il y a beaucoup de rumeurs qui circulent au sujet du fonctionnement de Google (ou de la National Security Agency, etc.) et il serait bien de hiérarchiser l'information à ce sujet entre ce qui est certain, ce qui est conjecturé, etc. (Ciel ! Alors que Mme Cassin reproche justement au Web de fournir une information non hiérarchisée...)



La façon de rédiger de Mme Cassin fera sans doute tiquer de nombreux lecteurs par sa propension à la citation de mots grecs dans le texte. Je crois d'ailleurs que l'on touche ici à une différence importante de conception de la rédaction entre la philosophie (et les lettres, par ailleurs), d'une part, et les sciences, d'autre part.

Dans ma discipline (informatique plutôt théorique), on recommande souvent aux rédacteurs d'articles scientifiques de limiter le nombre de références nécessaires à la compréhension des arguments essentiels du texte, et d'au besoin rappeler les concepts requis. Les remarques non essentielles à la compréhension, notamment celles établissant des comparaisons avec d'autres approches, sont souvent renvoyées en notes de bas de page. Ceci rejoint une certaine tradition en mathématiques : à l'oral de l'agrégation de mathématiques, le raisonnement exposé par le candidat doit pouvoir tenir « tout seul », et le candidat doit pouvoir répondre précisément et sans notes à toute demande de précision sur un terme, un théorème etc. auquel il fait référence. Le jury sanctionne très sévèrement les pédants qui font référence à des concepts avancés qu'ils ne maîtrisent pas parfaitement. Même si les concepts sont maîtrisés, on décourage la référence non nécessaire, selon le principe que le raisonnement doit pouvoir être compris et vérifié en lui-même.

Par ailleurs, la science a tendance à négliger l'œuvre littérale des grands scientifiques pour privilégier le concept, lequel peut être amélioré incrémentalement. Si ce qui était il y a un siècle un sujet de recherche (disons, les espaces de Banach) peut être exposé en premier cycle universitaire, si ce qui était il y a deux siècles un sujet de recherche (disons, les fonctions continues) a pu être exposé au lycée, c'est parce que l'on a pu raffiner les concepts, et notamment simplifier les explications en décomposant les raisonnements et les définitions en unités plus digestes intellectuellement qu'une longue démonstration monolithique. Les démonstrations originales sont souvent, en comparaison, assez illisibles. On respecte l'œuvre intellectuelle des grands noms de la science, mais on s'en sert comme base et non comme texte littéral.

Au contraire, le monde de la philosophie française me semble fonctionner sur le principe de la référence littérale. On emploie le même mot, on fait référence au texte original, que l'on considère comme une œuvre littéraire. Mme Cassin fait d'ailleurs référence à ce mode de fonctionnement qui, d'après elle, aurait construit « notre culture » (p. 25) : « critique des sources, établissement du texte, vérification obsessionnelle de la lettre, total respect d'une part ; œuvre, singularité, plaisir de la langue, totale jouissance de l'autre ». Je crains que, sur ce point, Mme Cassin n'assimile le terme de « culture » à celui de « culture en lettres et sciences humaines », mais ce dérapage sémantique est si fréquent dans son milieu professionnel que je ne lui en tiendrai pas rigueur.

Passées ces critiques de forme, venons-en au fond. À part sur quelques points secondaires, je suis d'accord avec les constats de Mme Cassin, que je vais résumer brièvement :

  • Google classe les pages selon des critères de popularité, et non de qualité ou de vérité. En effet, le fait qu'une opinion soit populaire ne veut pas dire qu'elle soit vraies. Par ailleurs, ces critères de popularité peuvent eux-mêmes être biaisés par des actions, souvent automatisées, visant à « optimiser » le classement d'un site.
  • Google offre des services multiples (recherche, courrier électronique etc.) grâce auxquels il collecte des informations sur les utilisateurs. Il n'y a cependant aucun engagement ferme de la part de Google quant aux usages qu'elle pourra faire de ces données. L'expérience montre que Google peut aussi bien refuser la transmission d'informations au gouvernement des États-Unis d'Amérique qu'accepter la transmission d'informations au gouvernement de la République populaire de Chine, pour des raisons d'opportunisme légal et commercial.
  • Google est en situation de quasi-monopole. (Au mieux, les big four américains, Google, Yahoo, Microsoft et AOL, constituent un oligopole.)
  • Le moteur de traduction automatique de Google (Systran) a tendance à produire une sorte de sabir et à déformer le texte original.

Bien sûr, ces constats ne sont pas nouveaux : ils circulent depuis des années dans les milieux liés à l'informatique et à Internet.

Je suis moins d'accord avec certaines des solutions proposées par Mme Cassin. Avant d'expliquer plus en détail pourquoi, je dois expliquer quelques concepts fondamentaux en ce qui concerne la conception de systèmes informatiques.

L'informatique doit faire avec des contraintes d'impossibilité. Il y a certaines choses dont on peut démontrer qu'elles ne peuvent être faites à la fois parfaitement et automatiquement (je donne ce résultat sans définition, ni explication, ni preuve, mais le lecteur intéressé pourra se reporter à la théorie de la calculabilité et notamment au problème de l'arrêt et au théorème de Rice). D'autres sont calculables par des moyens informatiques, mais à des coûts prohibitifs en temps et en matériel. Notamment, on s'intéresse à la croissance des coûts en fonction de la taille des données à traiter. Dans certains cas, ils croissent linéairement, en proportion de la taille des données (les temps de calcul peuvent alors être estimés à l'aide d'une simple « règle de trois ») : si, par exemple, on double le nombre de fiches de payes à traiter, alors le temps de calcul est doublé. Certains problèmes ont une complexité quasi-linéaire. D'autres ont une complexité quadratique : si l'on double le nombre de données à traiter, on quadruple le temps de calcul (aïe). La recherche de méthodes de calcul (algorithmes) de complexité de plus en plus faibles pour la résolution de problèmes est une des principales activités de la branche de l'informatique appelée algorithmique. On dit qu'un algorithme « passe à l'échelle » lorsqu'il permet de résoudre des problèmes de taille réelle (et non des exemples d'école).

Il est clair qu'un service comme Google, qui analyse des millions de pages et sert des millions d'utilisateurs, ne peut utiliser que des solutions qui passent à l'échelle. Par ailleurs, comme l'explique d'ailleurs Mme Cassin, la puissance de calcul de Google repose sur des armées de micro-ordinateurs, ce qui implique l'utilisation d'algorithmes qui se parallélisent bien, c'est-à-dire que l'on peut diviser la charge de travail entre un grand nombre de machines avec des pertes modestes d'efficacité. Il s'agit de contraintes très fortes : Google ne peut pas faire n'importe quoi.

Il est fréquent qu'il n'existe aucun algorithme, ou du moins aucun algorithme de coût acceptable, permettant de résoudre parfaitement un problème donné. On doit alors passer par des algorithmes d'approximation (qui donnent une valeur approchée), voire par des heuristiques, qui donnent dans de nombreux cas une réponse raisonnable au problème posé. Le fait que, sur certains exemples choisis, une heuristique propose une réponse clairement insuffisante n'est pas une raison suffisante pour la dédaigner ; nous sommes alors dans le monde du compromis (trade-off) entre qualité de la réponse et coûts. Notons l'analogie avec d'autres branches de l'activité humaine : lorsqu'on élabore les lois et règlements, on admet qu'elles puissent produire parfois des situations pénibles, parce qu'il serait impossible, trop coûteux (financièrement ou socialement) ou inefficace de procéder plus finement.

On ne sait pas mesurer informatiquement la qualité, la vérité d'un texte. On pense généralement que le problème de la compréhension d'un texte en langue naturelle (français, anglais etc., par opposition à des langues construites pour être facilement manipulables informatiquement) est équivalent à celui de l'intelligence artificielle, or on est loin de savoir produire des intelligences artificielles. On doit donc se reposer sur le jugement humain. Faute de pouvoir faire évaluer la qualité des pages par des experts (besoins humains considérables, difficultés de choix, etc.), on se repose sur leur popularité (d'où la doxa etc.). Comme il n'y a pas de mécanisme par lequel les utilisateurs votent sur la qualité des pages (et un tel mécanisme serait sans doute la cible d'abus), on se repose sur le « vote avec les pieds », ou plutôt le vote avec les clics : les pages les plus couramment consultées sont les plus populaires. On se repose aussi beaucoup sur le nombre de liens qui pointent sur une page donnée, d'où le fameux pagerank. On est clairement dans le domaine de l'heuristique : comme on ne sait pas mesurer effectivement ce que l'on désire mesurer, on mesure quelque chose de mesurable et qu'on espère corrélé à ce que l'on voulait.

Page 219, Mme Cassin propose que des « experts et des maîtres », et non un algorithme type pagerank, classent les sites. Elle ne propose cependant pas la moindre idée pour le passage à l'échelle de cette solution. Il y a des millions et des millions de pages Web en évolution constante, traitant souvent de sujets non strictement universitaires, que sur de nombreux sujets la notion même d'expert est douteuse (qui est expert en Diana princesse de Galles ? un journaliste people ?) : le problème est donc considérablement plus compliqué que le problème du choix des ouvrages d'une bibliothèque universitaire de lettres. Il me semble que pour avoir un début de réalisme, la proposition de Mme Cassin devrait se restreindre aux thèmes scolaires ou universitaires.

Quant au soutien affiché de Mme Cassin pour les projets européens Quaero (moteur de recherche) et bibliothèque numérique européenne, j'avoue là encore mon scepticisme. Contrairement à Google, qui répond à des besoins d'utilisateurs, ces projets répondent à une commande politique, émanant de responsables dont on peut dire charitablement qu'ils ne sont pas forcément très en phase avec les évolutions techniques et les usages qui en sont faits en pratique (M. Chirac en particulier). Les objectifs de ces projets ne sont donc pas forcément corrélés aux besoin ; par exemple, les besoins des utilisateurs français ne seraient-ils pas mieux servis par une bibliothèque numérique francophone (oublions-nous les francophones non européens) ? Et, surtout, l'organisation de ces projets me rappelle celle des fumeux projets européens en matière de recherche : politique, bureaucratie, lutte de pouvoir, et subventions aux entreprises sous couvert de développement technologique.

Comparons le fonctionnement européen au fonctionnement de Google. Tandis que le gouvernement français met à grand peine en place le site GéoPortail (peu pratique, fermé sur lui-même, etc.), Google améliore sont excellent service Google Earth. Tandis que les organismes publics de recherche français n'ont pas les moyens de se payer la cartographie de l'Institut géographique national (IGN), Google Earth leur fournit un outil de qualité. En résumé, Google répond aux besoins des utilisateurs, tandis que l'Europe répond aux besoins d'affichage des politiciens (et aux besoins de financements publics de divers industriels, dont l'attitude devant le financement public ressemble à celui d'une bande de gros chats devant une soucoupe de crème).

Par ailleurs, l'informatique doit composer avec des facteurs industriels et humains. Un projet, même bon, qui exige pour aboutir que des millions de personnes changent de manière de travailler, ou qui exige la modification ou la remise à niveau de millions de machines, est sans doute voué à l'échec, à moins qu'il n'émane d'un industriel au pouvoir prescripteur considérable (un quasi-monopole comme Microsoft). Contrairement à ce que l'on pourrait croire, il s'agit d'une industrie souvent très conservatrice. Mme Cassin suggère que si l'on n'a pas encore de caractères hors ceux de l'anglais dans les noms de domaines, c'est parce que le service est géré par les États-Unis. D'une part, cela existe déjà (même si cela est peu utilisé), d'autre part, cela pose différents problèmes techniques dont d'amusantes méthodes de phishing (escroqueries faisant passer un site Web pour un autre).

Je ne peux, par contre, qu'approuver les remarques de Mme Cassin concernant le droit d'auteur. Rappelons que le droit d'auteur (du moins, le droit patrimonial : droit à la rémunération) dure 70 ans après la mort de l'auteur, au profit de ses héritiers, et qu'il est courant que les auteurs concèdent à un éditeur leur droit exclusif d'édition de leur œuvre. Il existe donc de nombreuses œuvres qui ne sont plus éditées (car une réédition serait considérée comme commercialement non profitable) et dont la loi interdit l'édition par des tiers (sous peine de lourdes peines : 3 ans de prison, 300 000€ d'amende au maximum). Il faudrait sans doute une solution légale permettant la réédition des ouvrages de cette « zone grise », notamment via la diffusion par voie électronique ou l'impression en petite série. (Je note que naguère, aux États-Unis, le copyright expirait sauf action des ayant-droit pour demander prolongation.) Je ne me fais cependant aucune illusion sur la possibilité de changement à ce niveau, la loi française dépendant largement de directives européennes elle-mêmes dépendant de traités internationaux (Convention de Berne). La tendance serait plutôt, notamment sous la pression des industries du divertissement (cinéma...), de prolonger ces durées.

Mme Cassin propose par ailleurs une petite constatation amusante. Google se « sert » chez tout le monde en arguant du fair use, c'est-à-dire des exceptions légales au droit d'auteur aux États-Unis, bien plus étendues que les exceptions accordées en France par l'article L122-5 du Code de la propriété intellectuelle... mais en même temps, Google demande contractuellement aux bibliothèques (ou à seulement certaines) dont il numérise les collections une certaine exclusivité. Nous retrouvons là un comportement caractéristique, déjà présent chez les lobbies lors de l'examen de la loi DADVSI : chacun veut pouvoir copier librement et gratuitement les autres, et jouir en même temps de la plus large protection pour lui-même.

Mme Cassin propose intelligemment que les contenus numérisés soient mis à disposition de multiples prestataires. (Ce n'est pas pour m'envoyer des fleurs, mais j'ai défendu la même position devant des élus qui me mentionnaient des projets de numérisation avec concession exclusive à un prestataire commercial...) J'irais plus loin : le numériseur doit renoncer à exiger tout droit de reproduction (ces droits étant d'ailleurs d'une base légale douteuse en France : le fait d'utiliser un scanner ne donne pas la qualité d'auteur).

Que conclure au sujet de cet ouvrage ? Une appréciation méchante serait de lui appliquer ce que Mme Cassin dit de Wikipédia : « à quelque item que l'on trouve, c'est utile quand on ne connaît rien et souvent à pleurer dès qu'on connaît un peu » (p. 29) ou encore « Que veut dire donner à ceux qui ne savent pas ce dont ceux qui savent ne veulent pas pour eux ? ». Je pense notamment que certains contresens dénotent l'absence de relecture par quelqu'un du domaine informatique ou Internet.

Par ailleurs, les jugements portés relèvent souvent de la « doxa molle » que l'auteur reproche à Wikipédia : des sortes d'idées reçues qui flottent dans l'air intellectuel ambiant. Il n'y a rien de rebelle pour un « intellectuel » français à critiquer Google : c'est américain, et mené par des « techniciens », double tare impardonnable. Les différents constats (danger du monopole, limitation de l'approche PageRank, etc.) sont je pense assez consensuels. Les solutions proposées (vagues) reprennent les suggestions molles de Jean-Noël Jeanneney et d'autres.

Un point original de l'ouvrage — j'entends par là original pour une personne du milieu intellectuel de l'auteur — est la position défendue concernant l'évolution du droit d'auteur. Trop souvent, en effet, les positions défendues dans ce domaine relèvent de la mentalité d'assiégés. L'ouverture des collections numériques (par opposition à la fermeture, aux réclamations de droits, aux concessions exclusives), voilà un point sur lequel je pense que les idées de Mme Cassin rejoignent celles défendues par exemple par Wikimédia France.

Cependant, ce livre fait un louable effort de replacer et de structurer en un seul volume tout un tas de choses qui se disent ici ou là. Par ailleurs, les relations universitaires et médiatiques de l'auteur lui ont permis une publicité que ne pourraient espérer d'autres personnes, peut-être plus savantes au sujet d'Internet, mais qui ne jouissent pas de l'accès aux médias. De ce fait, elle a mis certaines problématiques importantes sur la place publique, ce dont je la remercie.