La vie est mal configurée

Aller au contenu | Aller au menu | Aller à la recherche

vendredi, mars 17 2017

Les missions des enseignants-chercheurs

J'évoquais dans mon billet précédent un récent article du Canard Enchaîné évoquant les conditions auxquelles un professeur des universités est employé comme déontologue de l'Assemblée nationale. Une chose me dérange dans la présentation donnée par le Canard, comme d'ailleurs dans d'autres affaires semblables : le travail du professeur des universités n'est évoqué que sous l'angle des heures de cours à effectuer, et de l'éventuelle dispense totale ou partielle d'assurer celles-ci. Le lecteur non averti pourrait concevoir la fausse idée que le travail d'un professeur des universités se limiterait à donner 192 h de cours par an !

Selon le Code de l'éducation (article L952-3),

« Les fonctions des enseignants-chercheurs s'exercent dans les domaines suivants :

  1. L'enseignement incluant formation initiale et continue, tutorat, orientation, conseil et contrôle des connaissances ;

  2. La recherche ;

  3. La diffusion des connaissances et la liaison avec l'environnement économique, social et culturel ;

  4. La coopération internationale ;

  5. L'administration et la gestion de l'établissement. »

Ainsi, outre l'enseignement proprement dit, un professeur ou maître de conférences des universités a des missions d'administration de l'enseignement, d'administration de la recherche, de vulgarisation, de valorisation (dépôts de brevets, collaborations avec l'industrie…). Quant à l'enseignement, le travail ne se limite pas à 192 h de cours par an (en réalité, 192 h « équivalent TD ») — en effet ce décompte ne tient pas compte du temps de préparation des cours (parfois très lourde s'il s'agit d'aborder un sujet nouveau pour l'enseignant, s'il y a rédaction de supports de cours, etc.), de la rédaction de sujets d'examen et de leur corrections, des oraux, des jurys, de la coordination des enseignants…

Quant à la mission de recherche, elle concerne toutes les disciplines et non seulement les « sciences exactes » (c'est sans doute évident pour certains lecteurs mais pas pour tous). Ses modalités varient considérablement d'un domaine à l'autre, mais on retrouve il me semble partout qu'il s'agit de développer de nouvelles idées ou connaissances, ou de valider ou invalider des idées existantes, dans le respect de certaines règles et notamment de la méthode scientifique, avec in fine la publication de résultats validés par les pairs scientifiques.

De plus, notons que les 70000€ annuels de salaire cités dans l'article du Canard ne concernent pas l'ensemble des professeurs des universités, mais seulement ceux de « classe exceptionnelle » (grade auquel on peut éventuellement accéder en fin de carrière et dont l'accès est plafonné afin de lui conserver son caractère exceptionnel).

Le déontologue de l'Assemblée nationale et les activités privées des professeurs de droit

Le Canard Enchaîné a révélé que le déontologue de l'Assemblée nationale exerçait cette fonction en sus de son activité principale de professeur en droit public sans que son université ait autorisé un cumul de rémunérations. C'est l'occasion pour moi de quelques rappels.

La règle générale est qu'un fonctionnaire « consacre l'intégralité de son activité professionnelle aux tâches qui lui sont confiées » (loi n⁰83-634 du 13 juillet 1983, article 25 septies) et ne peut exercer d'activité secondaire rémunérée qu'avec l'autorisation de son employeur, quelle que soit l'ampleur de cette activité, qu'il s'agisse d'une conférence de deux heures ou d'un travail tout au long de l'année. Le non-respect de cette règle peut entraîner des poursuites disciplinaires, en sus du remboursement à l'employeur public des sommes indûment perçues.

Je connais deux exceptions à cette règle (ibid., V) — il peut en exister d'autres. La première concerne les rémunérations en droits d'auteur pour la production d'œuvres de l'esprit (publication de livres, notamment). La seconde concerne « les membres du personnel enseignant, technique ou scientifique des établissements d'enseignement et les personnes pratiquant des activités à caractère artistique [, qui] peuvent exercer les professions libérales qui découlent de la nature de leurs fonctions. ». Notamment, les professeurs de droit peuvent exercer une activité d'avocat, si ce n'est qu'il ne peuvent plaider au profit d'une personne privée contre l'État. Si ces exercices libéraux ne sont pas soumis à autorisation, il existe un système de déclaration préalable (dont j'ignore le caractère obligatoire).

Il arrive que des fonctionnaires exercent des activités secondaires soumises à autorisation préalable sans cette dernière. Le cas le plus fréquent est qu'en raison de la désorganisation des organismes publics, il ne leur est possible de demander l'autorisation qu'après le début de l'activité — j'ai ainsi demandé, et obtenu, une autorisation pour donner des cours en master deux mois après le début des dits cours car les établissements co-gérant ce master ne s'étaient pas mis d'accord sur qui devait payer les vacations des enseignants, or le formulaire d'autorisation demande le nom de l'établissement payeur. Il paraît — quelle horreur ! — que certains exercent sans autorisation des activités auprès d'employeurs privés en tirant partie du fait que ceux-ci, au contraire de tous les employeurs publics dont j'ai la connaissance, n'exigent pas la production de cette autorisation avant de verser la rémunération.

Il est extrêmement surprenant pour moi qu'un professeur de droit ait pu ignorer pareilles règles, que n'importe quel chercheur en sciences connaît, et qu'un organisme public — l'Assemblée nationale — ait accepté de verser une rémunération à un fonctionnaire sans exiger une autorisation de cumul. Il est vrai que le Parlement semble le royaume des exceptions aux lois qu'il vote et au fonctionnement normal des conditions d'emploi et d'indemnisation...

On s'est ému, à juste titre, de la trop grande proximité de certains chercheurs en biologie ou médecine avec des groupes de pression et des industriels ayant avantage à ce que la dangerosité, l'innocuité ou l'efficacité de tel ou tel produit ne soit établie. Encore ces chercheurs ne peuvent-ils exercer d'activité rémunérée au profit de ces industriels qu'avec une autorisation — et, à ma connaissance, au moins au CNRS, la délivrance de celle-ci donne lieu à contrôle d'éventuels conflits d'intérêts.

Je m'étonne, dans ces circonstances, du blanc-seing accordé à des activités libérales dans des domaines tels que le droit ou l'économie. Doit-on admettre, par exemple, qu'un professeur de droit consulté par la puissance publique au sujet de la législation et de la réglementation d'un domaine soit en même temps consultant ou avocat pour les industriels et autres intérêts privés de ce domaine ?

dimanche, mars 12 2017

Geneviève Fioraso regretterait-elle la création du millefeuille administratif ?

Vendredi dernier, Mme Geneviève Fioraso, députée de l'Isère et surtout ancienne ministre de l'enseignement supérieur et de la recherche, prononçant une petite introduction inaugurale avant l'exposé de Guillaume Poupard, a remarqué que les dirigeants politiques avaient suscité la création de trop de nouvelles structures et a souhaité que les universitaires soient plus sages.

Ces propos font écho à d'autres de la même Geneviève Fioraso, inaugurant le laboratoire d'excellence Persyval, où elle faisait remarquer qu'on avait créé beaucoup, peut-être trop de nouvelles structures (LABEX, IDEX, etc.).

Je ne peux m'empêcher de me demander pourquoi et comment des dirigeants politiques en viennent à expliquer qu'ils ont pris de mauvaises décisions comme s'il s'était agi d'une fatalité, de décisions extérieures à eux.

J'aurais aimé que Geneviève Fioraso explique — bien entendu pas lors de ces inaugurations, ce n'était pas le sujet — pourquoi elle a mené cette politique qu'elle semble regretter et qui a abouti à des mille-feuilles administratifs.

samedi, mars 11 2017

Les solutions miracles dans l'enseignement de l'informatique

Depuis quelque temps, les médias vantent la « pédagogie innovante » de certains établissements atypiques d'enseignement de l'informatique. En résumé, on laisse les étudiants se débrouiller et interagir, et ils deviennent des programmeurs, sans avoir à suivre de cours, sans nécessiter d'enseignants. Le sous-entendu est évident : les méthodes classiques d'apprentissage universitaire (cours, travaux dirigés, travaux pratiques) sont inadaptées, les enseignants universitaires dépassés, les apprentissages peu réalistes par rapport aux attentes industrielles…

J'ai une certaine expérience de l'enseignement de la programmation. Je discute avec mes collègues. Voici comment cela se passe, souvent, dans une vraie séance de travaux pratiques (TP) :

Un étudiant se plaint que « ça ne fonctionne pas » et que l'ordinateur s'est trompé (alors qu'évidemment l'erreur est dans ce qu'il a écrit).

Un étudiant dit qu'il n'y a pas de documentation, ou se plaint que celle-ci est en anglais (à peu près toutes les documentations techniques de programmation sont en anglais).

Un étudiant asiatique tape du code sans jamais essayer de l'exécuter car il ne sait pas comment faire et n'ose pas demander.

Un étudiant copie du code sans le comprendre depuis un autre programme.

Un étudiant se plaint que « ça ne marche pas », on lui dit de lire les messages d'erreur et notamment le premier, il ne le fait pas et continue de regarder son écran en disant « ça ne marche pas ! ».

D'une façon générale, un TP de programmation débutants, c'est pour l'enseignant entendre un flux interrompu de « monsieur ! » (et pour l'enseignante, « madame ! ») et courir d'un étudiant à l'autre, chacun coinçant sur son problème.

Autant dire que quand on a cette expérience, on éprouve un certain scepticisme quant à la portée d'une pédagogie fondée sur le travail autonome, sans enseignants. Non que cela soit impossible — on connaît bon nombre de gens ayant appris la programmation par eux-mêmes, c'est d'ailleurs mon cas — mais manifestement cela ne convient pas à de très nombreux étudiants, sans doute la majorité.

Une telle pédagogie convient à des étudiants autonomes, débrouillards, ayant un niveau minimal de lecture en anglais. Que faire des autres ? Et même pour des personnes débrouillardes, il y a le risque de perdre du temps sur des blocages qui se régleraient vite en recourant à un enseignant.

Voici pour la programmation. On voit d'autres évoquer ce type de pédagogie pour enseigner « l'algorithmique » à des étudiants sans prérequis. Or, au-delà d'un certain point en algorithmique (notamment quand on veut justifier le bon fonctionnement de certains algorithmes, ou encore borner le nombre d'opérations qu'ils effectuent), on est obligé de faire appel aux mathématiques. Ceci nécessite une certaine aisance : notations, concepts, comment on rédige une démonstration…

Il est vrai que de nombreux métiers de l'informatique n'exigent guère de connaissances d'algorithmique — une bonne partie de la programmation d'applications consiste à assembler des composants rédigés par d'autres et qui contiennent les éventuelles parties proprement algorithmiques. Quoique… à vouloir assembler des composants sans comprendre comment ils fonctionnent et notamment dans quelles circonstances ils sont efficaces ou inefficaces, on obtient parfois des systèmes qui ne supportent pas la montée en charge ! Bref, former à la programmation sans algorithmique, ou à l'algorithmique sans mathématiques, me semble former à des métiers d'exécutants qui auront besoin de personnels à la formation plus complète pour concevoir les parties plus délicates et dimensionner les systèmes.

Passons aux clichés sur l'enseignement universitaire. On voit des gens parler comme si à l'université l'informatique se faisait en cours magistraux, sans manipuler d'ordinateur ! Je ne connais aucun établissement français où cela soit le cas, quoiqu'en raison des restrictions budgétaires les TP se font maintenant en très grands groupes et que dans certains endroits on doit mettre 2 voire 3 étudiants par machine…

On entend également qu'à l'université on apprendrait des technologies dépassées. Ici, il convient de rappeler quelques faits relatifs aux choix pédagogiques en informatique « pratique » et notamment aux choix de langages de programmation utilisés en enseignement.

Certaines technologies sont pérennes. Par exemple, on enseigne les langages de programmation C et C++ parce que, bien que ceux-ci évoluent, ils existent depuis les années 1970 et 1980 respectivement et vont probablement continuer à être largement utilisés pendant des décennies. En revanche, certaines technologies sont lancées en grande pompe par un industriel, ne « prennent » pas et sont abandonnées (que l'on songe à Microsoft Silverlight, lancé en 2007, coulé en 2012). Dans les cursus, on va tenter d'enseigner des technologies pérennes et non la dernière mode du moment.

Par ailleurs, une partie du public étudiant n'a pas une vision très claire sur ce qui est ou non une technologie d'actualité. Je me rappelle cet étudiant qui me reprochait d'enseigner Java, selon lui un vieux truc, alors que « tout le monde fait du C++ » — Java était le langage à la mode, plus récent que C++. « Tout le monde utilise X » peut vouloir dire « l'entreprise où travaille mon frère utilise X ».

Derrière ces reproches faits à l'université, derrière la promotion sans réflexion ni recul de méthodes d'enseignement censément innovantes, qu'il y a-t-il ? Le dénigrement de l'enseignement public sert bien entendu la communication de l'enseignement privé (et ce n'est pas parce qu'une célèbre école privée est gratuite que d'autres ne sont pas à but lucratif). Il sert également les projets de ceux qui veulent démanteler le public au motif qu'il serait inefficace et dépassé.

Le fantasme de l'école sans enseignants, et pourtant « plus efficace », rejoint celle des MOOCs, ces cours en ligne déjà quelque peu passés de mode. L'accroissement de la productivité depuis la Révolution industrielle est passée par l'automatisation : là où il fallait de nombreux paysans, un seul suffit pour conduire une machine ; on a remplacé caissiers et guichetiers par des automates ; un seul chauffeur, bientôt aucun chauffeur, conduit un camion qui transporte bien plus que les charrettes d'antan. Pour l'enseignement, on en reste à payer une personne pour s'occuper d'un certain nombre d'étudiants. Il est donc tentant de chercher à automatiser cela.

Là encore, il y a beaucoup de naïveté. Que l'on puisse remplacer un cours magistral en amphithéâtre de 500 places par une vidéo, pourquoi pas — on ne peut pas dire qu'il y a beaucoup de rapport entre l'enseignant et son public dans une telle configuration, bien qu'il soit tout de même possible d'observer le regard des étudiants et d'en déduire s'ils suivent ou pas. Mais comment remplacer des travaux dirigés ou pratiques ? Là où il suffit de poser une question à l'enseignant et obtenir une réponse rapide, il faut lancer une question en ligne… Et si l'université doit payer des enseignants pour répondre à ces questions (avec tous les risques d'incompréhension inhérents à la communication distante), quelle économie est vraiment réalisée ? Enfin, quelle discipline de fer est supposée de la part des étudiants !

Il est possible que des solutions d'étude en grande autonomie soient efficaces en formation initiale, pour des publics dégoûtés par le fonctionnement scolaire habituel, ou en formation continue, pour des personnes déjà expérimentées et qui veulent avoir la liberté de leur emploi du temps. Il me semble en revanche parfaitement irréaliste de supposer qu'elles forment une solution miracle pour l'enseignement de masse.

vendredi, mars 10 2017

Guillaume Poupard à l'inauguration du Data Institute de Grenoble

J'étais cet après-midi au colloque d'inauguration du Data Institute de l'Université Grenoble Alpes, en présence de Mme Geneviève Fioraso, députée, et de mes collègues Lise Dumasy, présidente de l'Université Grenoble Alpes et de Patrick Lévy, président de la COMUE.

Guillaume Poupard, directeur général de l'Agence nationale pour la sécurité des systèmes d'information (ANSSI), a prononcé une allocution et répondu à des questions. Je vais ici tenter de donner un résumé de ses propos ; bien entendu, il est possible que je pèche par omission ou mauvaise compréhension. Guillaume Poupard a notamment tenu par moments à distinguer sa position personnelle de celle tenue à titre officiel par l'ANSSI, et je n'ai pas forcément noté toutes ses précautions oratoires. Toute erreur ou expression malheureuse devra donc être portée à mon compte.

« La sécurité informatique ne se limite pas à la technique. Souvent, d'ailleurs, la technique est connue mais ce qui pèche c'est sa mise en œuvre.

Il y a déjà eu en France de terribles intrusions dans des systèmes de traitement d'informations. Les conditions de sécurité sont souvent abominables. Parfois, les attaquants étaient rentrés dans les systèmes depuis des années avant d'être détectés… avec des conséquences dramatiques.

Encore ne s'agit-il là que de vols de données. Il y a pire : les attaques sur les systèmes critiques — industriels, bancaires, etc. Ceux qui sont capables de les attaquer avec succès attendent l'instant opportun où ils pourront créer des perturbations répondant à leurs buts.

En conséquence, la cybersécurité doit être une préoccupation de gouvernance au plus haut niveau et non pas seulement au niveau des experts en sécurité des systèmes d'information. Sur tous ces sujets, l'ANSSI travaille en bonne intelligence avec la CNIL (Commission nationale de l'informatique et des libertés).

Dans une approche traditionnelle de la sécurité, on considère la question de la sécurité des systèmes de traitement d'informations séparément de la question des traitements qu'ils opèrent et des données qu'ils entreposent : on sépare le contenant du contenu. Une telle approche n'est plus possible lorsque l'on considère le cloud, avec externalisation du traitement de données.

Dans quels cas est-il ou non raisonnable d'utiliser le cloud ? L'ANSSI a un processus de qualification de prestataires. Le recours au cloud peut d'ailleurs améliorer la sécurité, puisque les prestataires spécialisés ont des moyens techniques qui vont au-delà de ce que peuvent faire en la matière la plupart des petites et moyennes entreprises, où souvent les aspects informatiques sont gérés par des personnels dont ce n'est pas le métier dans le temps qu'il leur reste.

L'Internet des objets (IoT, Internet of Things) pose des problèmes nouveaux, notamment pour les objets connectés médicaux. Par exemple, comment appréhender la sécurité d'un pace-maker ? Pour des applications moins critiques, la sécurité est hélas souvent une préoccupation très secondaire des fabricants, qui voient en elle des coûts et des délais supplémentaires — l'objectif est le time-to-market, la présentation à Las Vegas au consumer electronics show.

Les géants du Web, les GAFA (Google Apple Facebook Amazon) échappent de plus en plus aux états — on le voit déjà fiscalement. On parle beaucoup du Big Data, buzzword actuel qui désigne ce que l'on appelait naguère fouille de données ou data mining — et aussi de deep learning, approche actuellement à la mode pour mener à bien le vieux programme de l'intelligence artificielle. Que penser d'un monde où 3 ou 4 « intelligences artificielles » collecteraient les données de toute la planète ?

Des compagnies d'assurance peuvent vouloir proposer des polices moins chères aux personnes en bonne santé qu'à celles en mauvaise santé. On s'émeut de la confidentialité d'informations relatives à des problèmes de santé, mais qui songe à dissimuler sa bonne santé… qui peut s'inférer par recoupement de diverses données.

Le règlement européen sur la protection des données est une avancée. La notion de donnée personnelle n'a longtemps pas été claire ; mais maintenant les juristes considèrent que l'adresse IP en est une. Cela n'est pas sans poser des problèmes pour l'analyse forensique de sécurité : celle-ci s'appuie sur des journaux de connexions comprenant de telles adresses… Et pour des raisons de sécurité on peut vouloir conserver de telles informations 10 ans après une attaque !

Le statut de la donnée est chose complexe. Des données sensibles peuvent, après anonymisation et autres traitements, être utilisées pour produire des données publiques. Par exemple, pour la production de prévisions météorologiques publiques on utilise des données confidentielles défense de certains senseurs.

Dans certains traités commerciaux internationaux en cours de négociation (TAFTA etc.), on évoque la libre transmission des données (free flow of data). Les législations ou réglementations nationales interdisant ou restreignant la transmission de certaines données vers d'autres pays seraient alors considérées comme faussant la concurrence. À ce sujet, il ne faut pas confondre, comme on le fait parfois, la libre transmission des informations, une forme de liberté de parole, avec la libre transmission des données. Le 6 et 7 avril prochain on discutera de ces sujet à l'UNESCO.

On parle parfois de cyberguerre. Dans la guerre à l'ancienne, on se battait pour des territoires. Même si de tels conflits subsistent, on se bat de nos jours plutôt pour des ressources naturelles. Demain, se battra-t-on pour des données ? Le Manuel de Talinn est un guide rédigé par un groupe d’experts mandatés par l’OTAN, qui propose une transposition du droit international aux cyberconflits.

Il ne faut pas opposer sécurité et Open Data, l'accès ouvert aux données notamment publiques. Le réflexe pourrait être de tout garder secret ; il vaut mieux procéder à une analyse de risque. Sur ces sujets, l'ANSSI discute beaucoup avec Henri Verdier, administrateur général des données de l'État.

Sur tous ces sujets, l'ANSSI travaille. La moitié des travaux de ses chercheurs sont publics, l'autre moitié confidentielle. Elle collabore actuellement avec le monde universitaire et de la recherche surtout dans les domaines techniques ; il s'agit d'étendre ces collaborations à d'autres domaines.

Abordons maintenant la question des données relatives aux attaques informatiques. Bien entendu, ces données sont précieuses pour les chercheurs et les développeurs de moyens de sécurisation et il est souhaitable qu'elles soient disponibles. On ne peut pourtant pas aveuglément disséminer les informations relatives aux entreprises attaquées. Il ne faut pas perdre de vue qu'il s'agit là de victimes, qui attendent que leurs problèmes soient traités confidentiellement afin de ne pas souffrir de la publicité négative. Une solution est d'extraire et de diffuser des marqueurs et signatures des attaques ; mais ceci demande un travail important.

[Note personnelle : il existe le même problème en matière de vérification automatique de sûreté de fonctionnement des logiciels. Les industriels attendent des solutions qui fonctionnent bien sur leurs cas d'espèce, mais refusent de communiquer ceux-ci aux chercheurs, qui ne peuvent donc pas adapter leurs méthodes et leurs outils en fonction. In fine, tout le monde est mécontent : les industriels trouvent que les outils sont inadaptés à leurs besoins, les chercheurs prennent des exemples artificiels.]

On évoque les pratiques des services douaniers de certains pays (États-Unis), qui ordonnent aux voyageurs de donner accès à leur ordinateur ou téléphone, de communiquer des mots de passe, etc., sous peine d'être renvoyés par le prochain vol. Une suggestion, à titre personnel, serait d'appliquer les mêmes méthodes par réciprocité aux voyageurs de ces pays entrant en France et en Europe. On a vu par le passé l'efficacité de cette mesure, par exemple quand le Brésil a imposé la prise des empreintes d'identité des voyageurs américains.

La situation de l'ANSSI comme service du premier ministre (et non comme autorité indépendante comme la CNIL) est adaptée. En cas de crise majeure, il faut être en mesure de prévenir rapidement président et premier ministre.

D'autres pays ont fait le choix de regrouper au sein du même service les activités d'espionnage et celles de protection contre les intrusions (les États-Unis au sein de la NSA, le Royaume-Uni au sein du GCHQ). Ce n'est pas le choix de la France ; il s'agit de deux métiers distincts, même si des contacts peuvent et doivent exister. L'ANSSI est donc parfois informée d'intrusions par des services secrets étrangers.

La suppression de la possibilité de voter par voie électronique aux élections législatives pour les Français de l'étranger a suscité la polémique. Malheureusement, malgré des travaux de sécurisation y compris ces derniers mois, la plate-forme utilisée n'était pas robuste et au niveau des menaces.

En matière de vote électronique, il existe des études théoriques très avancées. Le problème là encore est plus dans la mise en œuvre.

Il faut également rappeler l'actualité de ces derniers mois. Le comité national du Parti démocratique américain (DNC) a fait l'objet d'une attaque informatique qui a donné lieu à des divulgations d'informations — il y a d'ailleurs certaines similarités avec l'attaque sur TV5 Monde. Cela a-t-il déstabilisé le processus démocratique au point d'en changer le résultat ? Nous ne le saurons jamais.

À ce sujet, notons qu'en cas de révélations massives de courriers électroniques et autres données, il est aisé de rajouter au milieu d'informations véritables des fausses informations. Des campagnes de désinformation peuvent ainsi être menées.

Outre ces aspects, les élections posent bien sûr des problèmes classiques de sécurité informatique en ce qui concerne les systèmes de collation des résultats. »

Mme Fioraso a demandé ce que l'on entend par « darknet » et s'il est possible pour une agence comme l'ANSSI d'y recruter des experts.

« Le Dark Net est une expression de journaliste. Il s'agit, en bref, de services Internet non indexés par les moteurs de recherche et mis en place par des gens qui veulent y traiter à l'abri des autorités. On y propose un grand nombre de produits et de services illicites. Le Dark Net donne lieu à bon nombre de fantasmes, mais il ne s'agit pas que de cela.

L'ANSSI recrute des hackers au sens originel du terme, c'est-à-dire des personnes qui aiment la technique, des « bidouilleurs » mais sans connotation péjorative. Elle ne recrute pas de pirates. Ses personnels sont habilités au confidentiel défense, elle ne peut se permettre de recruter des individus peu fiables ou délinquants.

On nous demande si des terroristes pourraient mener des cyberattaques.

Il existe actuellement des groupes mafieux aux bénéfices importants — on parle de milliards — tirés d'attaques informatiques, par exemple du blocage et chiffrement des données dans des ordinateurs avec exigence de rançon pour leur déchiffrement.

Ces groupes mafieux, opérant pour leur profit, peuvent fort bien vendre leurs services à des pays ou groupes hostiles qui n'auraient pas sinon les compétences et capacités de mener eux-mêmes des attaques. Il n'y a d'ailleurs même pas besoin que commanditaires et commandités se rencontrent physiquement. Il y a déjà eu des attaques inhabituelles qui pourraient relever de ce genre d'arrangements.

À plus petite échelle, on trouve sur le Dark Net des prestataires d'attaques à la demande. On peut ainsi acheter une certaine durée d'attaque en déni de service, par exemple contre une entreprise concurrente. »

[Note : Une attaque en déni de service est une attaque informatique saturant un système informatique pour l'empêcher de rendre le service attendu. Par exemple, on pourra saturer un site Web de requêtes afin de le rendre inaccessible aux utilisateurs.]

Une question sur la transparence des fonds publics a été comprise par Mme Fioraso comme une question sur la transparence des frais des élus. Elle a indiqué être en faveur du remplacement de l'indemnité représentative de frais de mandats (IRFM) par un remboursement sur note de frais, comme cela se fait dans les entreprises ou administrations. D'après elle, la mise en place de la Haute autorité pour la transparence de la vie publique (HATVP) a mis un terme aux abus les plus criants. Initialement, les données en étaient publiques sans démarche d'accès, mais cela posait des problèmes de vie privée : par exemple des notaires et avocats s'en servaient dans des procédures de divorce ou d'héritage.

Mme Fioraso a également relevé le danger qu'il y a à ce que des universitaires se posent en opposition aux « élites », car l'opposition aux « élites », le poujadisme, les touche également.

mardi, mars 7 2017

Laissons la sécurité informatique à ceux qui s'y connaissent

Ce matin, France Info expliquait que le Gouvernement supprimait le vote électronique des Français de l'étranger « tout ça pour » des risques d'attaques. Mon sang n'a fait qu'un tour.

La sécurité informatique, c'est compliqué. En position de défenseur, on doit veiller à tous les points d'attaque — il ne sert à rien d'avoir tout sécurisé si on a laissé un maillon faible. Une fois que l'on connaît un peu le sujet — j'ai la fatuité de croire que c'est mon cas — on se rend surtout compte qu'on ne sait pas grand chose et que la tâche est immense.

Autant dire que sur ce genre de sujets, je fais considérablement plus confiance à Guillaume Poupard, directeur de l'Agence nationale pour la sécurité des systèmes d'information (ANSSI) — par ailleurs ingénieur de l'Armement et docteur en cryptographie — qu'à des politiciens ou journalistes. Si l'ANSSI, qui a effectivement expertisé les systèmes informatiques concernés, rend un avis négatif, c'est sans doute qu'elle a de bonne raisons, comme il l'explique.

Je trouve assez déplorable que des journalistes, en adoptant une terminologie non neutre (« tout ça pour »), minimisent des menaces dans un domaine où ils n'ont aucune compétence, reprenant les arguments de certains politiciens.

Ce paragraphe du Monde me semble donner un bon résumé des réserves quant au vote électronique :

A titre personnel, M. Poupard s’est toujours montré très prudent sur le vote électronique et dit préférer le bulletin papier, meilleure garantie contre le piratage. Les critiques contre les systèmes de vote par Internet ne sont pas nouvelles et ont été largement étudiées – la commission des lois du Sénat rappelait ainsi, dans un document de synthèse publié en 2014, que la pratique est intrinsèquement risquée (pdf), tant sur le plan de l’identification de l’électeur que sur les recomptages a posteriori. Son usage pour les Français de l’étranger avait cependant le caractère d’une « nécessité pratique », permettant « d’assurer un égal accès des électeurs au vote », notaient les sénateurs.

Les arguments de certains politiciens peuvent faire sourire : « Cela s’est passé sans risque et sans problème en 2012 » dit Pouria Amirshahi. Faire d'un unique cas une règle, ce n'est guère sérieux, surtout qu'il est très possible qu'entre temps la menace ait changé (on parle d'ingérences étrangères dans les élections américaines). Faut-il rappeler qu'Amazon S3 a parfaitement fonctionné des années jusqu'à une panne massive, entraînant celle de très nombreux sites Internet ?

Je n'ose penser au désordre, accusations, expertises, contre-expertises, en cas de panne ou suspicions de piratage du vote électronique. Veut-on d'un pareil risque à notre époque de suspicion généralisée et de fausses nouvelles ?

lundi, février 27 2017

Le droit n'est pas logique

La lecture de discussions de réseaux sociaux me donne l'occasion d'illustrer la différence entre logique mathématique et langue naturelle. Ce qui suit paraîtra sans doute évident à bon nombre de lecteurs, mais visiblement ce n'est pas évident pour tout le monde !

On me pointe cette tribune d'une professeure de droit, et notamment cet extrait :

« La loi Taubira s’est donc écartée de cette vérité naturelle pour donner du mariage une nouvelle définition, coupée de la réalité anatomique et biologique, et de surcroît logiquement absurde puisqu’elle aboutit à définir une notion par une proposition contradictoire. Le mariage serait désormais l’union de deux personnes de sexe opposé « ou » de même sexe, c’est-à-dire qu’il désignerait à la fois une chose et son contraire absolu. »

Ainsi, d'après cette professeure, il serait logiquement absurde, c'est-à-dire logiquement contradictoire, d'expliquer que le mariage est l'union de deux personnes de même sexe ou de sexe opposé, car « de même sexe » et « de sexe opposé » sont deux propriétés opposées. Je ne comprends guère cette affirmation.

Si l'on admet que le sexe est une propriété (en mathématiques, une fonction) de l'individu, alors deux personnes sont soit de même sexe, soit de sexe différent. Il s'agit de l'application d'un principe logique général, dit du tiers-exclu, qui dit que quelle que soit la propriété étudiée (ici, que les sexes de deux individus soient égaux), alors elle est vraie ou fausse.

(Ce principe du tiers-exclu n'est pas valide dans les logiques dites intuitionnistes, mais celles-ci n'intéressent que les spécialistes. Quand on parle de logique mathématique sans plus de précision, o0n se place dans une logique classique, c'est-à-dire avec tiers-exclu.)

Ainsi, on n'a pas affaire à une contradiction (une propriété toujours fausse), mais à son opposé, une tautologie (une propriété toujours vraie). (En logique mathématique, le terme « tautologie » n'a pas la nuance péjorative qu'il peut avoir dans d'autres contextes. En particulier, une tautologie n'est pas forcément évidente.)

Bref, l'énoncé cité n'est pas plus folichon qu'indiquer que toute carte d'identité française comporte une date de naissance soit égale au premier janvier 1970, soit différente — énoncé équivalent à indiquer que toute carte d'identité comporte la mention d'une date de naissance. On pourrait, en termes strictement logiques, le retirer de la loi. Alors, pourquoi l'indiquer explicitement ?

C'est justement que la langue naturelle (le français, etc.), de même que le droit, n'exprime pas des propriétés strictement logiques. Notamment, l'interprétation d'une phrase en langue naturelle dépend habituellement de présupposés ; et un présupposé assez courant est que le mariage concerne un homme et une femme. Une façon d'indiquer que ce présupposé ne s'applique pas est de faire figurer explicitement une tautologie généralisant voire contredisant le présupposé. (Je suis sûr qu'un linguiste expliquerait cela bien mieux que moi, je ne suis pas linguiste, etc.)

Quelqu'un qui s'exprimerait purement logiquement dans la vie courante serait proprement insupportable, puisque cette personne devrait sans cesse faire le rappel d'une quantité de présupposés partagés. C'est pourquoi on n'explicite habituellement que ce qui risquerait de différer des habitudes de certains — et, l'existence de mariages entre individus de même sexe différant assurément des habitudes, on est bien ici dans ce cas.

La logique mathématique pure a quelques côtés déroutants. Par exemple, si on prend une hypothèse contradictoire, on a le droit de tout en déduire, même des propriétés elles mêmes absurdes. On m'a ainsi raconté la mésaventure d'une équipe chargée de vérifier le fonctionnement d'un dispositif informatique : elle avait prouvé que si les entrées de ce dispositif vérifiaient certaines hypothèses, alors sa sortie vérifiait une certaine propriété désirée… Sauf que les hypothèses sur les entrées figurant dans la documentation étaient contradictoires ! Ils s'étaient donc retrouvés à démontrer une tautologie « si on se place dans un cas impossible, alors les sorties conviennent ». Une interprétation plus pragmatique, et non purement logique, serait que si l'on demande de démontrer que A implique B, c'est que le cas représenté par A est intéressant, ni absurde ni tautologique, et que donc il convient de s'inquiéter si ce n'est pas le cas.

Bref, il est en général malvenu d'appliquer directement la logique mathématique au langage naturel. Si en plus on le fait en confondant tautologie et contradiction...

dimanche, février 26 2017

La vulgarisation doit citer les études scientifiques auxquelles elle se réfère

La vulgarisation scientifique ou technique doit-elle mentionner ses sources, articles ou rapports de recherche ? Pour certains, dont Cécile Michaut, non, si elle s'adresse au grand public : seule une faible fraction de celui-ci pourrait tirer partie de la lecture de ces articles, et les autres pourraient se sentir exclus ou intimidés. Pour d'autres, il s'agit non seulement de permettre à la minorité ayant les compétences d'approfondir le sujet, mais surtout d'une condition indispensable d'honnêteté intellectuelle.

Il m'arrive que l'on me pose des questions au sujet d'informations publiées dans la presse dans des domaines où l'on pense que j'ai quelque compétence (sécurité informatique…). Très souvent, je ne peux rien répondre sinon des généralités, car je n'arrive pas à attacher un sens précis à l'article de presse. J'apprécierais alors d'avoir la source originale à disposition.

Je voudrais toutefois aller plus loin que ce simple constat, et me livrer à une petite digression épistémologique (ce pour quoi je ne suis pas qualifié, n'étant pas philosophe !). Karl Popper proposait comme critère pour déterminer si une affirmation est scientifique qu'elle soit réfutable, c'est-à-dire qu'elle soit formulée d'une façon qu'il soit possible d'en discuter la véracité et le cas échéant de la réfuter. L'affirmation « Pénélope Fillon avait un emploi fictif » est réfutable, en fournissant des preuves (témoignages, documents…) d'un travail effectif — il faut bien entendu différencier réfutable de réfutée, c'est-à-dire que l'on apporte effectivement ces preuves. À l'inverse, l'affirmation « il existe des dieux qui vivent dans un univers parallèle au nôtre, mais qui n'interviennent pas dans le nôtre » n'est pas réfutable, puisqu'il est impossible de concevoir une possible preuve qu'elle est fausse.

Si un texte est écrit de façon si vague que l'on ne puisse savoir ce qu'il veut dire, alors il est irréfutable, car il est impossible de le prendre en défaut. Si un article de vulgarisation me dit qu'une étude publiée par tels auteurs sous tel titre aboutit à telle conclusion, cette affirmation est réfutable : on peut se rapporter à l'étude et avoir un débat si celle-ci aboutit ou non à la conclusion prétendue. Si en revanche on me dit qu'une « étude américaine » aboutit à une certaine conclusion, cette affirmation n'est pas réfutable — je ne peux pas consulter l'entièreté des études publiées sous une forme quelconque par des américains et vérifier si l'une d'entre elles n'aurait pas une conclusion de ce genre.

Celui qui s'exprime de façon vague ne prend guère de risque, de même d'ailleurs que celui qui, a posteriori, invoque la nécessité d'une nécessaire interprétation métaphorique de ses propos. Il ne peut jamais avoir tort !

Revenons à la question de la vulgarisation scientifique. Je fais plus confiance à un article qui cite précisément l'étude sur laquelle il s'appuie qu'à un article qui ne le fait pas précisément parce qu'il s'expose à la critique, à la réfutation, par des experts. L'auteur s'estime suffisamment assuré de ses propos pour cela. À l'inverse, celui qui parle sans source et dans le flou veut peut être dissimuler ses approximations ou extrapolations.

jeudi, février 2 2017

Sur le poste de professeur de Benoît Hamon

Louis Aliot a récemment évoqué le fait que Benoît Hamon avait été nommé professeur d'université avec une simple licence d'histoire. Diverses personnes, visiblement sympathisantes du Front National ou du moins de la droite, ont embrayé. Je voudrais ici rectifier certaines erreurs factuelles et confusions dans leur raisonnement.

Il y a dans les universités françaises et établissements assimilés différentes catégories de professeurs enseignants : les enseignants-chercheurs, les enseignants-chercheurs associés, les attachés temporaires d'enseignement et de recherche, les enseignants du secondaire, les vacataires, et les doctorants avec mission d'enseignement (je passe sur la situation particulière des hospitalo-universitaires). Vu des étudiants, il s'agit tous de « professeurs », mais il existe de grandes différences de statut entre eux ! (Pour les professionnels du domaine, un « professeur » c'est normalement seulement un « professeur des universités »… sinon on dit « enseignant »!)

Les enseignants-chercheurs se composent des maîtres de conférences et des professeurs des universités. Il s'agit de fonctionnaires recrutés (sauf exception) après un doctorat (et une habilitation à diriger les recherches, pour les professeurs), par un concours en deux étapes, l'une de filtre national, l'autre locale, où l'on examine la qualité scientifique des résultats du candidat, son projet de recherche, ses compétences en enseignement… (Les cas des disciplines médicales, juridiques et économiques est différent, mais ne compliquons pas.) Il est tout à fait exact, du moins au vu des informations que j'ai sur lui, que Benoît Hamon ne vérifie pas du tout ces conditions.

Les enseignants-chercheurs associés se composent des maîtres de conférences associés et des professeurs des universités associés. Il s'agit de personnels contractuels, à temps complet ou partiel, recrutés principalement pour leur expérience professionnelle : par exemple, on pourra recruter un ingénieur travaillant dans l'industrie pour enseigner les domaines sur lesquels il a compétence. Même si dans certains cas les enseignants-chercheurs associés ont un doctorat, ce n'est pas une condition nécessaire. C'est sur ce type de poste qu'a été recruté Benoît Hamon, apparemment pour enseigner sur les organisations internationales, sans doute au motif que ses mandats politiques lui ont donné cette compétence — ignorant tout de ce en quoi consiste l'enseignement de science politique je m'abstiendrai d'en juger.

Il ne faut pas confondre ce type de poste avec ceux des vacataires : ceux-ci, qui doivent exercer une activité principale distincte, sont payés à l'heure de cours ou de travaux dirigés. Leur recrutement est considérablement moins solennel !

Pour conclure, je voudrais rappeler que la procédure de recrutement des enseignants-chercheurs fonctionnaires est extrêmement codifiée. Il faut être ignorant ou de mauvaise foi pour prétendre que l'on puisse recruter professeur des universités quelqu'un n'ayant pas du tout les diplômes : une telle personne n'est tout simplement pas admise à concourir ! De telles allégations, de la part de responsables politiques, sont d'autant plus insultantes pour l'ensemble du corps universitaire qu'elles le mettent à l'égal de ces lieux de pouvoirs où l'on distribue des emplois fictifs ou de pure complaisance.

Rappelons également que les professeurs des universités et professeurs associés sont nommés, à la fin de la longue procédure de sélection, par décret du Président de la République : imagine-t-on Nicolas Sarkozy nommant Benoît Hamon par pure complaisance ?

PS: J'ai un peu simplifié, tant les statuts et procédures de recrutement sont divers, avec des exceptions.

mercredi, décembre 14 2016

De l'introduction des concepts mathématiques

On m'a récemment demandé ce que j'entendais par la création de concepts mathématiques comme généralisations d'intuitions ou de besoins. Je vais tenter ici un exposé grand public, absolument pas détaillé côté mathématiques, et sans non plus tenter de reconstituer le déroulement historique de l'histoire des idées mathématiques.

Les entiers

Prenons les nombres 0, 1, 2…, que l'on appelle les entiers naturels. Ceux-ci, du moins les plus petits d'entre eux, nous sont familiers et intuitifs car ils permettent de compter les objets. Nous avons de même une notion d'addition assez naturelle : quand nous avons 3 carottes et par ailleurs 5 carottes, nous avons au total 3+5 carottes.

La notion de multiplication vient elle aussi assez naturellement. Nous avons une tablette de chocolat de 8 rangées de 5 carrés, nous avons 8×5 carrés. Nous pourrions aussi bien compter en 5 colonnes de 8 carrés, nous aurions 5×8 carrés. Cela suggère que l'ordre (8×5 ou 5×8) n'importe pas, que l'on obtient le même résultat ; en termes savants, on dit que la multiplication est commutative. Comme cela fonctionne pour n'importe quelles valeurs et non simplement 5 et 8, on dit que pour tout x et y, x×y=y×x.

J'entends parfois des gens dire qu'ils comprenaient les mathématiques jusqu'au moment où il y a eu des x, mais pour le moment il ne faut pas s'alarmer : j'utilise ces notations parce qu'elles sont beaucoup plus commodes et lisibles que des phrases du genre « si je prends le premier et que je le place à la place du deuxième et que je prends le deuxième et que je le place à la place du premier, j'obtiens un nombre identique », comme on utilisait dans les textes savants avant l'introduction des notations par lettres.

Si nous avons une rangée de 8 carrés de chocolat, nous avons 8 carrés. Quand on multiplie par 1, on ne change pas le nombre… autrement dit, pour tout x, x×1 = x.

Si nous avons 4 tonnes d'acier, nous en avons 4×1000 kilogrammes=4000 ; si nous en avons par ailleurs 5 tonnes, nous en avons 5×1000=5000 kilogrammes ; donc au total nous en avons 9000 kilogrammes. Nous aurions pu aussi bien nous dire que si nous avons 4 tonnes et 5 tonnes, nous en avons 4+5=9 tonnes, donc si nous convertissons en kilogrammes, nous en avons 9×1000=9000 ; nous retombons sur le même nombre (ce qui est assez rassurant).

En mathématiques, les parenthèses servent à grouper ce qui va ensemble, afin d'éviter les ambiguïtés de lecture. Pour dire que l'on va additionner 4 et 5, et ensuite multiplier le tout par 1000, on écrit (4+5)×1000. Là, on a ainsi (4+5)×1000=(4×1000)+(5×1000).

Là encore, il n'y a rien de particulier au nombre 1000. Si au lieu de tonnes et de kilogrammes nous prenions des heures et des minutes, nous aurions le constat banal que si nous passons 4 heures, soit 4×60=240 minutes, puis 5 heures, soit 5×60=300 minutes, nous passons au total 9 heures soit 540 minutes, et que (4+5)×60=(4×60)+(5×60).

On peut généraliser à tout nombre : (4+5)×z=4×z+5×z. Mais là encore, pourquoi 4 et 5 en particulier ? Pour tous entiers naturels x, y, z, (x+yz=(x×z)+(y×z). En termes savants, on dit que la multiplication distribue sur l'addition.

Bref, il y a quelques propriétés de l'addition et de la multiplication qui nous paraissent « naturelles », représentant l'intuition que nous avons de ces opérations. Ce qui est intéressant, c'est qu'une fois que nous avons décidé d'avoir ces propriétés, tout le reste s'ensuit. On a parfois l'impression que les mathématiques sont des suites d'opérations sans sens, plus ou moins arbitraires, à apprendre par cœur. Mais là le seul arbitraire que l'on ait fixé, c'est d'avoir deux opérations, addition et multiplication, satisfaisant les propriétés que l'on désire d'elles pour coller à notre intuition.

Il est possible que cette confusion provienne de la confusion conceptuelle entre les nombres et leur représentation décimale, c'est-à-dire leur écriture usuelle : ainsi, le nombre onze est écrit 11, le nombre cent est écrit 100, etc. On parle de représentation décimale, ou en base dix, car quand l'addition sur les unités atteint dix, on repart à zéro et on propage une retenue. Il y a là un certain arbitraire — pourquoi dix et pas cinq, treize ou vingt? Ce trait qui relève de la culture — certaines civilisations ont d'ailleurs compté par vingt, et ce trait subsiste encore dans certaines langues européennes — que l'on songe à quatre-vingts, 4×20, en français de France. Le décompte de soixante secondes dans une minute, de soixante secondes dans une heure, est un reste culturel de système sexagésimal (base soixante). Le choix de dix provient probablement du fait que nous avons dix doigts (utile pour compter sur les doigts)...

Il peut sembler évident qu'une heure et soixante minutes soient deux écritures pour la même durée, de même que XX et 20 sont deux écritures du même nombre vingt, l'une en chiffre romains, l'autre en chiffres dit « arabes » et en base dix, ou encore que vingt et twenty décrivent le même nombre en français et en anglais. Pourtant, on décrit souvent comme quelque chose d'extraordinaire, voire d'effrayant, que les ordinateurs comptent en binaire, c'est-à-dire en base deux, et on prétend parfois en tirer des conséquences philosophiques ! Il n'y a pourtant là rien de fondamental : de même que le choix de dix est probablement lié à une contingence biologique, à savoir nos dix doigts, le choix de deux chiffres binaires (0 et 1) est motivé par une contingence technique, à savoir que distinguer deux niveaux électriques ou lumineux (ouvert / fermé, etc.) est bien plus aisé que d'en distinguer plus.

Une fois qu'on a fixé une représentation, on peut décrire des méthodes permettant de calculer effectivement dessus — autrement dit, des algorithmes. Là encore, il est important de distinguer la définition du résultat d'une opération de la méthode pour obtenir celui-ci. L'écriture décimale du résultat de l'addition ou de la multiplication de deux nombres écrits en décimal est définie indépendamment du procédé effectif de calcul pour l'obtenir — en mathématique, il est d'ailleurs possible de définirdes objets alors qu'il n'existe aucun procédé pour les calculer !

L'algorithme appris à l'école primaire (enfin, de mon temps ; j'ignore ce qu'il en est actuellement) pour calculer la multiplication de deux entiers n'est qu'un algorithme parmi d'autres qui remplit cette fonction, certes particulièrement simple. Il en existe d'autres, dont certains ont notamment comme avantage de nécessiter moins d'opérations quand on opère sur de grands nombres, comme cela est courant en cryptographie (la science du chiffrement des données). La conception d'algorithmes, leur analyse (combien d'opérations et de cases mémoire nécessitent-ils, etc.) est un champ scientifique nommé algorithmique, lui-même divisé suivant les objets auxquels s'appliquent les algorithmes — bien entendu, on ne se limite pas à additionner et multiplier des entiers ! On peut remplir des rayonnages entiers de bibliothèque universitaire avec des ouvrages sur ces sujets...

Les « fractions »

Mais revenons-en à nos nombres. La conversion d'une heure en minutes est particulièrement aisée : il suffit de multiplier par un nombre entier (le nombre d'heures dans une minutes). Prenons maintenant un problème plus compliqué : le système monétaire britannique comprenait jadis une unité de compte traditionnelle, la guinée, valant 21 shillings, en sus de l'unité officielle, la livre, valant 20 shillings. Comment convertir en livres une somme en guinées ? Il faut multiplier par 21 puis diviser par 20... On va donc parler de multiplier par vingt-et-un vingtièmes, 21/20, autrement dit par une fraction (quand on est savant, on parle d'un rationnel).

Nous avons l'habitude de parler de moitiés, de tiers, de quarts, de cinquièmes, de sixièmes... ne serait-ce que pour couper des gâteaux. Cela ne défrise pas grand monde que de dire que si on ajoute deux cinquièmes de gâteau, deux autres cinquièmes et un cinquième, alors on obtient cinq cinquièmes soit un gâteau entier. Autrement dit, 2×(1/5)+2×(1/5)+1×(1/5)=(2+2+1)×(1/5). On retrouve la règle de distributivité déjà évoquée sur les entiers.

De fait, quand nous passons aux « fractions », nous nous attendons à certaines propriétés identiques à celles des entiers : commutativité, distributivité, etc. En revanche, certaines propriétés disparaissent : par exemple, il n'y a pas d'entier strictement plus grand que deux et strictement plus petit que trois (si on compte en gâteaux entiers, on peut en avoir deux, on peut en avoir trois, mais pas de cas intermédiaire), mais avec des fractions, c'est possible : on peut avoir deux gâteaux et demi.

Là encore, une fois que nous avons posé que nous voulons une notion qui généralise les entiers naturels, qui conserve certaines de leur propriétés, qui correspond à notre intuition du partage du gâteau, alors il n'y a plus d'arbitraire possible. Les règles « mécaniques » de calcul apprises à l'école (mettre les fractions au même dénominateur, etc.) sont juste là pour s'assurer qu'on tombe sur le bon résultat. Mais le critère de ce qui est ou non un bon résultat n'a d'arbitraire que le choix que l'on a fait d'avoir une généralisation des entiers qui vérifie quelques propriétés assez intuitives et naturelles. Autrement dit, c'est ainsi parce que ça ne peut pas être autrement.

Ainsi, nous sommes passés d'une notion élémentaire (les entiers naturels) à une notion plus générale (les rationnels) parce que nous avons éprouvé la nécessité d'étendre le concept utilisé pour capturer une notion intuitive (les parts de gâteau). Voyons maintenant un autre exemple.

Les réels

Si je prends un carré de côté 1m, sa surface est de 1m². Si je prends 4 carrés identiques et que je les dispose pour former un carré de 2m de côté, j'obtiens un carré de 4m² ; bref la surface du carré c'est la longueur du côté multipliée par elle-même, autrement dit élevée au carré. En repliant les coins, on se rend compte que la surface du grand carré correspond à deux fois la surface d'un carré dont le côté est la diagonale du carré de 1m de côté ; donc ce carré fait 2 m² de surface. On se dit donc que si l'on élève au carré la longueur de cette diagonale, on doit obtenir 2.

Nous sommes alors devant une difficulté déjà connue des grecs antiques : il n'existe pas de rationnel (de « fraction ») qui, élevé au carré, donne 2. On peut d'ailleurs le démontrer — on suppose que c'est une fraction, et, par un raisonnement simple mais trop technique pour ce texte, on about it à une contradiction. Ceci nous suggère qu'en nous limitant aux rationnels, nous ne pouvons pas parler de certaines quantités géométriques intéressantes, de même qu'en nous limitant aux entiers nous ne pouvions pas bien parler de choses aussi naturelles que des parts de gâteaux.

Il a donc fallu concevoir des extensions de la notion de rationnel, qui préservent la plupart des propriétés que nous avions sur les rationnels (il y a une addition, une multiplication qui distribue sur l'addition, etc.) mais permettent de parler, par exemple, de la longueur des diagonales de rectangles. Citons parmi celles-ci les nombres réels (ou simplement, les réels) et les réels algébriques. Leur description nous entraînerait trop loin. Dans leur vision « grand public », on les connaît parfois sous le nom de « nombres à virgule », mais cette terminologie est problématique car elle met l'accent sur une représentation particulière (la décimale) et induit des confusions — par exemple, les gens déduisent, incorrectement, du fait qu'un nombre ait un nombre infini de chiffres après la virgule que l'on ne puisse pas calculer dessus — sans parler d'un certain relent de « numérologie ».

On présente parfois les mathématiques comme un amoncellement de concepts abscons, de méthodes de calcul à appliquer bêtement, plus ou moins arbitraires. En réalité, ces concepts ont été polis au cours du temps pour répondre à des besoins souvent assez naturels (parler de parts de gâteaux, de diagonales de carrés...). Les règles de calcul « à appliquer bêtement » sont des méthodes dont on peut démontrer qu'elles donnent le bon résultat, et ce qui est « bon » ou non est la conséquence logique de choix assez « naturels ». Il est bien entendu possible de définir des concepts mathématiques différents ; mais il faut assumer les choix que l'on fait de façon cohérente, et cela n'est pas facile. Voyons maintenant quelques exemples de choix « différents ».

Des anneaux quotients !

Nous avons vu les rationnels comme extension des entiers naturels partageant avec eux un certain nombre de propriétés. Il est possible de construire d'autres objets mathématiques ressemblant par certains côtés aux entiers, mais présentant des différences notables. Prenons, par exemple, les chiffres de 0 à 9 (notés en gras pour éviter des confusions), sur lesquels on définit l'addition et la multiplication en prenant celles des entiers mais en ne gardant que le chiffre des unités. Ainsi, on va poser que 9×8=2 parce que 9×8=72, donc de chiffre des unités 2. On peut montrer que l'addition et la multiplication ainsi définies vérifient certaines des lois usuelles sur les entiers (l'addition est commutative, la multiplication distribue sur l'addition...) mais pas certaines autres : par exemple, il est impossible de définir une notion de « plus grand que » / « plus petit que » qui vérifie que si on ajoute 1 alors on obtient forcément un nombre plus grand. Quand on est savant, on dit qu'on a défini l'« anneau quotient ℤ/10ℤ » et ce concept se généralise d'ailleurs à d'autres valeurs que 10...

C'est à l'aide de ce type de concepts que l'on peut expliquer simplement le pourquoi des méthodes (jadis enseignées) de la « preuve par trois » et de la « preuve par neuf ».

Les géométries non euclidiennes

Venons-en maintenant à d'autres concepts souvent mentionnés dans des ouvrages grand public : les géométries non euclidiennes.

La géométrie euclidienne à deux ou trois dimensions, c'est celle que l'on apprend à l'école et qui décrit fort bien la réalité qui nous entoure. Il s'agit, en quelque sorte, de la formalisation de notions intuitives comme les distances, les parallèles, les angles droits... Cette géométrie se généralise d'ailleurs fort bien à un nombre supérieur de dimensions, même s'il faut alors se méfier de nos intuitions parfois spécifiques du cas particulier de la dimension trois.

Cette géométrie parle d'objets tels que les points, les droites, etc. sur lesquels on peut démontrer des propriétés (ou, suivant comment on présente le sujet, postuler ces propriétés et montrer que l'on retombe sur une définition équivalente). On peut là encore se poser la question de ce que l'on pourrait obtenir si on laissait tomber certaines propriétés usuelles... De même que l'on a obtenu des notions « bizarres » d'addition et de multiplication, on peut obtenir des notions « bizarres » de point, de segment et de droite !

Par exemple, on peut interpréter la notion de point comme le point sur une sphère, la notion de segment comme le tracé de plus court chemin entre deux points, la notion de droite comme un « grand cercle » de la sphère (un cercle formé en coupant la sphère par un plan passant par son centre). On continue d'avoir certaines des propriétés usuelles, mais on n'a plus certaines autres. Ce genre de généralisations s'appellent géométries riemaniennes. D'autres choix conduisent à des géométries hyperboliques.

L'existence de géométries non euclidiennes paraît souvent objet de mystère, voire de mystification. Il me semble qu'il n'y a là rien de plus banal que la généralisation d'un concept familier quitte à abandonner certaines de ses propriétés, comme nous l'avons fait plus haut pour ℤ/10ℤ.

Remarques polémiques

Le côté « arbitraire » et « méthodes de calcul stupides qu'on applique sans comprendre » des mathématiques est le produit de la façon dont on les enseigne. J'ignore dans quelle mesure, d'ailleurs, il est possible de faire autrement dans le cadre d'un enseignement de masse obligatoire. L'aspect « calcul bête » peut en effet rassurer certains élèves et fournit des examens au résultat assez prévisible, ce qui est essentiel dans un système scolaire encore très « taille unique » et où il importe qu'une proportion importante des élèves ait le baccalauréat.

Par ailleurs, j'ai remarqué à plusieurs reprises que des gens ayant le baccalauréat, voire un niveau d'études élevé (thèse) ont des difficultés à mettre en pratique des concepts pourtant « de base », comme l'application de la « règle de trois » pour estimer des ordres de grandeur, par exemple de budgets ou de consommations énergétiques. Or, il s'agit là de problèmes extrêmement importants pour la vie citoyenne : quand on a du mal à se rendre compte si une dépense se compte en millions ou en milliards (j'ai vu le cas récemment), on a des difficultés à avoir un avis éclairé sur le budget de l'État ou de la Sécurité sociale...

Enfin, de nombreuses personnes sont dégoûtées des mathématiques telles qu'enseignées, et souvent font vœu ensuite de ne plus avoir rien à faire avec cette discipline. Cela est certes vrai de nombreuses autres matières scolaires (littérature, éducation physique et sportive, philosophie...), mais cela ne dispense pas d'une réflexion sur la façon dont les concepts et les méthodes sont introduits ainsi que le caractère obligatoire des enseignements dispensés.

samedi, octobre 22 2016

Céline Alvarez et le CNRS de Grenoble

L'ouvrage de Céline Alvarez les Lois naturelles de l'Enfant agace beaucoup dans les milieux de l'éducation. Xavier Molénat a publié sur Twitter une série de remarques et d'extraits, dont celui-ci :

« La première année, malgré l'absence de cadrage institutionnel officiel, le cabinet du ministre et l'académie ont autorisé les tests visant à mesurer les progrès des enfants. Ces derniers ont été réalisés par le CNRS de Grenoble. »

L'ouvrage ne cite cependant pas de rapport ou d'article émanant des chercheurs impliqués dans ces « tests ». Cela ne convient pas à Xavier Molénat, et ne me convient pas non plus. Voyons pourquoi.

Mme Alvarez entend convaincre le lecteur du bien-fondé de certaines thèses en matière d'éducation. Pour cela, elle présente des arguments, dont les résultats de ces fameux tests. Le lecteur est donc censé pouvoir examiner ces arguments. Or, ici, justement, il ne le peut pas.

Que sait le lecteur de ces fameux « tests » ? Qu'ils ont été réalisés par « le CNRS de Grenoble ». C'est vague… Dans quel laboratoire du CNRS à Grenoble ? Par quels chercheurs ? Mystère. S'agit-il du Laboratoire de Psychologie et NeuroCognition (LPNC) ? Celui-ci compte de l'ordre de 50 chercheurs et enseignants-chercheurs « permanents », plus des personnels en contrats temporaires… lesquels étaient impliqués ? Dans quels document ont-ils décrit ces tests et leurs résultats ? Nous n'en savons rien.

Si l'on invoque une étude du CNRS, et non les théories du beau-frère de la coiffeuse, c'est que l'on a une certaine prétention de scientificité. Or, la bonne pratique scientifique est de présenter ses résultats de façon à ce qu'on puisse les critiquer — au sens qu'il doit être possible d'avoir un débat sur les faits et les méthodes. Une étude expérimentale doit décrire précisément ce que l'on entendait mesurer et comment ; car il est toujours possible que les méthodes utilisées laissent prise à des biais, des erreurs, qu'elles n'écartent pas certains facteurs.

Critiquer une méthodologie expérimentale, cela n'est pas dire que les chercheurs ont menti. Il est possible de commettre de bonne foi des imprécisions voire des erreurs : on n'avait pas pensé à un facteur, on n'était pas informé de telle ou telle particularité, on maîtrise mal les statistiques, on a mal compris un travail antérieur, etc. De même, critiquer l'absence d'une référence précise, ce n'est pas insinuer que Mme Alvarez ait inventé ces « tests ». Simplement, les résultats de ceux-ci pourraient ne pas avoir la portée qu'elle leur attribue, et ce même alors qu'elle serait de parfaite bonne foi.

Pour toutes ces raisons, la pratique normale dans les écrits scientifiques est de citer précisément les études sur lesquelles on s'appuie (nom des auteurs, titre, éditeur, etc.). Les références du type « une étude américaine » ou « des expériences de l'INSERM », sans plus de précision, relèvent plutôt de la pratique journalistique. De telles références visent souvent à impressionner le lecteur — on précisera par exemple que le CNRS ou le Massachusetts Institute of Technology sont des organismes prestigieux

Je n'ai pas lu l'ouvrage, et il est périlleux de tirer des conclusions larges de ce qui pourrait être une maladresse isolée. Toutefois, pour reprendre des distinctions de philosophie de terminale, celle-ci donne la désagréable impression qu'il s'agit de persuader le lecteur plus que de le convaincre.

PS : Il y a par ailleurs une certaine incorrection, un certain manque de courtoisie, à ne pas nommer les auteurs d'une étude scientifique. Il s'agit là non seulement de rendre hommage à un travail (comme pour les techniciens au générique d'un film), mais aussi à la réflexion qu'il y a derrière — je doute que ces « tests » aient le caractère standardisé et automatisable d'un test de groupe sanguin. Sauf dans de rares cas, une étude réalisée par un organisme comme le CNRS n'est d'ailleurs pas publiée comme la position de l'organisme, mais comme le travail de chercheurs désignés nommément, et qui engagent d'ailleurs leur réputation.

PS² : On m'a accusé, sur un réseau social, de répandre de « vagues allégations brouillant la communication » sur un « sujet essentiel » par une « critique sans intérêt et dénuée de bienveillance ».

Ma position est simple : il faut choisir. Si l'on écrit en se parant du prestige de la science et de ses institutions (références aux neurosciences, études par des IRM, mention d'organismes prestigieux comme le CNRS ou le Collège de France), il faut jouer le jeu scientifique, c'est-à-dire que l'on doit donner au lecteur les éléments de réflexion, par une référence précise des travaux concernés. À l'oral, bien sûr, ce n'est pas toujours possible, mais lorsqu'on rédige un ouvrage on peut, on doit, faire l'effort.

La bienveillance, en la matière, serait de ne pas critiquer trop vertement, et surtout pas en public, un travail d'étudiant qui ne citerait pas correctement ses sources — ce serait reprocher à l'étudiant de ne pas avoir déjà acquis une compétence qu'il est justement censé acquérir en faisant un travail de recherche. En revanche, je ne vois pas pourquoi on devrait étendre cette licence à une personne qui s'expose dans l'arène publique en publiant un ouvrage se voulant sérieux.

Ce n'est pas rendre service au public que de laisser passer ce genre de références incorrectes aux travaux scientifiques. À ce sujet, je trouve très significatif que l'on m'accuse de « brouiller la communication »... Est-ce à dire que sur ce sujet on « communique » plutôt que l'on ne cherche à fournir une information précise ?

vendredi, octobre 14 2016

Frédéric Beigbeder, cet être complexé

J'ignorais que Frédéric Beigbeder fût humoriste. Enfin, était-ce de l'humour, ou parlait-il sérieusement, quand il expliquait sur France Inter que ceux qui conçoivent des algorithmes — ces fameux algorithmes derrières les services Internet — sont des frustrés sexuels, d'anciens forts en maths boutonneux, bref, des gens pénibles et chiants, par opposition aux « hédonistes » dont il prétend faire partie.

Je conçois que l'on puisse souffrir d'un complexe d'infériorité envers les « forts en maths » et les gens qui savent ce dont ils parlent quand ils parlent d'algorithmes, et que l'on puisse, à 51 ans, vouloir se venger de ses petits camarades de lycée meilleurs que soi. Je conçois plus difficilement qu'une radio publique puisse se prêter à pareil exercice, digne d'un scénario de série américaine pour adolescents — mais oui, vous savez bien, le héros bien dans sa peau et athlétique flanqué d'un geek binoclard ! Mais surtout, j'aimerais un peu régler son compte à cet « hédonisme » en peau de lapin que nous vante Beigbeder.

Le jeune « hédoniste » à la Beigbeder, c'est le jeune homme — ou la jeune fille — de bonne famille, pas inquiet quant au succès de ses études car papa-maman seront là pour payer, qui n'a pas besoin de travailler, sort en boîte, va dans des fêtes, essaye des drogues. Ce n'est pas lui qui nettoie son vomi un lendemain de « murge » — il y a pour cela une France plus basanée et qui se lève plus tôt. Il peut considérer comme de « vieux cons » ses voisins qui protestent contre le bruit de ses fêtes — vu que lui n'a pas à se lever à 4h du matin quand le bébé hurle puis à 7h quand il faut préparer l'aînée pour l'école.

L'hédoniste plus âgé, lui, peut par exemple sniffer de la cocaïne sur le capot d'une voiture. S'il se fait prendre et poursuivre en justice, en bon privilégié pour qui les problèmes ne doivent arriver qu'aux autres, il s'en prend publiquement au Procureur de la République pour avoir subi (et encore, pas en version grave) ce que les autres toxicomanes subissent sans qu'on leur tende le micro ou la plume pour s'en plaindre.

Vous l'aurez compris, les petits cons privilégiés me fatiguent. Porcherie !.

PS Je ne porte pas de lunettes, n'ai pas eu de problème particulier d'acné, et ai, comme ma consœur Charlotte Truchet, une vie sexuelle satisfaisante (mais pas avec elle).

jeudi, octobre 13 2016

Ces algorithmes qui nous gouvernent II

(Suite de mon billet précédent.)

Le « pouvoir des algorithmes ». Les « algorithmes qui nous gouvernent ». « Algorithmes », un mot naguère inconnu des journalistes, maintenant en couverture.

Ce qui me dérange le plus dans cette déferlante médiatique, c'est qu'on mélange des choses assez différentes, allant de « l'admission post-bac » à la recherche de terroristes. Les « algorithmes », c'est vaste, leurs modes de fonctionnement et leurs domaines d'applications sont très divers. Je ne sens pas cette différenciation dans les articles consacrés au sujet, qui pour toute explication se bornent souvent à une définition générale « à la Wikipédia », quand bien même il font appel à un professeur au Collège de France pour dire ce que toute personne cultivée sur ce sujet dirait.

Des « algorithmes » de classement de candidats, on en connaît depuis longtemps. Prendre des notes, les multiplier par des coefficients, classer les candidats selon le total ainsi obtenu, voilà un algorithme. Que celui-ci soit appliqué à la main, avec une calculatrice, avec un tableur ou au travers d'un site Web ne change rien.

La vraie différence est que les algorithmes classiques de classement sont connus — on connaît les coefficients des différentes épreuves, des différentes disciplines — alors que, par exemple, le logiciel de l'admission post-bac était récemment tenu secret (et encore maintenant on n'en connaît que les grandes lignes). C'est ce secret qui pose problème.

On utilise parfois des algorithmes assez complexes pour choisir « la meilleure solution » — on parle alors d'« optimisation ». Par exemple, on pourra vouloir chercher pour une école le meilleur emploi du temps (sous la contrainte qu'on ne doit pas mettre deux cours dans la même salle en même temps, ou avec le même enseignant, etc.), pour un parc de centrales électriques les meilleures périodes d'arrêt pour travaux… ou pour une ligue de football le meilleur calendrier de matchs. La méthode de résolution peut être très compliquée et sa compréhension réservée à des spécialistes (on paye des chercheurs et des ingénieurs spécialisés pour cela !), mais ce qui est pertinent pour le public c'est le critère que l'on optimise, ce qui permet de juger qu'une solution est meilleure ou pire qu'une autre. Par exemple, lors de l'optimisation de rythmes de travail, a-t-on tenu compte de la pénibilité pour les personnels, ou seulement du profit pour l'entreprise ?

Les algorithmes basés sur l'apprentissage automatique sont bien différents. Avec eux, au lieu de définir à l'avance des critères d'évaluation, quitte à les tenir secrets, on les fait fixer automatiquement par observation d'exemples. Non seulement l'opérateur humain n'a pas directement fixé les critères, mais il n'est souvent pas non plus en mesure de les expliquer.

Ainsi, à mon sens, il faut bien distinguer deux problèmes différents :

  1. Les concepteurs du système connaissent les critères que celui-ci appliquent, mais les tiennent secrets.

  2. Le système est trop complexe pour que ses concepteurs comprennent vraiment les critères qu'il applique.

Une critique raisonnée des algorithmes devrait bien distinguer ces deux aspects, et réintroduire le politique là où l'on ne voit que technique aveugle. Le choix des critères appliqués par un algorithme est politique, de même que le choix de garder ces critères secrets. Il est vrai que lorsque l'on ne veut pas assumer ses décisions, il est commode de pouvoir invoquer « le choix de l'ordinateur », comme d'ailleurs « des raisons juridiques ». C'est cela qui mine nos sociétés, plus que l'informatique.


mardi, octobre 11 2016

Ces algorithmes qui nous gouvernent

J'ai lu l'article « Ces algorithmes qui nous gouvernent » paru dans le Point du 22 septembre 2016. Certains de mes collègues me l'ont décrit comme décevant ; certes, on peut déplorer quelques raccourcis, ainsi que le lieu commun assez démagogique du caractère d'« abstractions inintelligibles » des mathématiques. Je n'ai rien vu de choquant ; j'aimerais toutefois revenir sur l'introduction de cet article.

« Le 9 septembre, Erna Solberg, chef du gouvernement norvégien, poste sur son compte Facebook le célèbre cliché d'une petite fille brûlée au napalm, pris pendant la guerre du Vietnam par le journaliste Nick Ut. En 1973, cette image avait valu à son auteur le prix Pulitzer de la photographie. En 2016, ce même cliché, aussitôt mis en ligne, est censuré par Facebook au nom des règles du plus grand média mondial sur… la nudité. L'algorithme du réseau social, qui avait déjà confondu art et pornographie en censurant le tableau « l'origine du monde », vient donc aujourd'hui de confondre pornographie et Histoire. »

J'ignore, pour ma part, si les décisions de Facebook de retirer tel ou tel contenu comme pornographique sont le fait d'un algorithme de reconnaissance de formes, d'employés appliquant une grille de critères, ou d'une combinaison des deux, peut-être opérant sur la base de réclamations. J'ignore d'ailleurs si les auteures de l'article, Violaine de Montclos et Victoria Gairin, ont plus d'informations que moi à ce sujet, ou si elles ont extrapolé de la mode actuelle de voir partout les dangers des « algorithmes » que cette décision serait algorithmique. Je pense, surtout, que cela n'a guère d'importance, car en l'espèce il n'y a pas de différence entre une règle algorithmique appliquée par un ordinateur et une règle bureaucratique rigide appliquée par un humain.

Facebook a des règles d'utilisation prohibant la pornographie ainsi que les photos de nus d'enfant. L'origine du monde, faut-il le rappeler, montre le sexe d'une femme cuisses écartées, son visage absent. Quant aux photographies de nus d'enfants, on les associe de nos jours volontiers à la pédophilie.

Mais, dira-t-on, il ne s'agit pas de cela. Certes, la pose du tableau de Courbet est digne du porno hard, mais il s'agit d'une œuvre présentant un intérêt artistique et historique. Certes, la petite fille fuyant le napalm est nue, mais il s'agit d'une photographie présentant un événement historique. Et en effet, un critère de détermination du caractère obscène d'une œuvre, utilisé notamment aux États-Unis, est l'absence de caractère artistique, historique ou éducatif, l'œuvre ne visant qu'à l'excitation sexuelle. Clairement, ces deux documents n'auraient pas dû être censurés.

« Clairement » ? Comment distinguer l'œuvre de Courbet d'une vulgaire photographie exhibitionniste ? La pose serait la même, et l'on ne saurait recourir à un critère comme la distinction entre peinture et photographie. Il faut faire appel à l'histoire de l'art. Or certes œuvres ont été jugées pornographiques à leur sortie par certains avant d'être réhabilitées, par exemple Madame Bovary ; certaines photographies de Robert Mapplethorpe, et plus généralement une partie de l'art contemporain, seront jugés par les uns comme des œuvres d'arts et par d'autres comme de pornographie répugnante.

Facebook est un hébergeur gratuit, qui sert un très grand nombre de clients. Les ressources qu'il peut allouer à une décision de retrait de contenu sont limitées pour de simples raisons économiques. Il doit donc passer par des procédés algorithmiques, ou par une prise de décision simple par des personnels peu qualifiés et appliquant une grille uniforme. Bien entendu, on ne saurait attendre de ces personnels qu'ils connaissent la tradition artistique de chaque pays dans lequel Facebook est disponible et ce qui y est ou non considéré comme une grande œuvre (je suis certes bien conscient que nous sommes européocentristes en matière d'art et que nous considérons qu'un indien devrait savoir que l'Origine du Monde est une œuvre importante tandis que nous ignorons tout de l'art de son pays). Par ailleurs, avoir une grille simple, uniforme et objective limite les opportunités de contestation — « je ne comprends pas, vous avez admis telle photographie de nu mais pas la mienne ».

Tout cela n'a pas grand-chose à voir avec l'algorithmique, mais plutôt avec la bureaucratie. C'est un trait de la bureaucratie que d'avoir des règles uniformes et rigides applicables par des personnels peu qualifiés (j'entends par là en l'espèce qu'ils n'ont pas de master en histoire de l'art), et qui peuvent produire occasionnellement des résultats ridicules. D'ailleurs, quand les règles ne sont pas suffisamment uniformes et rigides, ou appliquées avec subjectivité, on accuse les personnels de rupture de l'égalité entre usagers…

Je suis d'ailleurs tout à fait d'accord avec la conclusion de l'article, qui explique notre défiance envers les algorithmes par une tendance à « imputer aux mesures ce que, en réalité, nous leur avons demandé de faire »… Cela fait une bonne vingtaine d'années que je vois des articles de presse déplorer l'accès facile à la pornographie en ligne, décrite comme un danger pour les adolescents voire pour les adultes. La pédopornographie est perçue comme un fléau social majeur ; la loi française impose d'ailleurs aux hébergeurs de contenus le retrait immédiat des contenus pédopornographiques, alors que pour d'autres contenus illicites, par exemple diffamatoires, il faut normalement l'intervention d'un juge. Comment, dès lors, s'étonner et s'offusquer de ce que Facebook mette en œuvre des procédures rapides pour supprimer les documents pornographiques, ou, pire, pédopornographiques ? Gageons que s'ils le faisaient pas, Le Point déplorerait le laxisme des pouvoirs publics envers les grandes plates-formes Internet et l'inaction de ces dernières…

Ainsi ces actions de Facebook sont la conséquence prévisible de demandes sociales, et non l'illustration d'une quelconque « prise de pouvoir par les algorithmes ». Ces demandes sociales sont la mise à disposition d'un service à la fois family-friendly et gratuit — d'où une censure low cost et ne s'embarrassant pas de subtilités. Mais, comme souvent dans les affaires politiques, on se plaint des conséquences de ce que l'on a réclamé !

jeudi, septembre 8 2016

Pour les futurs doctorants : attention aux propos lénifiants

Puisque les conseils aux doctorants de mon billet précédent ont suscité un certain intérêt, je poursuis ici par des mises en garde en ce qui concerne les choix de sujets de thèse et d'encadrants. Là encore, mon message est que les doctorants doivent bien analyser la portée de ce qu'on leur dit ; et là encore je vais partir de propos discutables que j'ai entendus ou que l'on m'a rapportés.

Un premier exemple. Jeune chercheur, j'ai entendu des étudiants m'expliquer qu'on les avait dissuadés d'aller en stage de master (ou était-ce encore DEA ?) avec un chercheur parce que celui-ci, n'étant pas titulaire de l'habilitation à diriger les recherches, ne pourrait de toute façon pas prendre d'étudiant en thèse ensuite. On leur avait également laissé entendre qu'il y aurait des postes de chercheur à prendre après la thèse dans une autre thématique.

Tout d'abord, s'il est effectivement exact qu'en général, on ne peut pas diriger de thèse sans habilitation à diriger les recherches, il est très courant dans ma discipline que les jeunes chercheurs sans habilitation puissent encadrer des thèses, que ce soit comme co-encadrants au côté d'un directeur de thèse (cette position de co-encadrant est officielle dans l'école doctorale dont je dépends), ou via une dispense. Bref, information au mieux inexacte, au pire trompeuse.

Ensuite, il est proprement choquant qu'on fasse miroiter des postes à de futurs doctorants.

Tout d'abord, lorsqu'on discute de postes de chercheurs ou d'enseignants chercheurs avec des étudiants en master, cela veut dire qu'on se pose 4, 5, 6, 7 ans avant le concours qui les recrutera. Or, il est impossible de savoir autant à l'avance quelle sera la politique nationale de recrutement. Celle-ci dépend en effet de l'orientation politique du gouvernement en place, de la conjoncture économique (recettes fiscales), et de nombreux autres facteurs. Que l'on songe, par exemple, que les récents attentats ont déterminé une réorientation de budgets vers la sécurité… Outre ces aspects globaux, il peut y avoir de bonnes comme de mauvaises nouvelles dans une discipline ; par exemple, vers 2002 il y a eu un nombre inhabituellement élevé de recrutements de chargés de recherche en informatique… qui l'aurait prévu en 1996 ?

Par ailleurs, il est périlleux de prétendre prédire que telle thématique sera à la mode et qu'il y aura donc des postes. Les modes vont et viennent, parfois selon les lubies perspectives visionnaires de tel ou tel décideur. De plus, si un sujet est « à la mode » au point d'attirer de nombreux étudiants, cela veut dire qu'il y aura certes beaucoup de places, mais aussi beaucoup de candidats. Par exemple, actuellement, le « big data » est à la mode (sur une promotion de 500 polytechniciens, 320 suivent le cours de deuxième année dessus !), et on recrute en effet beaucoup sur ce sujet, mais quelle sera la situation quand tous les étudiants formés sur ce thème auront soutenu ? J'ai bien l'impression que pour profiter d'une mode, il faut être dans le sujet avant justement qu'il ne soit à la mode et que tout le monde arrive dessus...

Un second exemple. On voit des jeunes docteurs se lamenter en disant, en substance

« Je ne comprends pas, tout le monde me dit que mon sujet est fondamental et ma thèse très intéressante, on m'invite dans des séminaires, et on ne me recrute pas. C'est injuste. »

Première remarque. Il ne coûte rien de dire à quelqu'un que sa thèse est intéressante et de l'inviter dans des séminaires — surtout si dans la même ville, en l'absence de frais de mission. Par comparaison, les postes sont des ressources très rares et coûteuses (un chercheur débutant coûte de l'ordre de 50000€ par an au CNRS simplement en salaires et cotisations diverses). La question n'est donc pas de savoir si les gens trouvent une thèse ou un sujet important, mais plutôt de savoir s'ils le trouvent suffisamment important pour lui consacrer un poste.

Au sujet de l'intérêt du sujet de thèse, je voudrais également mettre en garde les étudiants contre l'« effet de loupe » que provoque parfois la recherche. De nombreux chercheurs ou étudiants-chercheurs attribuent à leur sujet d'étude un intérêt bien plus important que ce que lui accorde la communauté scientifique en général (et ne parlons pas de la population). Ceci peut amener à des incompréhensions.

Deuxième remarque. L'intérêt intrinsèque d'un sujet de recherche n'est pas tout, il y a aussi d'autres aspects, comme l'intégration à un département ou un laboratoire — par exemple, on n'a pas forcément envie de recruter quelqu'un qui serait isolé sur une thématique en marge.

Mon propos n'est évidemment pas de dégoûter les étudiants, mais de les aider à avoir un choix éclairé avant un engagement sur plusieurs années. Je rappelle que, structurellement, la grande majorité des docteurs ne peut avoir de poste dans la recherche « académique », et que donc de nombreuses personnes formées à la recherche sur des sujets passionnants devront faire autre chose ensuite…

Finissons par quelques conseils concrets. Renseignez-vous sur votre sujet, sur votre directeur de thèse envisagé, sans vous en remettre à des propos lénifiants. Un bon directeur de thèse doit être disponible pour ses étudiants (à un degré variable suivant les besoins d'encadrement des étudiants, qui varient considérablement de l'un à l'autre), de mode de fonctionnement compatible avec ceux-ci, et avoir la tête sur les épaules pour les questions administratives. Il est également utile qu'il ait un bon réseau de connaissances, par exemple pour pouvoir présenter ses étudiants à des employeurs de post-doctorat possibles. Tout ceci, bien entendu, en plus des aspects scientifiques proprement dits !

vendredi, septembre 2 2016

Quelques conseils non scientifiques aux doctorants

C'est la rentrée, et j'ai quelques conseils aux doctorants qui me trottent par la tête. Oh, pas des conseils de méthodologie, de choix de sujet ou autre aspect scientifique — les disciplines sont si diverses que cela n'aurait guère de sens. Je ne veux parler que des aspects administratifs et réglementaire du doctorat en France, et de ses débouchés.

D'une façon générale, dans l'enseignement supérieur et la recherche française, il y a la réglementation nationale (qui, du moins en théorie, s'impose à tous), d'éventuelles décisions locales, des coutumes propres à une discipline et de simples habitudes. Par exemple, il est habituel, dans l'université qui m'héberge, qu'un professeur ou assimilé de cette université figure dans chaque jury de thèse, mais cela n'est imposé ni par la réglementation nationale ni par la réglementation locale. En revanche, d'autres universités imposent cela.

Une difficulté pour le doctorant qui se pose des questions est que parfois la réponse qu'on lui apporte est propre à une discipline, une université, ou souffre d'exceptions, ou se rapporte à un état précédent de la réglementation. C'est compliqué, et qui plus est on peut fournir plusieurs réponses correctes suivant le point de vue dont on se place.

Prenons par exemple la question

« Faut-il obligatoirement l'agrégation [du secondaire] pour pouvoir devenir maître de conférences. »

Une réponse administrativement correcte est : « bien sûr que non! » :

  1. Ce n'est nulle part écrit dans le statut des maîtres de conférences et des professeurs des universités, qui définit leurs modalités de recrutement.

  2. L'agrégation est un concours de recrutement de l'enseignement secondaire et non un concours de recrutement du supérieur.

  3. L'agrégation n'existe pas dans diverses disciplines du supérieur, par exemple l'informatique, pourtant la discipline avec le plus grand nombre d'enseignants-chercheurs.

  4. L'agrégation suit la règle générale de la fonction publique : seuls les citoyens de l'Espace économique européen et de la Suisse peuvent concourir ; en revanche les emplois de maîtres de conférences et de professeurs des universités n'ont pas de condition de nationalité.

Toutefois, une réponse plus précise est que, dans certaines disciplines, notamment de lettres, sciences humaines et sociales , l'agrégation du secondaire, voire un bon classement à celle-ci, sert à démontrer une étendue de connaissances disciplinaires utiles pour un enseignant — l'idée étant qu'il est possible d'obtenir un doctorat en ayant des connaissances pointues sur un sous-domaine précis sans nécessairement avoir une vision plus large utile pour faire cours. Les jurys de recrutement tendent donc à tenir compte, même si cela ne sera évidemment écrit nulle part, puisque cela n'est pas une obligation réglementaire… et de même les jurys pourront fort bien recruter de non agrégés !

Qui plus est, ce n'est pas parce qu'il existe une réglementation nationale qu'elle est appliquée de la même façon partout, notamment parce qu'elle peut laisser une certaine marge de manœuvre. Par exemple, l'actuelle réglementation du doctorat (en vigueur depuis le 1er septembre) impose que le jury de soutenance soit composé de façon à « permettre une représentation équilibrée des femmes et des hommes ». La réglementation ne définit cependant pas en quoi consiste cette « représentation équilibrée ». Dans l'école doctorale dont je dépends, on estime qu'un jury est acceptable s'il comprend au moins une femme, dans d'autres on parle d'imposer 40 %. Les deux choix se défendent, d'ailleurs :

  • je suis dans une discipline avec environ 23 % de femmes, mais ce taux varie suivant la sous-discipline de sorte qu'il est raisonnable d'imposer au moins une femme sur un jury d'environ 6 personnes ;

  • mais 40 % c'est le minimum imposé pour les jurys de concours de maîtres de conférence.

À ce sujet, étonnement d'un étudiant quand je lui expliquais ces règles : « mais, untel a soutenu il y a trois mois et pourtant il n'avait aucune femme ». Oui, il y a trois mois ; mais le nouvel arrêté est en vigueur depuis le 1er septembre ! Ne pas se fier à ce qui a pu être ou non fait dans un état précédent de la réglementation !

Il faut également savoir qu'en France, à côté de statuts couvrant un grand nombre de personnels, il existe souvent des statuts assez confidentiels — par exemple, en matière d'enseignants-chercheurs, il y a les plus nombreux (les maîtres de conférences et professeurs des universités, par ailleurs en poste dans diverses grandes écoles), et puis certaines grandes écoles ont leurs propres statuts de personnels différents, donc avec des modalités différentes de recrutement (par exemple, la qualification par le CNU n'est pas exigée).

Enfin, quelques avertissements.

Le premier est, je sais que c'est cliché, que les promesses n'engagent que ceux qui les croient. On voit ainsi des doctorants se mettre à enseigner alors que, réglementairement, ils ne sont pas censés en avoir le droit, pour des promesses qu'on régularisera leur situation, et ensuite rager de ne pas être payés. C'est d'autant plus vrai que ceux qui disent qu'une chose est possible ou sera régularisée ne sont pas ceux qui prennent les décisions in fine : un professeur aura beau dire, si le chef des ressources humaines a dit que non, ce sera non.

Le second est qu'il ne faut surtout pas confondre d'une part la « morale » ou le « juste », d'autre part la réglementation ou la décision administrative. Par exemple, il peut sembler choquant qu'une université ou un organisme de recherche interdise à un chercheur d'aller à une conférence scientifique en Turquie, alors qu'on pourrait attendre que les universitaires français démontrent leur soutien à leurs collègues turcs en cette ère de purges. Le point de vue des universités ou des organismes de recherche est plutôt qu'ils ne veulent pas risquer d'avoir un personnel en mission officielle arrêté, blessé voire tué dans un pays étranger instable. J'irais même jusqu'à dire que si une administration a le choix entre la commodité (absence de risques, facilité de gestion…) pour elle et l'intérêt scientifique, elle choisira toujours la première.

En conclusion : vérifiez bien comment est censé fonctionner ce que l'on vous raconte.

vendredi, juillet 22 2016

Les solutions à tout

Suite aux attentats, divers politiciens et éditorialistes s'en donnent à cœur-joie de proposer de nouvelles mesures ou de donner des avis dont ils prétendent que s'ils avaient été suivis il n'y aurait pas eu de carnage. On peut sourire des idées de certains (des militaires avec lance-roquette prêt à être tiré en faction dans les avenues fréquentées), que l'on attendrait plutôt de la part d'adolescents que d'homme mûrs. On rit moins lorsque l'on sait que ces gens ont, pour une part, le pouvoir de transformer ces idées en lois et en mesures.

Deux billets précédents n'ont pas pris une ride :

La racine du problème semble être que, face à une menace (réelle ou imaginaire, exagérée ou non), le responsable politique se doit de proposer des mesures, que celles-ci soient efficaces ou non, qu'on puisse ou non les mettre en place.

Il semble que ce comportement soit motivé par la croyance que c'est ce que le public attend. Cette croyance est-elle justifiée ? Le public attend-il vraiment qu'on lui propose n'importe quoi ?

mercredi, juillet 20 2016

Algorithmes, apprentissage et usages sociaux

Le mot « algorithme », jadis inconnu du grand public, est maintenant à la mode. Moi qui suis professionnellement très familier des « algorithmes », je ne comprenais pas certains débats, certaines réactions. Il me semble, à la réflexion, que le sujet mérite clarification, ce que je vais tenter de faire ici.

Un algorithme c'est, rappelons-le, un procédé de calcul automatique et effectif. Il existe des algorithmes pour réaliser des tâches extrêmement variées ; citons par exemple, comme sujet classique étudié dans les premières années d'informatique, les algorithmes de tri (comment trier des millions de données par ordre alphabétique, par exemple). Un algorithme se distingue d'un logiciel au sens qu'il s'agit d'une description « théorique » d'un procédé de calcul, tandis qu'un logiciel est la mise en œuvre « pratique » de divers algorithmes sous une forme effectivement exécutable par une machine.

Deux conceptions

Dans l'approche classique, le ou les concepteurs d'un algorithme étudient le problème, au besoin le découpent en sous-tâches réalisées par des algorithmes déjà connus, et conçoivent l'algorithme avec des idées assez précises justifiant son bon fonctionnement. Souvent, ils produisent une preuve mathématique que l'algorithme fait effectivement ce qu'il est censé faire, par exemple trier des données. En tout cas, les concepteurs de l'algorithme comprennent pourquoi celui-ci fait ce qu'il est censé faire et ont fait des choix conscients en ce sens.

Dans les approches par apprentissage, l'algorithme (par exemple, un algorithme qui reconnaît des objets sur une photographie) n'est pas directement le résultat de la réflexion de concepteurs humains. Son fonctionnement découle du choix d'un très grand nombre de paramètres par un processus automatisé d'apprentissage (par exemple, en « montrant » des images et des listes d'objets y figurant). À l'issue de ce processus, le concepteur humain du système ne comprend pas forcément les critères qui ont été retenus par l'apprentissage, et n'est donc pas forcément en mesure d'expliquer l'action de l'algorithme dont il a dirigé la conception.

Nuançons

Bien sûr, les deux cas cités ci-dessus sont quelque peu caricaturaux. Même dans le cas où un humain a conçu toutes les étapes d'un algorithme et peut justifier mathématiquement qu'il donne un résultat acceptable, il ne comprend pas forcément d'autres aspects — par exemple, il peut ne pas savoir combien d'étapes de calcul l'algorithme nécessite dans le pire cas, ou pourquoi l'algorithme, sur les cas intéressants en pratique, nécessite moins de pas de calculs que ce qu'il nécessite dans le pire cas. Ou encore, il peut ne pas savoir justifier qu'un algorithme est plus précis « en pratique » que ce qu'il est capable de démontrer. Enfin, dans le cas de la conception de logiciels complexes, si l'on peut souvent justifier précisément du fonctionnement de tel ou tel algorithme, on sait rarement démontrer le bon fonctionnement de l'ensemble.

Quant à l'apprentissage automatique, il nécessite souvent des ajustements et réglages conscients par des personnels spécialisés. L'étendue des choix et des ajustements humains dépend de la méthode d'apprentissage utilisée. Notamment, certaines nécessitent que le concepteur du système prévoie un important recodage et sélection des données d'entrée pour les rendre acceptables par l'apprentissage automatique proprement dit. Par ailleurs, même dans le cas de techniques d'apprentissage profond, où le résultat de l'apprentissage est un immense volume de paramètres, on peut parfois identifier que certaines couches du système de traitement de données identifient telle ou telle particularité des données en entrée.

Avertissement : si l'on peut dire que je m'y connais en algorithmes, je n'ai sur l'apprentissage d'autre expérience que des lectures, l'écoute de conférences et des jurys de stages utilisant ce genre d'approches. En aucun cas il ne s'agit donc de l'avis d'un spécialiste.

Sur les usages sociaux

Les débats sur « les algorithmes » portent en fait sur leur utilisation à des fins « culturelles » (tri d'information par les moteurs de recherche) et « sociales » (profilage des individus à des fins de recrutement, de prêts bancaires… ou d'estimation du risque de délinquance). Il n'y a pas, ou du moins très peu, de débat public sur des sujets comme la conduite, en bonne partie automatisée, des avions de ligne.

Pour ma part, je vois quatre sujets importants :

  1. Les algorithmes « classiques » et la sélection des données et autres réglages des algorithmes d'apprentissage reflètent des choix humains : ce que l'on considère ou non comme pertinent comme critère de choix. La sortie de l'algorithme n'est donc pas un résultat « scientifiquement objectif ». Or, on utilise souvent « c'est ce que dit la machine » comme argument d'autorité interdisant la discussion.

  2. Les critères, les choix définis humainement sont généralement gardés secrets, ce qui interdit tout débat public à leur sujets.

  3. Les choix produits automatiquement par l'apprentissage peuvent ne pas répondre à certains objectifs de société. Par exemple, il est possible qu'un algorithme issu d'apprentissage qui devrait prédire la probabilité de « petite délinquance » d'un jeune au vu de ses données personnelles (lieu de naissance, de résidence, catégorie socioprofessionnelle des parents…) à des fins de recrutement ou non recrutement conclurait, au fond (et sans que cela ne soit explicité), qu'un jeune d'une famille pauvre de Stains a moins de probabilité de commettre des vols à la tire qu'un jeune d'une famille riche de Passy. Certes, mais est-ce bien raisonnable ou sain d'utiliser cela comme critère ?

  4. L'utilisation de mécanismes politiques ou sociaux hors de la compréhension des citoyens pose un problème en démocratie. Déjà, une bonne partie des français ne comprennent pas le calcul de l'impôt sur le revenu (les « tranches ») et les ordres de grandeur du budget de l'État.


dimanche, juillet 17 2016

La plus grosse preuve des mathématiques

La presse s'est faite l'écho de la publication de « la plus longue preuve des mathématiques » — attention surprenante pour un domaine, la preuve mathématique formelle assistée par ordinateur, qui n'est pas franchement grand public. Il se trouve que j'assistais à la conférence où résultat a été présenté ; j'aimerais ici en donner un résumé accessible et quelques commentaires.

Un public plus averti pourra se rapporter à l'article de recherche publié aux actes de la conférence ; mentionnons aussi la page « everything's bigger in Texas » où les auteurs ont rassemblé diverses informations et articles de presse.

Le problème du coloriage des triplets de Pythagore

Le problème qui se posait est de savoir si l'on peut colorer (disons, en bleu ou en rouge) les nombres entiers en respectant certaines règles. Par exemple, on peut imposer qu'on ne peut colorer de la même couleur les nombres 3, 4 et 5, au motif qu'il s'agit d'un « triplet de Pythagore » : 5 est la longueur du plus long côté d'un triangle rectangle dont les deux autres côtés sont de longueur 3 et 4. En d'autres termes, si on prend a=3, b=4, c=5 alors on a la relation a²+b²=c². On va s'interdire de colorer de la même couleur les triplets de Pythagore, et on va tenter de colorier les entiers 1, 2, 3… en respectant ces règles. La question est alors de savoir jusqu'à quel entier on va pouvoir colorier, ou en d'autres termes jusqu'où on pourra aller jusqu'à rencontrer une impossibilité. Bref, il s'agit de savoir à partir de quand on sera forcé d'avoir un triplet de Pythagore d'une seule couleur.

(Petite parenthèse. Je n'ai pas la moindre idée de pourquoi les gens s'intéressent à ce problème, s'il sert à quelque chose, s'il a des ramification ailleurs en mathématiques. Voir à la fin de l'article pour plus de discussion sur l'impact et la position de ce résultat.)

La force brutale ?

Une approche « par la force brutale » serait d'énumérer tous les cas de coloriage. Par exemple, si on essaye de colorier tous les entiers de 1 à 5, alors on a deux choix (bleu ou rouge)pour 1, deux choix pour 2, deux choix pour 3, deux choix pour 4, deux choix pour 5, et donc 2×2×2×2×2, soit 32, choix au total. Si on avait voulu colorier de 1 à 16, on aurait eu 2×2×2×2×2×2×2×2×2×2×2×2×2×2×2×2, soit 65 536, choix au total. Et pour 1 à 40, on aurait 1 099 511 627 776 possibilités. Le nombre de combinaisons croît vertigineusement !

Oh, certes, on peut y faire quelque chose. Un constat : si on a un coloriage en bleu et rouge, alors on en obtient un autre « opposé » en intervertissant le bleu et le rouge. On peut donc s'économiser un peu de travail en décidant qu'un nombre (par exemple 42) sera coloré en bleu, puisque s'il existe une solution où il est coloré en rouge, alors il existe la solution « opposée » où il est coloré en bleu. Ceci ne nous change cependant pas la vie, car il y a toujours un nombre vertigineux de combinaisons.

(Petite parenthèse de vocabulaire. Le nombre de coloriages possibles des entiers de 1 à n c'est 2×…×2 n fois, c'est-à-dire « 2 puissance n », noté 2n. On dit aussi « 2 exposant n », d'où le terme de « croissance exponentielle ». On entend parfois dans les médias ce terme appliqué à toute croissance rapide, mais le sens mathématique est celui que j'explique ici.)

En l’occurrence, les chercheurs cités on démontré que l'on peut colorier les nombres de 1 à 7824 avec deux couleurs de façon à ce qu'aucun triplet de Pythagore ne soit colorié d'une seule couleur, mais que cela est impossible pour 7825. Il est clair qu'il ne peut s'agir d'une preuve par la seule force brute : en effet, il faudrait alors énumérer 27825 combinaisons, soit un nombre à 2356 chiffres. Même en employant tous les ordinateurs disponibles actuellement pendant un temps égal à l'âge de l'Univers, on est très, très loin du compte. Pareil nombre pourrait paraître « astronomique » mais est même au-delà de tout ce que l'on peut envisager dans le monde astrophysique…

Un peu plus astucieux

On peut tenter d'être plus adroit. Si l'on sait, par exemple, que l'on doit colorier 3 et 4 en bleu, alors on peut immédiatement en conclure que 5 doit être coloré en rouge. On peut ainsi propager facilement des informations… un peu comme le joueur de Sudoku qui dit « la seule possibilité pour cette case, vu les cases déjà remplies, c'est de valoir 7, mais alors je sais que cette autre case doit valoir 8… ».

Toutefois, comme le savent les joueurs de Sudoku qui s'attaquent aux grilles « difficiles », cette propagation simple ne suffit pas. Il est parfois nécessaire de faire une hypothèse (« cette case peut être 5 ou 6, alors j'essaye 5 »), et de travailler ensuite sous celle-ci. On peut alors aboutir à une contradiction : une case pourrait n'avoir aucune valeur possible ! Il faut alors rétracter l'hypothèse faite (« comme ce ne peut pas être 5, j'essaye 6 »). Dans le problème du coloriage, on va donc être amené, lorsque la simple propagation ne suffit pas, à décider d'essayer qu'un nombre soit bleu, et si on aboutit à un conflit (une propagation conclut qu'un nombre doit être colorié en bleu et une autre propagation conclut que le même nombre doit être colorié en rouge) on se dit qu'on aurait dû choisir le rouge.

On explore ainsi une sorte d'arbre de choix : de la racine partent deux branches correspondant au premier choix (p.ex. branche de gauche, « 5 est colorié en bleu », branche de droite « 5 est colorié en rouge »), puis dans la première branche on trouve deux sous-branches (p.ex. branche de gauche, « 7 est colorié en bleu », branche de droite « 7 est colorié en rouge »), dans la deuxième deux sous-branches (p.ex. branche de gauche, « 8 est colorié en bleu », branche de droite « 8 est colorié en rouge »).

Ce que je viens de décrire est l'algorithme de Davis, Putnam, Logemann & Loveland (DPLL) (par algorithme, on entend « description d'un procédé de calcul automatique »). Mais il y a mieux !

L'apprentissage

Imaginons qu'il soit impossible d'avoir à la fois 47 et 49 en rouge et 70 et 5 en bleu. Cette règle n'apparaît pas dans les règles données initialement, qui ne parlent que de triplets de Pythagore, mais en est une conséquence. Malheureusement, l'algorithme DPLL ne s'en rendra pas compte, et pourra essayer plusieurs fois des combinaisons du style « 4, 47 et 49 en rouge et 99, 70 et 5 en bleu » ou « 3, 47 et 49 en rouge et 122, 70 et 5 en bleu ».

L'algorithme DPLL rétracte sa dernière hypothèse lorsqu'il rencontre un conflit. Ce conflit peut être analysé : « si je voulais colorier 84 en rouge, c'est parce que j'ai une règle qui dit que je n'ai pas le droit de colorier le triplet de Pythagore 80, 84 et 116 de la même couleur, or j'ai déjà colorié 80 et 116 en bleu ; j'ai colorié 80 en bleu parce que j'avais fait l'hypothèse que 60 et 100 étaient rouges, or 60, 80 et 100 forment un triplet de Pythagore ; et j'ai fait l'hypothèse que 116 était bleu. Par ailleurs, j'avais fait l'hypothèse que 84 était bleu. ». Ainsi, on est arrivé au conflit en raison des hypothèses « 84, 116 sont bleus, 60 et 100 sont rouges ». On peut donc apprendre une nouvelle règle : on ne peut jamais avoir à la fois 84 et 116 en bleu, 60 et 100 en rouge. Cette règle n'était pas initialement connue, mais je l'ai obtenue en analysant un conflit.

Ici, nous avons appris une règle supplémentaire à partir seulement de quelques étapes de raisonnement, mais en général, on peut ainsi déduire des règles qui « résument » une exploration assez fastidieuse, qu'on n'aura donc pas à refaire par la suite. Ici, une fois cette règle connue, on sait, une fois avoir sélectionné 84 en bleu, 116 en bleu, 60 en rouge, que 100 doit être bleu.

Ceci est la base de l'algorithme conflict-driven clause learning (CDCL). Je n'ai d'ailleurs pas évoqué diverses subtilités, comme par exemple comment éviter d'avoir à rechercher dans toutes la listes de règles celles qu'il faut considérer…

Je n'ai pas non plus évoqué comment les auteurs de l'article cité ont décomposé leur problème d'origine en un million de sous-problèmes, chacun résolu par CDCL, et comment ils ont réparti le million de problèmes sur 800 unités de calcul (ils travaillaient sur un super-calculateur composé de milliers d'unités de calcul, dont ils n'avaient loué que 800).

La preuve

On peut objecter qu'une telle preuve « par ordinateur » n'a guère de valeur, parce que le logiciel utilisé peut contenir des bugs.

Sur l'aspect « il est possible de colorier jusqu'à 7824 », il n'y a pas de problème. En effet, le logiciel, lorsqu'il répond positivement, produit le coloriage, qu'il est alors très aisé de vérifier.

Le problème est sur « il est impossible de colorier jusqu'à 7825 ». En effet, a priori, la correction de cette réponse repose sur le fonctionnement d'un logiciel très complexe. Il arrive que des logiciels mathématiques donnent des réponses fausses ou douteuses ; par exemple j'ai eu affaire à des logiciels qui, suivant leur version et la façon dont le même problème était présenté, répondaient « vrai » ou « faux ». On peut difficilement croire sur parole un logiciel qui se contente de répondre « il n'y a pas de solution ».

C'est là qu'intervient la fameuse « plus grosse preuve des mathématiques ». En effet, l'outil utilisé note les étapes de déduction qu'il effectue. Il produit ainsi une preuve (certes très longue, encore qu'on puisse la simplifier et la compacter) que l'on peut vérifier avec un logiciel indépendant. Il semblerait assez improbable que le logiciel ayant rédigé la preuve et le logiciel de relecture (voire les logiciels de relecture) aient tous des bugs qui laissent passer cette preuve, si elle était incorrecte, tandis qu'ils ont été abondamment testés par ailleurs.

Futile ?

On peut se dire que colorier des triplets de Pythagore est bien futile. En réalité, savoir « colorier » de deux couleurs suivant des règles d'incompatibilité, c'est extrêmement utile industriellement, car cela sert notamment à la recherche de bugs dans des circuits électroniques. Un « coloriage » réussi correspond alors typiquement à des valeurs électriques dans le circuit qui font que celui-ci produit un comportement indésirable. On dit souvent qu'un bug dans un circuit découvert uniquement après réalisation d'un prototype matériel coûte de l'ordre d'un million d'euros ; et un bug découvert après livraisons chez les consommateurs peut coûter largement plus (la société Intel, en 1995, avait dû organiser un rappel de microprocesseurs défectueux au coût de 475 millions de dollars des États-Unis).

Le tour de force des chercheurs ici a été non pas de développer un nouvel algorithme ou nouveau logiciel (encore qu'il y a eu certainement des développements spécifiques liés au découpage en un million de sous-problèmes), mais de tout mettre en œuvre pour résoudre un problème mathématique existant. On pourra objecter qu'il s'agit alors d’ingénierie ou du moins de recherche technologique et non de recherche scientifique.

Est-ce que cela en valait la peine ? Des mathématiciens comme Timothy Gowers objectent que, certes, on a une preuve d'impossibilité de coloriage en deux couleurs pour 7825, mais que cette preuve ne nous apprend rien sur le problème mathématique sous-jacent. Une vision naïve des mathématiques est que les mathématiciens cherchent à démontrer des théorèmes et que ce sont ceux-ci qui sont le but final, comme une sorte de grand prix. En réalité, avec la recherche de la preuve d'un grand théorème vient toute une réflexion, une compréhension, une théorisation ; pour reprendre une analogie assez cliché, ce n'est pas le but final qui fait l'intérêt du voyage, mais le trajet. De ce point de vue, la « grosse preuve » évoquée est assez pauvre : la produire n'a nécessité aucune compréhension de la structure des triplets de Pythagore.

Bien entendu, on peut rappeler que l'objectif posé par le président Kennedy d'aller sur la Lune, peut-être futile voire puéril en lui-même (allons-y pour montrer qu'on est plus fort que les Russkis !), a eu de nombreuses retombées technologiques, qui ne seraient peut-être pas arrivées, ou du moins pas aussi vite, s'il n'y avait pas fallu répondre au défi. Un défi peut lui aussi être intéressant non tant par son objectif final que parce qu'il a fallu réfléchir à comment le surmonter.

De ce point de vue, on pourra objecter que ni les approches ni les outils logiciels mis en œuvre n'étaient vraiment nouveaux pour cette preuve. Le logiciel CDCL utilisé, Glucose, de Laurent Simon (professeur à Bordeaux-INP) et Gilles Audemard (professeur à l'Université d'Artois), préexistait ; celui-ci met en œuvre plusieurs décennies d'idées et d'algorithmes dans le domaine de la satisfiabilité propositionnelle. L'approche cube-and-conquer de division en millions de sous-problèmes préexistait également.

Je pense cependant qu'avoir un résultat défi, identifié, visible, et qui parle aux mathématiciens professionnels, est une bonne chose pour la communication entre domaines scientifiques (je suppose que l'immense majorité des mathématiciens n'ont jamais entendu parler de preuve automatique, ou ont de fausses idées dessus ; encore que ce soit moins vrai de nos jours). Par ailleurs, du point de vue des mathématiciens, il est utile de savoir si un théorème est vrai ou faux avant de tenter d'en chercher une preuve élégante.

La couverture médiatique

Il est inhabituel qu'un résultat assez technique de mathématiques ou d'informatique sorte dans les médias grand public. Il semble qu'ici, l'origine de cette attention ait été un article dans la partie magazine de la revue Nature. J'ignore pourquoi Nature s'est penché sur le sujet (un communiqué des auteurs ? du service communication de leur université ?). Le Journal du CNRS a, avec un certain retard il est vrai, lui aussi évoqué le sujet, puis l'AFP et les médias qui suivent l'AFP. On a ici une illustration du suivisme des journalistes, qui parlent d'une chose parce que d'autres en ont parlé.

Ce qui, semble-t-il, a marqué les esprits, c'est qu'il s'agisse de « la plus grosse » ou « la plus longue » preuve des mathématiques. On pourra ironiser sur l'aspect « c'est moi qui a la plus grosse » de ces titres. On pourra également rappeler comment Richard Feynman se moquait de ces journalistes qui, pour évoquer une expérience de physique des particules, se concentraient sur un détail comme le fait que l'appareillage expérimental pesait 7 tonnes plutôt que sur le fond scientifique. Bref, ici, c'est le « record » qui est le motif.

Certains médias français ont évoqué « un algorithme de conception française » au sujet du logiciel Glucose (passons sur la différence à faire entre logiciel et algorithme). L'aspect « bien que cela ait été fait en Amérique, le fond est français » est important, un peu comme on souligne que telle ou telle région vinicole dont son succès en partie à l'expertise française exportée.

La théorie

J'ai dit l'importance des problèmes de « coloriage » (en réalité, des problèmes de satisfiabilité propositionnelle) pour l'industrie. Ces problèmes sont également très importants à titre théorique.

On l'a vu, la méthode naïve pour les résoudre consiste à énumérer un nombre exponentiel de possibilités. Les méthodes que j'ai évoqué plus bas (DPLL, CDCL) ne font pas mieux dans le pire cas. Une question légitime est donc de savoir si l'on pourrait trouver une méthode dont la croissance du coût du calcul avec la taille du problème soit seulement polynomiale (je ne définirai pas ce terme ici, mais, d'une certaine façon, ça croît bien moins vite qu'un exponentielle) — ou, à l'inverse, si l'on pourrait démontrer mathématiquement que cela est impossible. Cette question n'a pour le moment pas de réponse. On conjecture qu'il n'y a pas de méthode polynomiale, mais on ne sait pas le démontrer.

Cette question, aussi connue sous le nom de « P=NP ? » est considérée comme un problème central en informatique théorique. L'Institut Clay l'a listé parmi une liste de sept grand problèmes mathématiques « du millénaire », chacun doté d'un prix d'un million de dollars.

Le problème de la satisfiabilité propositionnelle est particulièrement important parce qu'un très grand nombre de problèmes lui ont été démontrés comme étant équivalents en un certain sens — si l'on trouve un algorithme polynomial pour l'un, alors il existe un algorithme polynomial pour les autres, et vice-versa. On peut dire (même si cette formulation est très discutable et doit être prise avec un grand de sel) qu'il s'agit de séparer ce qui est infaisable dans le pire cas, car trop coûteux, de ce qui est faisable.

Ces questions sont particulièrement importantes parce qu'elles ne dépendent pas de la technologie précise de calcul (sauf d'éventuels ordinateurs quantiques) et notamment ne se démodent pas avec le temps. Contrairement à un cliché répandu, les questions de science informatique ne sont pas forcément dépendantes d'une technologie en perpétuelle évolution à court terme je dirais même, le sont rarement.

jeudi, juillet 14 2016

Rhétorique de conviction

Un avocat connu pour son blog et sa présence sur les réseaux sociaux s'est récemment répandu contre la prétention que l'on puisse prédire l'avenir grâce à des algorithmes. Ayant rappelé la définition de ce concept (la description finie d'un procédé de calcul à l'aide d'opérations élémentaires, de tests, de boucles…), il en déduisait comme une évidence qu'il était impossible de prévenir l'avenir de cette façon. S'en est suivi une conversation entre moi et un interlocuteur anonyme, conversation qui, il me semble, est intéressante, au-delà du cas d'espèce, pour l'illustration de mécanismes psychologiques et rhétoriques, et que je me propose donc de résumer ici.

Le dialogue

D.M. : On prédit pourtant l'avenir avec des algorithmes : par exemple, on prévoit des années à l'avance la trajectoire des engins spatiaux, les services de météorologie prédisent le temps qu'il fera…

Anonyme : Vous confondez lois sociales et lois physiques.

D.M. : Vous voulez des exemples sociaux ? La société Google a eu le succès que l'on sait notamment de part sa capacité à assez bien prédire qu'est-ce qui sera considéré comme pertinent par les lecteurs.

Anonyme : Il s'agit d'une société privée, à but lucratif et aux visées transhumanistes !

D.M. : La nature de cette société où les éventuelles visées de certains de ses dirigeants n'enlèvent rien à ses capacités techniques.

Anonyme : Au contraire, cela a un rapport énorme ! Qui plus est, je ne crois rien sans preuve, et en matière de logiciels, la preuve passe par des tests unitaires !

D.M. : Bonne soirée.

Maintenant, mon commentaire.

Motte-and-bailey

Lorsque l'on énonce des faits généraux, comme par exemple qu'on ne peut prédire l'avenir à l'aide d'algorithmes, on se doit normalement de qualifier la portée de ces faits. Si l'on entend parler de l'impossibilité de prédire algorithmiquement l'avenir d'un être humain ou d'un groupe d'êtres humains, par opposition à celui d'objets bien décrits par des lois physiques, il convient de dire que l'on ne parle que des faits sociaux. Sans cela, on entre dans une conversation assez déplaisante où l'un énonce pompeusement des « vérités » de grande portée, est démenti, puis se plaint d'avoir été mal compris et que bien entendu ce n'était pas ce qu'il voulait dire.

Certains auteurs anglophones appellent ce procédé rhétorique motte-and-bailey par analogie avec la défense des châteaux médiévaux : on commence par vouloir accaparer un large territoire conceptuel ou rhétorique, mais lorsque l'interlocuteur presse, on se retranche dans son château sur la butte avec un énoncé bien plus restreint.

Confusion entre la véracité et la moralité des faits

Il devrait être évident que l'on peut prétendre qu'un fait est avéré sans considérer qu'il est bon pour la société ou considérer que les personnes qui en sont à l'origine ont agi moralement. Ainsi, dire que le Parlement a voté une loi n'implique pas que l'on considère que cette loi est appropriée ou bonne, ou encore moins que l'on considère que les parlementaires sont particulièrement moraux.

Pourtant, ici, on a cru bon de contredire le fait que la société Google pouvait, d'une certaine façon, prédire l'avenir, en m'objectant que cette société est privée, capitaliste et à visées transhumanistes. Quel rapport ? Ce n'est pas parce que nous n'aimons pas la perspective de quelque chose, ou les objectifs de ceux qui l'accomplissent, que celle-ci est impossible.

Une autre anecdote. Il y a quelques années, j'avais expliqué sur ce blog pourquoi je croyais que les instances dirigeantes d'une organisation (instances dont je ne faisais pas partie, mais dont je connaissais assez bien la mentalité, les objectifs et les modes de raisonnement) allaient décider en un certain sens. J'ai alors été violemment pris à partie comme si c'était moi qui avais tranché ! Comme si, en quelque sorte, estimer quelque chose se passera revenait à considérer que cette chose soit souhaitable, bénéfique, voire à avoir pris part à la décision.

L'épouvantail du transhumanisme

Je suis assez fatigué d'entendre parler des dangers du « transhumanisme », qui serait la mentalité des « ingénieurs de la Silicon Valley ». Certes, certains entrepreneurs des hautes technologies, notamment Ray Kurzweil, font des déclarations en ce sens. Il convient cependant de se rappeler que ces gens, dans une optique entrepreneuriale américaine, doivent faire rêver, notamment pour attirer des investisseurs et des employés de premier choix. Autrement dit, ils doivent proposer des objectifs très ambitieux ; on se rappellera du président Kennedy s'exclamant « To the Moon ! » pour lancer le programme lunaire. On doit cependant également se rappeler que cette rhétorique hyperbolique masque parfois des réalités décevantes : par exemple, on annonçait comme une révolution un produit mystérieux… le Segway.

Il existe à mon avis des problèmes bien plus pressants que le transhumanisme, y compris en matière d'usage des technologies numériques. Pourtant, celui-ci semble obséder certains milieux. Je ne comprends guère.

Je suis notamment troublé que l'on prenne pour argent comptant les déclarations d'entrepreneurs « transhumanistes », tout en dénonçant leur duplicité. D'une part on dit que ces gens sont des menteurs qui promeuvent l'impossible, d'autre part on dit qu'ils ont des projets dangereux. D'une part on les taxe d'une grande naïveté, d'autre part on leur attribue une grande adresse — un peu comme ces méchants de James Bond, aux moyens infinis et à la cruauté raffinée, mais qui laissent s'échapper le héros.

Vérité et prouvabilité

Il est vrai que l'on peut prouver la correction d'algorithmes et de programmes ; c'est d'ailleurs, cela tombe bien, ma spécialité de recherche et d'enseignement (et je suis d'ailleurs très réservé quand on m'explique qu'on fait cela par des « tests unitaires »). Une grande difficulté, voire limitation, de cette approche, c'est que très souvent on n'a pas de spécification mathématique claire de ce que l'algorithme doit faire. Dire qu'un algorithme doit rendre en sortie son entrée triée par ordre croissant, cela peut être mathématiquement précis ; dire qu'il doit reconnaître une photo d'homme d'une photo de femme, c'est plus délicat, car on n'a pas de caractérisation mathématique de ce qu'est une photo d'homme ou de femme. Autrement dit, quand on touche aux faits humains ou sociaux, on peut souvent oublier toute possibilité de prouver l'efficacité finale de l'algorithme. (Cela n'exclut pas, bien sûr, de pouvoir montrer des propriétés mathématiques intéressantes, mais dont le lien avec la réalité sociale est discutable.)

En ce qui concerne la société Google, je me borne à constater que son cœur de métier original est de retrouver ce qui est pertinent pour le lecteur, autrement dit à prédire avec un certain succès que tel document pourrait l'intéresser tandis que tel autre non. Bien entendu, cette prédiction n'est pas parfaite, et on peut se gausser des erreurs de ciblage des automatismes de l'Internet (par exemple, cette régie publicitaire qui, un temps, me proposait des publicités pour produits destinés à l'hygiène des organes génitaux féminins externes). Il n'en reste pas moins que l'on sait faire des choses.

Constatons également ici des injonctions contradictoires. On explique tout d'abord que le monde social est d'une complexité telle que, contrairement à la mécanique simple des trajectoires spatiales, il est inaccessible à la description mathématique et à la prédiction algorithmique ; puis on reproche aux algorithmes destinés à l'étudier de ne pas venir avec une preuve de correction par rapport à une description mathématique dont justement on nie l'existence !

Militantisme et rhétorique grandiloquente

Dans le militantisme et, plus généralement, les convictions politiques, il y a souvent

  1. la rhétorique grandiloquente, emphatique et plein de grands principes souvent assez creux

  2. la confusion entre ses désirs et la réalité

  3. la tendance à donner des leçons (que l'on pourrait qualifier de splaining, suivant un mot à la mode) sur tout sujet, à partir du moment où celui-ci se relie aux convictions politiques et morales défendues

  4. la tendance à partir dans la morale lorsque l'on perd pied sur les faits.

Là, je pense avoir été servi.

(Mea culpa – je pense moi aussi faire preuve de ces quatre travers lorsque je parle de sujets politiques.)

Critique de la gouvernance algorithmique

Il existe pourtant des critiques fort valables des la prédiction algorithmique. À mon avis, le bon argument n'est pas que l'on ne peut pas prédire l'avenir à l'aide d'algorithmes — puisqu'on le peut, avec une bonne probabilité, dans bon nombre de cas. Les bons arguments me semblent plutôt :

  1. Les critères de prédiction identifiés peuvent être des prophéties auto-réalisatrices et leur utilisation aveugle pourrait être contre-productive. Par exemple, il est possible que le fait d'être plutôt pauvre et d'habiter dans certains quartiers prédispose plus au vol à la tire que de naître dans une famille de cadres supérieurs ; et il est plausible qu'un algorithme d'apprentissage automatique constate cela si on lui soumet un corpus de délinquants vs non délinquants. Faut-il en conclure qu'il faut, au moment d'embaucher un personnel, favoriser les enfants de cadres supérieurs ?

  2. Les prédictions sont des tendances statistiques qui doivent donc être analysées statistiquement. On sait bien, par exemple, qu'un procédé même précis appliqué en masse pour dépister un phénomène rare donnera surtout des faux positifs.

  3. Ce n'est pas parce qu'un résultat est produit par un procédé algorithmique qu'il est correct. Les procédés algorithmiques incluent des biais, que ce soient ceux de leurs concepteurs ou ceux induits par le fonctionnement d'algorithmes d'apprentissage. D'ailleurs, il est rare que l'on puisse appliquer à l'aveugle des techniques d'apprentissage automatique sans d'importants réglages demandant la collaboration d'experts en apprentissage et d'experts du domaine étudié.

- page 1 de 92