La vie est mal configurée

Aller au contenu | Aller au menu | Aller à la recherche

Recherche scientifique

Fil des billets - Fil des commentaires

mardi, mai 4 2021

Les dangers de l'intelligence artificielle

On propose une réglementation européenne sur l’intelligence artificielle (IA), du moins lorsque celle-ci prend des décisions affectant les citoyens : texte du règlement, annexes.

La définition proposée de celle-ci liste des approches, des techniques (statistiques, logique, par apprentissage…). Lors d’une discussion sur Twitter à son sujet, je me suis demandé si, par exemple, la recherche opérationnelle (RO) rentrait dans le champ de ce projet ; ou encore, si le même modèle mathématique d’aide à la décision y rentrerait ou en sortirait suivant qu’il soit résolu par un moteur SAT (procédure logique) ou de programmation linéaire en nombres entiers. Je me suis rendu compte que pour mes interlocuteurs juristes je parlais chinois, et on m’a suggéré de donner ma propre définition de l’IA.

Je vais donc m’atteler ici à décrire ma vision de ce qui, en informatique, relève ou non, non pas de l’IA (ce qui est en grande partie plus une question de sociologie des sciences et techniques), mais d’usages informatiques socialement dangereux.

Ici je dois tout d’abord présenter un avertissement. Je ne suis pas juriste, et pas non plus épistémologue. Je ne travaille ni en intelligence artificielle ni en recherche opérationnelle. Je n’ai pas non plus le temps nécessaire à faire une bibliographie d’épistémologie des sciences à la recherche d’éventuelles définitions de l’intelligence artificielle. Je donne donc ici un avis informel et qui ne prétend pas être une publication scientifique. Les personnes qui seraient mécontentes de cela peuvent donc cesser leur lecture ici.

Je remercie Sébastien Konieczny pour ses remarques, en fonction desquelles j’ai modifié mon texte.

La définition par les scientifiques du domaine

Le groupement de recherche « aspects formels et algorithmiques de l’intelligence artificielle » (GdR IA) du CNRS a rédigé un livret d’introduction à l’intelligence artificielle. On y voit énumérées un ensemble d’approches, de problèmes, d’applications en sus de rappels historiques. Sébastien Konieczny rappelle la définition donnée par la conférence de Dartmouth (1956) :

« la capacité [pour des machines] d’utiliser le langage, de former des abstractions et des concepts, de résoudre différentes familles de problèmes pour le moment réservés aux humains, et de s’améliorer elles-mêmes »

et la définition de Winston (1992), à laquelle il ajoute la décision :

« L'étude des moyens qui permettent d’automatiser les processus de perception, d’apprentissage, de raisonnement, de décision et d'action. »

Ce qui s’est réclamé ou non de l’intelligence artificielle a varié au cours du temps, des modes. On a ainsi rappelé que le calcul formel (ce que font des logiciels comme Mathematica ou Maple) a dans les années 1970 été considéré comme de l’intelligence artificielle car les mathématiques étaient considérées comme une activité de l’intelligence humaine ; ce n’est plus le cas de nos jours. L’intelligence artificielle est de nos jours à la mode, et très bien financée, aussi il est tentant de s’y rattacher ; mais quand j’étais étudiant, c’était un terme considéré comme un peu ringard, sans doute en raison des déceptions causées par des promesses non tenues. La science anglophone a même un terme, AI winter, pour désigner ces périodes où l’IA n’est plus à la mode et où les financements s’étiolent.

Des approches sont ou non considérées comme de l’IA plus par l’historique des communautés scientifiques qui en traitent que par la réalité des problèmes qu’elles permettent de traiter. Prenons quelques exemples.

  • Les procédures de déduction automatisées (dont Prolog, systèmes experts…) opérant en logique du premier ordre sont généralement considérées comme de l’IA symbolique. D’autres procédures de déduction logique (SAT, SMT) ne le sont généralement pas ; ou encore certains mettent SAT dans l’intelligence artificielle mais pas SMT. La raison est que la communauté scientifique des outils de déduction automatisée en logique du premier ordre est historiquement liée à l’IA symbolique, tandis que celle autour de SMT vient de la vérification de logiciels et de circuits.

  • Les systèmes experts encodent des règles métier sous forme de règles de déduction logique et on les considère comme de l’IA. Les praticiens de la recherche opérationnelle encodent des règles métier sous forme, par exemple, d’inégalités linéaires sur des entiers. Les systèmes experts sont généralement considérés comme de l’IA, pas la recherche opérationnelle. C’est d’autant plus amusant que la même modélisation mathématique du même problème peut être résolue avec un moteur logique (SAT) ou un moteur de programmation linéaire en nombres entier, ce qui le ferait ou non rentrer dans l’intelligence artificielle. Là encore, probablement une raison de différence historique de communautés, la recherche opérationnelle provenant des mathématiques appliquées, de l’optimisation numérique.

Ainsi, l’intelligence artificielle n’est pas définie par une unité épistémologique ou méthodologique, mais, finalement, par qui choisit de s’en réclamer ou non (suivant les financements ?), ou par l’héritage de traditions de communautés scientifiques. Ce n’est probablement pas ce qui intéresse le régulateur européen.

De l’informatique sophistiquée mais pas intelligente

Commençons donc par donner un exemple de ce qui ne relève pas de l’intelligence artificielle, ou du moins de ce qui ne le semblerait pas aux yeux de l’immense majorité des utilisateurs. Prenons une base de données, et demandons de chercher une fiche dedans ; ou encore demandons, étant donné un fichier de clients et un fichier de commandes, de sortir tous les clients ayant commandé plus d’une certaine quantité de spiritueux en une année ; et demandons de trier ces données selon un critère (alphabétique, géographique…). S’il s’agit d’effectuer ces tâches très rapidement sur de très grandes bases de données, il faudra avoir bien organisées celles-ci, avec des index bien choisis, utiliser des algorithmes efficaces ; si la base de données ne tient pas dans la mémoire vive de l’ordinateur, il faudra utiliser des méthodes limitant les transferts depuis les disques durs ou réseaux externes. Tout ceci peut être fort délicat, et a motivé de nombreuses recherches ; mais cela n’est pas considéré comme de l’intelligence artificielle.

Chacun sait multiplier des entiers en écriture décimale par un algorithme appris à l’école primaire ; personne ne considère cela comme de l’intelligence artificielle. Cet algorithme appris à l’école primaire serait inefficace pour traiter les nombres de grande taille (centaines, milliers de chiffres), et on en utilise donc d’autres, plus rapides mais dont la mise au point a nécessité des recherches mathématiques. Des algorithmes de multiplication efficaces sont notamment utilisés dans certaines formes de cryptographie, et donc sont d’usage quotidien dès que l’on se connecte à un site « sécurisé » (courrier électronique, banque…). Pourtant, personne ne qualifierait cela d’intelligence artificielle.

Ainsi, ce n’est pas le degré de sophistication de l’algorithmique en cause qui détermine si elle relève ou non de l’intelligence artificielle.

L’effet magique et la définition par les utilisateurs et l’opinion publique

Arthur C. Clarke disait que « Toute technologie suffisamment avancée est indistinguable de la magie. ». Je dirais donc : « L’intelligence artificielle, du point de vue de l’utilisateur, est de l’informatique dont le fonctionnement est indistinguable de la magie. »

Les tâches de recherche d’un élément dans une table, de croisement de plusieurs tables, de tri, de multiplication de nombres de grande taille, ne nous apparaissent pas « magiques » ou relevant de « l’intelligence artificielle ». Pourquoi ? Fort probablement parce que :

  1. Ces tâches répondent à une spécification mathématique simple et précise, qui fixe leur résultat de façon univoque : il y a une seule réponse juste. (Ceci suppose, bien entendu, que pour le tri on a donné des critères permettant de différencier les ex-æquo ; nous y reviendrons.) Un mathématicien parlerait de problème bien posé.

  2. Le lien entre la spécification mathématique et l’attente humaine est immédiat : la spécification mathématique clarifie éventuellement certains points — l’humain va par exemple juste dire « tri alphabétique », mais il faudra clarifier, par exemple, comment on trie le é par rapport au e — mais est proche de ce que l’humain fournirait spontanément pour décrire ce qu’il désire.

On peut être tenté de caractériser ainsi l’intelligence artificielle : elle vise à résoudre « magiquement » des problèmes mal posés, pour lesquels l’humain échoue à donner une spécification mathématique simple et qui corresponde à ses désirs.

Cette définition pèche un peu au sens où elle ne couvre pas, par exemple, deux des plus grands succès de l’intelligence artificielle : les échecs, le Go. En effet, dans les deux cas (quoiqu’il me semble que le cas du Go soit plus délicat à définir, mais je connais mal ce jeu), le gain est une propriété mathématiquement définissable. L’usage d’approches d’intelligence artificielle se justifie car on ne sait pas construire des algorithmes optimaux de résolution de ces jeux qui n’aient pas des coûts totalement prohibitifs.

J’en viens donc à ma caractérisation de l’intelligence artificielle, telle que vue par le grand public, dont les juristes et le monde politique :

L’intelligence artificielle, telle que vue par le grand public,les juristes et le monde politique, vise à résoudre de façon satisfaisante en pratique des problèmes pour lesquels l’humain échoue à donner une spécification mathématique simple et qui corresponde à ses désirs, ou pour laquelle la résolution exacte suivant la spécification exacte des désirs conduit à des coûts prohibitifs.

Il y a cependant encore à discuter de cela, car certains domaines traditionnellement considérés comme ne relevant pas de l’intelligence artificielle sont couverts par cette définition. Nous avons cependant vu que les caractérisations traditionnelles dépendent en partie de filiations historiques de communautés scientifiques et non de divergences fondamentales d’approches ou d’hypothèses.

L’apprentissage automatique

De nos jours, l’acception grand public du terme « intelligence artificielle » se confond avec celle de l’apprentissage automatique (machine learning) ; l’apprentissage profond (deep learning) est à la mode.

Nous avons vu que dans les usages pratiques de l’algorithmique classique, il faut arriver à une formulation mathématique du problème posé par l’utilisateur final. Parfois, comme dans le cas du tri alphabétique, du croisement de bases de données, du calcul d’une moyenne, cette formulation mathématique est proche ou identique à la demande de l’utilisateur. Pour de nombreuses applications, aucune formulation mathématique ne vient à l’esprit : comment caractériser mathématiquement un « courriel probablement publicitaire » parmi les autres courriels, l’image d’un chien parmi les autres images, etc. ?

Les approches d’apprentissage supervisé visent à « apprendre » à l’ordinateur à répondre à une question en lui donnant des exemples de réponses correctes et en ajustant un nombre plus ou moins grand de paramètres d’une fonction mathématique afin que non seulement il donne la réponse à apprendre sur la très grande majorité des cas appris, mais qu’il généralise correctement à d’autres cas qu’il n’a pas vus. Un danger avec cette approche est en effet que le système apprenne correctement les cas de la base d’apprentissage, mais qu’il soit incapable de traiter des exemples qui en sortent, un peu comme certains élèves ou étudiants apprennent par cœur les cas du cours mais sont incapables de traiter des exercices semblables.

Un problème souvent mentionné avec l’apprentissage supervisé est qu’il ne vaut pas plus que les données qu’on lui a fournies. Si ces données ne contiennent pas l’information pertinente, le système pourra apprendre des critères non pertinents. Si ces données reflètent des pratiques discriminatoires, le système produira la même discrimination ; par exemple, s’il apprend comment une entreprise a recruté par le passé et que les pratiques de recrutements de l’entreprise étaient discriminatoires, il pourra reproduire cette discrimination. Si on lui fait apprendre sur une base d’exemples non représentative de l’ensemble de la population, il pourra avoir de mauvaises performances sur les cas absents ou insuffisamment représentés de sa base (par exemple, ne pas savoir reconnaître correctement les personnes à peaux foncées si on l’a entraîné sur des peaux claires).

Une difficulté, notamment, est que l’on apprend parfois à partir non pas de ce qu’il faudrait mesurer ou prédire, mais à partir de proxies : par exemple, on va apprendre à partir de recrutements précédents en supposant qu’ils représentaient une bonne politique de ressources humaines, au lieu de regarder la performance effective des personnes ainsi recrutées. C’est d’ailleurs un problème qui dépasse largement l’usage informatique : on va par exemple recruter sur la base de notes à des examens ou concours, alors que ces notes ne reflètent pas forcément la performance future des candidats.

La régression linéaire est un cas particulièrement simple d’apprentissage automatique, où on postule que la réponse à apporter à un problème est une fonction affine linéaire des entrées et où l’on recherche les coefficients de cette fonction, mais on peut également considérer qu’elle fait partie des statistiques. Là encore, la démarcation entre statistiques et apprentissage automatique n’est pas claire.

En apprentissage non supervisé, on laisse le système identifier de lui-même des groupements, catégorisations, structures, relations qui lui paraissent pertinents sans le référer à une vérité extérieure. En apprentissage par renforcement, le système peut explorer des stratégies et apprendre de ses essais.

Les problèmes sociaux posés par certains usages de l’apprentissage et des statistiques pour prendre des décisions affectant les personnes ont été notamment analysés par Cathy O’Neill dans son ouvrage Weapons of math destruction.

Systèmes experts et recherche opérationnelle

Une autre approche de l’aide à la décision est de collecter auprès d’experts du domaine un ensemble de règles, de contraintes, de critères à optimiser, de construire ainsi un modèle mathématique d’un problème que l’on pourra ensuite faire résoudre en machine. Dans certains cas, on construira un modèle mathématique pour un problème particulier (par exemple, le calcul des dates de maintenance pour les réseaux électriques français pour l’année 2020), dans d’autres cas on construira un modèle paramétrique, dont l’utilisateur ajustera les paramètres à chaque fois qu’il aura une nouvelle instance problème à résoudre : par exemple, on pourra encoder les règles de la construction d’un emploi du temps de personnels navigants et la compagnie aérienne fera ensuite résoudre une instance de problème, en ajustant des paramètres suivant ses besoins, ses disponibilités, etc., à chaque fois qu’elle voudra planifier une nouvelle période.

Une difficulté ici est que le modèle mathématique à résoudre n’est en général pas clair dans l’esprit des demandeurs ; pour parler crûment, les gens qui passent commande d’un logiciel qui résout leurs problèmes ne savent le plus souvent pas expliquer ce qu’ils désirent réellement (il est possible que cela soit d’autant plus vrai qu’ils n’ont jamais eu de formation en informatique et jamais eu à programmer eux-mêmes un logiciel). La collecte des règles et contraintes à satisfaire et la définition de l’objectif à optimiser sont très délicates :

  • Souvent, les experts métier oublient des règles, des contraintes ; le risque est ici que certaines solutions proposées soient aberrantes car elles violent une contrainte non exprimée qui était implicite dans l’esprit de l’expert métier.

  • Souvent, l’ensemble des contraintes exprimées n’admet pas de solution, un peu comme ces sélections de dates de réunion par Doodle où il n’y a aucune date acceptable pour tous les participants. Ce qui arrive, ici, est que certaines de ces contraintes devraient en fait être comprises comme des « contraintes molles », qu’on va tenter de satisfaire le plus possible (par exemple en intégrant leur insatisfaction comme pénalité dans l’objectif) mais qu’on s’autorisera à violer si on ne peut pas faire autrement.

Il convient ici de rappeler qu’il est considérablement plus difficile de concevoir un système de règles à faire appliquer par un calcul informatique que par une administration ou un système juridique, car le logiciel ne peut ni interpréter les règles, ni faire preuve de bon sens, ni ignorer une règle obsolète.

Par ailleurs, il ne faut pas oublier que le demandeur peut lui-même avoir une idée incorrecte des contraintes véritables du problème : par exemple, le demandeur d’un système de gestion d’emplois du temps peut être dans un service administratif et tout simplement ignorer la réalité de terrain (temps nécessaire aux tâches, etc.). Ce genre de dysfonctionnements arrive d’ailleurs sans usage d’algorithmes, témoins ces emplois du temps universitaires où l’on demande aux étudiants d’être en un lieu puis, 10 ou 15 minutes plus tard, d’être en enseignement à distance chez eux ou dans des locaux distants, sans avoir le temps matériel de se déplacer.s

Si l’on fait le travail sérieusement, la construction du modèle mathématique impose souvent des allers-retours entre le concepteur du modèle (un expert en programmation logique, contraintes ou recherche opérationnelle) et les demandeurs ou experts métier. Le concepteur pourra par exemple présenter au demandeur des exemples de solutions, et le demandeur se rendre compte alors qu’il a oublié d’indiquer une règle métier.

Si j’évoque les difficultés de construction du modèle, c’est parce qu’elles sont prépondérantes dans les dysfonctionnements de ce genre d’approches par rapport au choix des algorithmes ou approches de résolution du modèle mathématique : programmation par contraintes, programmation linéaire en nombres entiers, programmation quadratique, SMT-solving, preuve automatique en logique du premier ordre, programmation logique, programmation logique avec contraintes… Certaines de ces approches sont classées traditionnellement en intelligence artificielle, d’autres non ; mais là encore c’est plus une question de filiation historique des communautés scientifiques qu’une question épistémologique. Ainsi, le même modèle pourra parfois être résolu aussi bien par une approche de programmation par contraintes (souvent classée en IA symbolique), programmation pseudo booléenne (souvent classée en IA symbolique) ou SMT-solving (en général non classée en IA). Ceci doit à mon sens inciter à la plus grande prudence quant à des classifications juridiques basées sur les algorithmes de résolution de problèmes mathématiques et non sur la construction de ces problèmes.

Ce qui me paraît pertinent ici est non pas la classification en intelligence artificielle symbolique ou non de la méthode de résolution, mais plutôt la possibilité que le modèle mathématique appliqué soit éloigné de la réalité humaine, omette de prendre en compte des contraintes de terrain, soit basé sur des données erronées, ne soit pas révisé en fonction des remontées de terrain, optimise un mauvais objectif, etc.

L’explicabilité

Un enjeu des systèmes automatiques fournissant des résultats applicables aux humains est qu’ils puissent expliquer le cheminement ayant abouti à la décision. Dans le cas de l’IA symbolique, on pourra souvent lister les règles et contraintes ayant abouti à la décision, et le cheminement logique associé.

C’est une question de recherche que de donner des explications pour des résultats d’algorithmes issus de l’apprentissage automatique. En effet, donner le tableau de coefficients utilisés — il peut en avoir des milliards — n’a pas d’intérêt. Il faut pouvoir remonter à des informations plus compréhensibles par l’utilisateur. Par exemple, une méthode de reconnaissance d’images pourra justifier qu’elle a reconnu un chien parce qu’il semblait être organisé avec une certaine forme à partir d’éléments appris automatiquement, représentant telle ou telle partie anatomique.

Le choix de l’algorithme importe-t-il à l’utilisateur ?

Le mot « algorithme » a pris dans les médias et les discours politiques le sens de « boîte noire » magique et capable d’exploits tels que détecter des terroristes. Or, ce n’est pas le sens qu’il a dans la littérature scientifique, qui est plutôt celui-ci : la définition d’un calcul entièrement automatisable et dont le résultat répond à un certain objectif, une certaine spécification. Les ouvrages d’algorithmique (citons, parmi les classiques, celui de Cormen, Leiserson & Rivest, et bien entendu la considérable somme de Knuth) procèdent donc toujours ainsi : spécifier clairement un problème, puis donner un ou plusieurs algorithmes pour le résoudre, avec des preuves mathématiques que chaque algorithme résout effectivement le problème qu’il est censé résoudre.

Si la spécification mathématique fournie par l’humain est si précise qu’il n’y a qu’une réponse acceptable pour l’algorithme quelle que soit l’entrée qu’on lui fournit, le choix de l’algorithme est indifférent pour les utilisateurs si ce n’est pour des raisons de coût (temps, capacité mémoire) et autres considérations techniques. En effet, quel que soit l’algorithme utilisé, le résultat sera le même. En revanche, dans le cas où la spécification laisse quelque liberté sur le résultat (par exemple, pour un tri, si on ne spécifie pas comment départager les ex-æquo), le résultat pourra dépendre de l’algorithme utilisé.

Dans le cas de l’IA symbolique ou de la recherche opérationnelle, il pourra y avoir une dépendance de la solution à l’algorithme si la spécification du problème laisse un certain degré de latitude, par exemple s’il existe plusieurs solutions optimales au sens du critère d’optimisation donné, ou si l’on n’a pas imposé de vraiment rechercher l’optimum. Par exemple, un algorithme qui chercherait d’abord à satisfaire une contrainte, puis la suivante, etc., devenant de plus en plus « bouche-trou » quand le placement progresse, pourrait exhiber un biais si les dernières contraintes traitées étaient celles de tel ou tel groupe de personnes, toujours les mêmes (par exemple, une catégorie des personnels, ou les dernières personnes dans l’ordre alphabétique), qui se retrouveraient ainsi défavorisées. Ce genre de biais peut se combattre, par exemple, par l’application d’un tirage au sort, ou en intégrant les inégalités de satisfaction de contraintes molles (ces inégalités constituant une forme de manque d’équité) comme pénalités dans la fonction à optimiser.

Le manque de recul ?

On peut se demander pourquoi, alors que l’aide algorithmique à la décision existe depuis les années 1950, on songe en 2021 à la réglementer. On peut bien sûr citer comme raisons :

  • Que de nos jours toute personne, ne serait-ce qu’en commandant en ligne, a directement affaire à cette aide, alors qu’auparavant cela ne concernait que certaines professions (planification d’emplois du temps, par exemple).

  • Qu’on utilise de nos jours des méthodes basées sur l’apprentissage automatique sur des données massives (big data).

Ceci ne nous explique cependant pas en quoi les méthodes basées sur l’apprentissage automatique poseraient un problème particulier que n’auraient pas posé, pendant des décennies, les approches de recherche opérationnelle. Les hypothèses que je vais émettre pourraient sembler polémiques ; ce n’est pas mon but. Je serais d’ailleurs enchanté qu’on m’indique qu’elles sont fausses.

Hypothèse 1 : le manque de prudence dû à l’inexpérience

Les praticiens de la recherche opérationnelle ou des approches d’IA symbolique savent depuis longtemps distinguer d’une part le modèle mathématique qu’ils construisent et d’autre part la réalité ; ils savent qu’il faut se méfier des affirmations des donneurs d’ordres en matière de contraintes à satisfaire, qu’ils en oublient, que souvent ils distinguent mal ce qui relève de l’impératif absolu de ce qui est simplement gênant, etc. Certains consultants vont vérifier sur le terrain si certaines données sont correctes (par exemple, chronométrer eux-mêmes le temps nécessaire pour certaines tâches et constater eux-mêmes certaines impossibilités, plutôt que de s’en remettre aux paroles d’un cadre).

Tous les praticiens expérimentés de la fouille de données savent que les données sont souvent « bruitées » : informations incorrectes, libellés incorrects, catégorisations incohérentes, etc. Ils savent qu’il faut se méfier des données et que souvent le prétraitement manuel (ou assisté par ordinateur, mais toujours avec un retour manuel) prend plus de temps que le traitement automatisé que l’on veut faire subir aux données.

Cette prudence traditionnelle n’est, semble-t-il, souvent pas de mise en matière de méthodes issues de l’apprentissage automatique. Anything goes.

Hypothèse 2 : les effets de mode, conduisant à l’application d’approches mal maîtrisées

Par ailleurs, l’enthousiasme autour des méthodes d’apprentissage automatique fait qu’on les utilise parfois pour rester dans le vent, mais sans recul. On voit des entreprises dire, en somme, « nous avons des données mais nous ne savons pas quoi en faire », recruter des stagiaires pour bricoler des systèmes, etc.

Une boutade qui circule beaucoup sur les réseaux sociaux est qu’une bonne partie de l’apprentissage par réseaux de neurones profonds utilisés en pratique ne donne pas de meilleurs résultats qu’une bête régression linéaire ; en revanche les premiers font plus à la page.

Hypothèse 3 : les incitations

Une entreprise a pour but de maximiser ses profits, pas d’être équitable. Si une entreprise estime qu’elle fera plus de profits en vendant un logiciel de profilage des candidats à des emplois un peu bâclé et fournissant des résultats biaisés ou parfois aberrants qu’en attendant et en payant du personnel pour régler les problèmes soulevés, elle pourra être tentée de le faire.

Ceci est d’ailleurs cohérent avec le comportement plus général de l’industrie du logiciel, qui, hors des cas très spécifiques, sait qu’elle peut livrer des produits défectueux quitte à concevoir des correctifs par la suite s’il y a trop de protestations.

Conclusions

Pour moi les éléments importants pour moi en matière de dangers sociaux d’aides informatiques à la décision ne sont ni le détail de la technique mise en œuvre, ni sa classification en intelligence artificielle ou non, mais plutôt :

  • L’éloignement ou le possible éloignement du modèle mathématique mis en œuvre par rapport à la réalité visée (contraintes, fonction objectif, usage de proxies…).

  • Son opacité, l’inexplicabilité des décisions prises.

  • Le caractère univoque ou non des solutions recherchées.

  • L’impossibilité effective de demander une révision du modèle en cas de défaut.

Par ailleurs, je pense qu’en matière d’IA il faut distinguer :

  1. la recherche en IA (fondamentale) ;

  2. la recherche dans d’autres domaines où l’on se met à utiliser de l’IA ;

  3. l’industrie qui utilise l’IA ;

  4. celles et ceux qui prétendent faire de l’IA (car c’est à la mode).

Une bonne partie des critiques grand public de l’IA s’adressent en fait à 3) et 4), parfois à 2), rarement à 1).


samedi, mars 6 2021

Remarques sur le financement des thèses à travers les disciplines

Dans ce qui suit, j’emploierai « sciences dures » pour rassembler les disciplines communément regroupées sous le terme « sciences » dans, par exemple, les tableaux de sections du Conseil national des universités (CNU) ou les divisions de l’École normale supérieure. Ce terme est donc une commodité pour désigner une catégorie sociale et administrative, et ne représente pas de ma part une prise de parti épistémologique. On emploie par ailleurs STEM ou STM dans le même sens.

Par ailleurs, je dirai « doctorants » pour « doctorants et doctorantes ».

On rappelle que 90 % des thèses de sciences dures ont un financement propre (contrat doctoral, etc.) tandis que seulement 33 % des thèses le sont en lettres, sciences humaines et sociales (LSHS). Certaines remarques à ce sujet me semblent parfois motivée par une compréhension incorrecte de ce fait, à savoir que 90 % des demandes de financements de thèse en sciences dures seraient honorées. Ce n’est pas comme cela que cela fonctionne !

Le pourcentage élevé de thèses financées en sciences dures s’explique par deux décisions :

  1. Les écoles doctorales de sciences dures refusent assez généralement l’inscription de doctorants sans financement de thèse spécifique, ou du moins sans emploi stable compatible avec une thèse (par exemple, dans notre école doctorale, des enseignants de mathématiques du secondaire qui font des thèses de didactique des mathématiques).

  2. Les écoles doctorales incitent fortement à s’en tenir à la durée réglementaire des thèses, soit trois ans, qui est celle des financements. Ceci évite le cas, assez fréquent chez les doctorants de LSHS qui ont la chance d’être financés pendant trois ans, de devoir vivre d’emplois précaires ou d’allocations chômage pendant la fin de thèse.

La première décision rend en fait assez tautologique le fait que l’immense majorité des doctorants sont financés, puisqu’on n’inscrit pas les autres. De fait, n’importe quelle discipline pourrait appliquer les mêmes recettes pour atteindre 90 % de doctorants financés, à condition

  • d’accepter une baisse des inscriptions d’étudiants en thèse

  • d’accepter (et je sais que cela pose des difficultés éthiques) qu’un critère économique et financier (la disponibilité d’un financement) conditionne la poursuite d’études (après tout, peut-on dire, à 23 ans on est adulte et on peut choisir librement de s’engager dans une thèse non financée).

On suggère également qu’il serait plus facile d’obtenir un contrat doctoral en sciences dures qu’en LSHS. Ici, cela dépend de ce que l’on entend par contrat doctoral et notamment s’il s’agit d’un financement pour un sujet de thèse libre ou non.

Les écoles doctorales distribuent des contrats doctoraux « au mérite », selon des modalités différentes suivant les écoles doctorales. Notre école doctorale, sur trois disciplines, a ainsi par an 15 contrats doctoraux à distribuer pour 230 chercheurs et enseignants-chercheurs habilités à diriger les recherches. (**) J’ai demandé à des collègues d’autres disciplines, d’autres établissements combien ils en avaient, notamment en LSHS, et j’obtenais des taux similaires, parfois d’ailleurs meilleurs.

Il ne me semble donc pas plus facile d’obtenir un contrat distribué par l’école doctorale en sciences dures qu’en LSHS.(*)

Mais alors, d’où viennent les autres financements qui permettent de payer 90 % des doctorants de sciences dures ? Il s’agit de financements qui, sous une forme ou une autre, contraignent les sujets de thèse :

  • financements IDEX, LABEX

  • CIFRE (thèses où le doctorant est employé par une entreprise, collectivité, association…)

  • projets ANR, ERC, etc.

Dans ces types de financements, souvent, le sujet, ou du moins ses grandes lignes, est déjà fixé avant que le doctorant ne soit recruté. Bien sûr, avec un peu de créativité, on peut faire rentrer dans un projet divers sujets, mais il y a des limites. Il n’est pas possible de faire ce que l’on me décrit comme courant en LSHS, à savoir qu’un étudiant vienne avec un sujet de thèse de son choix et se cherche un encadrement.

C’est là à mon avis la grande différence : la disponibilité de financements « fléchés ». Ils sont plus nombreux en sciences dures qu’en LSHS, et il est plus dans la culture d’y candidater.

Il faut ici être bien conscient qu’une grande partie des financements fléchés en sciences dures sont conditionnés à l’existence, ou du moins la prétention de l’existence, d’un lien avec des applications technologiques et des retombées économiques.

Ma position était qu’il y a trop de financements fléchés, souvent selon des règles trop spécifiques (il faut deux PME de la région, il faut un sujet commun avec une université de telle région brésilienne, etc.) ou selon des modes politico-scientifiques, et qu’on aurait de meilleures recherches si ces financements étaient distribués au mérite par les écoles doctorales.

Toutefois, on m’a fait remarquer que cette vision repose sur l’idée que la distribution par les écoles doctorales est juste. Des collègues LSHS m’ont ainsi dit que leur école doctorale pluridisciplinaire, et dans laquelle leur discipline est minoritaire, les ignore, et que donc ils apprécient d’avoir des projets IDEX pour obtenir des financements de thèse.

De même, on m’a fait remarquer que l’ANR (agence nationale de la recherche), du moins à l’époque où ses taux de réussites étaient suffisamment élevés pour qu’elle ne relève pas de la loterie, avait été une chance pour de jeunes chercheurs qui n’auraient pas obtenu de financements par le biais de leur laboratoire ou de l’école doctorale, qui favorisaient des « mandarins » locaux.

J’ai par ailleurs évoqué à diverses reprises, y compris auprès de responsables du monde de la recherche, la nécessité d’accorder plus de contrats doctoraux en LSHS. Il m’a été parfois répondu que cela ne servirait à rien si ces contrats étaient monopolisés par les « mandarins » habituels.

Ceci nous montre que la question est plus complexe qu’il n’y paraît. Faut-il mettre plus de financements par projets en LSHS ? Ou imposer des procédures justes et transparentes (lesquelles ?) pour l’attribution des contrats doctoraux ? Je n’ai pas de réponse.

(*) Il y a parfois des phénomènes conjoncturels qui font qu’obtenir un contrat doctoral est facile à tel ou tel endroit, dans telle ou telle discipline ; cela ne met pas en cause la tendance d’ensemble à plus long terme.

(**) On m'indique:

14 contrats pour 290 HDR dans une ED de chimie-biologie.

1 contrat pour 12 HDR dans une ED de physique.

ED d'informatique : 1,5 financements par an pour 17 HDR, et 31 C/EC.

Orsay: Toutes EDs confondues. 1000 nouveaux doctorants par an, 250 contrats doctoraux sur la subvention pour charge de service public. Plus de 3000 HDR ou équivalent.

Chimie: 14 contrats doctoraux par an depuis plusieurs années, pour 210 HDR

Chimie: 22-23 contrats doctoraux par an ("allocations ministère ") pour environ 300 HDR

4 contrats pour plus de 80 HDR dans une ED qui couvre de très nombreux domaines (Psychologie, Sciences du Langage, Ergonomie, Sciences de l'Information et de la Communication, Informatique, Mathématiques, Productique - Génie industriel)

EHESS: 600 HDR, 35 contrats doctoraux

Savoie: 430 HDR, 7 contrats doctoral par ans. ED multidisciplinaire. En moyenne 0,3 bourse par an pour mon labo qui a 18 HDR.

dimanche, février 21 2021

Science en action et militantisme

On reproche actuellement à des collègues dans certaines disciplines de se livrer à du militantisme politique sous couvert de science. J’aimerais revenir là-dessus.

En quelque sorte, selon certains, le scientifique devrait se limiter à décrire la réalité, et non à agir pour transformer celle-ci. Est-ce bien là ce que l’on attend d’eux seulement ?

Les scientifiques, au moins en sciences « exactes », sont incités à collaborer avec des industriels, voire à fonder des entreprises (start-ups). On est bien là clairement dans l’action sur la réalité, et non dans sa description.

On pourra m’opposer qu’il s’agit là d’une action économique et non politique. Or, par ailleurs, on encourage les scientifiques à contribuer à la définition de normes. J’ai vu reprocher à un laboratoire son manque de participation à des comités internationaux de normalisation ; on attend de médecins, du moins de certains, qu’ils contribuent à des normes en matières médicale ou chirurgicale ; on attend d'enseignants-chercheurs de droit qu’ils proposent des solutions au législateur. Là encore, il ne s’agit plus de décrire l’état de l’art, mais de proposer des évolutions qui s’imposeront à tous.

Pourquoi, dès lors, s’offusque-t-on que des sociologues ou politologues proposent des évolutions politiques ou sociales ? Quelle est la différence avec les autres sortes de contributions actives citées plus haut ?

PS: J'avais écrit « professeurs de médecine », on m'a fait remarquer que c'était réducteur par rapport aux autres hospitaliers.

lundi, janvier 25 2021

Des ressources pas si propres que cela

Lorsque je traitais de questions de relations avec les institutions culturelles pour l’association Wikimédia France, j’étais souvent confronté à l’attitude suivante : des collectivités locales, des organismes publics ne voulaient pas publier des documents sous licence libre au motif que, peut-être, elles pourraient en tirer des revenus par des ventes de licences d’utilisation. Notamment, une responsable de bibliothèque m’expliqua qu’elle vendait de temps en temps des licences à des éditeurs.

Or, vendre de temps en temps des licences de prix modéré, ce n’est guère profitable. Chaque vente demandait l’intervention d’une conservatrice, de services financiers et comptables, pour des montants très modestes. Pour que des ventes de document rapportent, il faut un système de vente en ligne automatisé, avec des paiements par carte bancaire, notamment, pas un système où chaque transaction demande beaucoup de travail. Autrement dit, ce système de vente — enfin je le suppose, car je n’en ai pas eu les données comptables — revenait largement à convertir de la dotation ministérielle (la paye de fonctionnaires) en « ressources propres », probablement sans dégager grand-chose comme ressources supplémentaires.

Plus récemment, j’ai appris que dans certains établissements d’enseignement supérieur et de recherche, le service chargé de la valorisation est déficitaire, autrement qu’il coûte plus cher d’entretenir le portefeuille de brevets et de négocier des contrats de licence que ceux-ci et celles-ci ne rapportent. Même phénomène ?

Cette volonté de faire « dégager des ressources propres » touche les laboratoires de recherche, bien sûr, et parfois sous une forme assez ridicule. Ainsi, au CNRS, il est bien sûr obligatoire de verser des gratifications de stage, mais il est également interdit d’imputer ces gratifications sur le budget de « dotation » du laboratoire ; ces gratifications doivent donc être imputées sur des ressources propres. Or, ces ressources propres ont souvent un temps d’expiration (contrats de l’agence européenne de la recherche ou européens), et sont le plus souvent affectées à des tâches précises. On emploie donc des fonctionnaires hautement qualifiés pour gérer des questions aussi peu importantes scientifiquement que trouver comment payer les stagiaires.

Enfin, à plusieurs reprises, j’ai constaté des difficultés, des pertes de temps, parce que des services de valorisation croyaient à tort avoir trouvé un produit de la recherche d’où ils pourraient tirer des ressources importantes, en ignorant ce que leur disaient les chercheurs. Là encore, beaucoup de temps de personnels très qualifiés perdu.

J’ai l’impression à chaque fois du même motif : l’incitation à « dégager des ressources propres » a abouti à des modes de fonctionnement contre-productifs conjuguant un moindre service rendu au public et une inefficacité financière. Je ne blâme évidemment par les fonctionnaires « de base » impliqués : ceux-ci appliquent des consignes, répondent à des incitations venues d’en haut. Ce sont ces incitations qui sont le problème.

Pour conclure, je voudrais rappeler que je ne suis pas contre la valorisation des résultats de la recherche scientifique, surtout quand celle-ci a été développée pour répondre aux besoins de pans de l’économie — je serais d’ailleurs très mal placé pour cela, puisque je suis co-auteur d’un logiciel diffusé industriellement avec versements de droits à mon employeur, qui m’en reverse une partie. Ce que je dis, c’est que pour bien valoriser, il faut le faire de façon réaliste, pas pour répondre à des fantasmes de ressources propres.


mercredi, août 26 2020

1200 théorèmes prouvés par intelligence artificielle

Plusieurs personnes m’ont demandé ce que je pensais de l’annonce de Google d’avoir créé une intelligence artificielle qui avait déjà démontré 1200 théorèmes ; même s’il s’agit d’une annonce de l’an dernier, on continue de me poser des questions dessus, je pense donc pertinent d’écrire un billet.

Tout d’abord, relevons que la démonstration automatique de théorèmes est un vieux champ scientifique à l’échelle de la courte histoire de la discipline informatique (travaux des années 1950, 1960). Mieux encore, la démonstration automatique de théorèmes et les sujets connexes tels que la « programmation logique » ont longtemps été considérés comme un des principaux axes de recherche en intelligence artificielle (ce qui fait, pour la petite histoire, que j’ai moi-même publié dans une collection d’ouvrages d’intelligence artificielle). Il va donc falloir quelque peu préciser les choses afin de dégager la nouveauté de ces travaux : cela fait belle lurette que l’on démontre automatiquement des théorèmes, et qu’il y a même des applications industrielles à cela !

La question de savoir si un théorème admet ou non une démonstration est bien entendu ancienne. Au début du XXe siècle, on s’est demandé s’il existait des procédés mécaniques (au sens de : applicable mécaniquement par un mathématicien inintelligent mais doté d’une obstination, d’une longévité et d’une quantité de papier non limitées) pour résoudre tel ou tel type de problèmes mathématiques (équations diophantiennes…), pour aboutir au problème de la décision (Entscheidungsproblem) : étant donné un énoncé mathématique, dire si celui-ci admet ou non une démonstration(et fournir celle-ci).

Toutefois, on démontra (travaux de Gödel, Church, Turing…) qu’il ne pouvait exister de tel procédé. J’insiste ici, car parfois on a voulu me reprendre sur ce type d’affirmations en m’expliquant que ce que je voulais certainement dire, c’est que la science n’avait pas encore trouvé de tel procédé, mais que cela n’excluait pas qu’ils pussent exister. Il ne s’agit pas de cela : on a démontré qu’un tel procédé ne peut exister, en supposant son existence et en en dérivant une conséquence absurde. Les développements autour de ces questions forment la théorie de la calculabilité.

Toutefois, l’impossibilité d’avoir une procédure automatique traitant de l’arithmétique, et plus généralement des mathématiques, n’exclut pas d’en avoir pour certains fragments restreints des mathématiques. On dégagea donc des classes d’énoncés mathématiques admettant des procédés mécaniques de décision (des algorithmes). On s’aperçut aussi que même si un procédé existait, celui-ci pouvait avoir un coût (temps de calcul, espace mémoire utilisé) absolument prohibitif. Ainsi, on sait depuis les travaux de Tarski (années 1950) que la « géométrie élémentaire » et l’« algèbre élémentaire » (je ne donnerai pas ici la définition de ces termes dans ce contexte) admettent des algorithmes de décision, mais les premiers algorithmes proposés à cet effet avaient un coût tel qu’ils étaient impossibles à appliquer sur quoi que ce soit d’intéressant ; et encore actuellement, ces problèmes sont coûteux à résoudre.

On s’intéressa donc à la question de savoir si certains problèmes étaient intrinsèquement difficiles à résoudre, s’il était inévitable qu’ils n’admettent que des algorithmes de décision coûteux ; cela donnala théorie de la complexité algorithmique, qui à ce jour comprend d’ailleurs encore de formidables conjectures non démontrées, notamment P vs NP.

Le fait qu’une classe de questions mathématiques n’admette pas d’algorithme de décision, ou que tout algorithme pour la décider est trop coûteux, ne doit cependant pas nous décourager. En effet, cela n’implique nullement qu’il n’existe pas d’algorithme qui, sur de nombreux cas d’espèce intéressants en pratique, résolve le problème avec un coût tolérable. En d’autres termes, ce n’est pas parce que le pire cas est défavorable qu’on doit perdre tout espoir.

Depuis les années 1950, on a donc cherché à obtenir des algorithmes qui se comportent bien sur des cas intéressants en pratique. En matière de recherche de solutions à des problèmes mathématiques, ou de recherche de preuves à des théorèmes, les algorithmes procèdent souvent par une sorte d’exploration des possibles : on essaye une direction de recherche, elle ne fonctionne pas, on en essaye une autre, etc. On cherche donc à concevoir des algorithmes qui d’une part arrivent à exclure rapidement des mauvaises directions de recherche (en se rendant compte que quoi qu’on fasse une fois parti dans cette direction, on n’arrivera à rien), d’autre part tendent à chercher dans la bonne direction.

Lorsqu’un·e mathématicien·ne professionnel·le, voire même un·e étudiant·e, recherche une preuve à un théorème, il y a aussi souvent des tâtonnements, qui d’ailleurs aboutissent parfois à se rendre compte que finalement, ce n’est pas le bon énoncé de théorème, pas les bonnes définitions. Je ne connais pas la littérature sur les processus psychologiques en cause et m’exprimerai donc comme le grand public : il semble y avoir en mathématiques une forme de « flair » pour les bonnes définitions, les bons énoncés, les bonnes directions de preuve, ce « flair » étant nourri par l’expérience.

On a donc cherché à produire des algorithmes intégrant une forme de « flair » sous formes d’heuristiques de choix : par exemple, l’algorithme va estimer que, « vu la tête du problème et les essais précédents, c’est une bonne idée que d’essayer de distinguer les cas où x>0 et x0». Là encore, ce n’est pas nouveau, et les bonnes performances des SAT et SMT-solveurs (des outils de décision de théorèmes mathématiques utilisés dans certaines applications industrielles) actuels sont en partie dues à ces heuristiques. Il en est de même, à ma connaissance, pour les prouveurs par superposition en logique du premier ordre.

Où ce situe donc l’innovation décrite dans l’article des chercheurs de Google, et dans des articles d’autres chercheurs qui n’ont pas fait l’objet de communiqués de presse, ou du moins pas aussi bien relayés ? Il s’agit d’utiliser de l’apprentissage automatique pour en quelque sorte apprendre à l’heuristique de choix, au vu de démonstrations précédentes, quels sont les bons choix qui tendent à permettre d’arriver à une démonstration (l’apprentissage automatique, c’est ce qui permet, par exemple, d’apprendre à un système informatique que telles photos dépeignent des chiens, telles photos dépeignent des chats, et ensuite d’obtenir qu’il classe automatiquement entre chiens et chats des photos qu’il n’a jamais examinées auparavant). Bref, cela reprend l’idée du « flair » humain guidé par l’expérience.

Voyons maintenant les limites de l’approche utilisée, tant dans cet article que dans d’autres. Le travail mathématique ne se limite pas à produire des petites preuves de théorèmes dont on connaît déjà l’énoncé (cela, c’est ce que l’on demande aux étudiants lors des examens) ; il s’agit plutôt de proposer de bonnes définitions de concepts, des énoncés de théorèmes intéressants à démontrer dessus, et, pour la preuve de théorèmes un tant soit peu complexes, des étapes de démonstration (décomposition du problème en sous-problèmes, décomposition des théorèmes en lemmes). Les approches décrites ne s’attaquent pas à ces questions.

Même pour de simples preuves, les approches décrites sont limitées en ce qu’elles sont incapables de suggérer des objets mathématiques qui ne sont pas déjà fournis dans l’énoncé. Expliquons. Si je demande de démontrer qu’il existe un entier supérieur à deux, on peut me suggérer « trois » ou « quatre ». D’une façon générale, quand on aura besoin de démontrer que quelque chose existe, soit comme but soit comme étape de démonstration, il va falloir le fournir, et en général c’est plus dur que suggérer « trois » comme « entier plus grand que deux ». Dans certaines preuves, la principale difficulté est justement de « tirer de son chapeau » un objet dont on a besoin d’établir l’existence, la preuve qu’il satisfait aux critères imposés étant ensuite relativement simple. Les approches décrites sont incapables de tirer quoi que ce soit de leur chapeau, si ce n’est des objets qui figurent déjà dans le problème étudié. C’est, à mon avis, le grand problème de recherche qu’elles posent (problème relié, par exemple, à la synthèse d’invariants en preuve de programmes).

Je ne veux évidemment pas ici dénigrer les travaux évoqués, qui me semblent très intéressants, mais seulement donner une certaine perspective et les inscrire dans une chronologie déjà bien fournie.

lundi, juin 15 2020

La science sur le devant de la scène médiatique, quelques remarques

Les controverses récentes autour de l’épidémie Covid-19 ont mis sur la place publique la question des publications scientifiques. J’aimerais clarifier quelques points qui ont été soulevés dans des articles de presse au sujet des revues scientifiques (j’entends ici bien entendu les revues où sont présentés les résultats de recherche, et non les magazines de vulgarisation tels que La Recherche ou Science & Vie).

Les rétractions

La rétraction d’un article ne signifie pas qu’il y ait eu fraude. Il peut tout simplement s’agir d’erreurs de bonne foi qui ont été découvertes après publication, parfois même par les auteur·e·s de l’article.

Mes co-auteurs et moi-même avons failli devoir rétracter un article entre le moment où il avait été accepté par le comité éditorial et le moment où il allait être publié. Notre article argumentait que, malgré un coût élevé dans le pire cas, notre algorithme était rapide sur les cas réalistes, et fournissait à l’appui de cela des chronométrages sur des exemples significatifs. Nous avions par ailleurs validé l’implantation de l’algorithme en le comparant avec une analyse plus lente mais qui devait donner exactement le même résultat. Sauf que… les tests de comparaison n’avaient pas été tous passés. Erreur technique, dans un contexte de hâte et de stress avant la soumission d’article, et il y avait un bug qui faisait que parfois les résultats divergeaient, ce qui notamment mettait en doute nos chronométrages favorables.

Nous prévînmes le comité éditorial ; il était clair pour nous que nous devrions retirer l’article si nous ne pouvions pas corriger le bug, ou si les chronométrages devenaient défavorables. Nous (enfin, plus exactement, le doctorant) pûmes heureusement corriger le bug, faire passer tous les tests de comparaison, puis refaire les chronométrages et constater que même avec la version déboguée nous avions les mêmes bonnes performances. Ouf !

La mise au point d’expériences est chose délicate. Il est facile d’oublier un petit facteur, un élément perturbateur, une impureté… La complexité des traitements informatiques ultérieurs peut conduire à des résultats erronés (il semble qu’ainsi on a publié de nombreux articles de biochimie comportant des résultats faux en raison de problèmes de compatibilité d’un script Python utilisé pour analyser certaines données expérimentales). Il est facile, a posteriori, de dire qu’il aurait fallu procéder à telle ou telle vérification !

L’évaluation par les pairs

Certaines fausses idées circulent parfois à propos de l’évaluation par les relecteurs des revues ou conférences scientifiques :

  1. Qu’ils refont les expériences indiquées.

  2. Qu’ils sont chargés de débusquer les fraudes.

Il est évident que les relecteurs ne peuvent refaire les expériences décrites dans les articles (sauf dans quelques cas particuliers, voir plus loin). Monter une expérience ou une étude clinique cela prend du temps, du matériel, des moyens ; les rapporteurs des revues rédigent leurs rapports dans la hâte, en prenant sur leur temps de recherche, lequel est, dans le cas des enseignants-chercheurs, lui-même casé dans les disponibilités laissées par l’enseignement et l’administration de l’enseignement. Souvent des délais très courts sont imposés par les revues.

Les relecteurs ne sont pas spécifiquement chargés de débusquer des fraudes (même si, bien entendu, ils doivent signaler leurs soupçons au comité éditorial, le cas échéant). Ils sont chargés d’évaluer l’originalité et l’intérêt de la publication (on n’accepte pas les articles qui n’apportent rien à l’état des connaissances), le sérieux de la méthodologie, le cas échéant la qualité des démonstrations mathématiques. Ils sont censés pointer les faiblesses des articles (telle conclusion est insuffisamment étayée, telle expérience pourrait être perturbée par tel phénomène, telle étape d’un raisonnement mathématique est douteuse…). Les relecteurs sont en droit de supposer que les auteurs sont de bonne foi.

En informatique, on a depuis une dizaine d’années encouragé les auteurs à fournir, en sus de leur article, le logiciel et les données utilisés pour les conclusions expérimentales. Ceci permet à des évaluateurs de refaire passer les expériences numériques et éventuellement d’essayer leurs propres exemples. À mon avis, l’intérêt de ce système n’est pas tant d’éviter les fraudes caractérisées que de forcer les chercheurs à mettre en ordre leurs expériences avant publication, alors que la tendance naturelle est à bricoler dans la hâte et sans respect de la traçabilité.

Les preprints

On s’est beaucoup alarmé de l’existence de serveurs de preprints, c’est-à-dire d’articles non validés par les pairs. Le plus connu est probablement arXiv, lancé par des physiciens puis étendu aux mathématiques et à l’informatique ; en biologie il y a bioRxiv.

Les articles publiés dans les revues ou les conférences scientifiques ne sont pas destinés au grand public, mais à un lectorat possédant le bagage scientifique pour les comprendre. En mathématiques, le niveau nécessaire simplement pour comprendre l’énoncé de ce qui est démontré peut varier entre le niveau « mathématiques spéciales » et « en cours de doctorat sur cette thématique », voire « spécialiste du sujet » ; le niveau nécessaire pour comprendre les démonstrations peut être supérieur. Autant dire qu’il me semble périlleux de tirer des conclusions de la lecture d’un article sur un serveur de preprints, à moins d’être soi-même spécialiste du sujet.

Ces remarques sont également vraies des articles publiées dans des revues : il est dangereux, quand on n’est pas du domaine, d’en tirer des conclusions. Toutefois, dans le cas des preprints, se rajoute l’absence de validation par les pairs.

Faut-il condamner les preprints ? Je ne le pense pas. Ceux-ci n’ont jamais été destinés au grand public (dans lesquel j’inclus les journalistes). En revanche, il me semble qu’il faudrait inciter la communauté scientifique à la prudence dans les annonces, communiqués de presse, etc. sur des sujets aussi sensibles qu’une angoissante pandémie… et bien entendu inciter la presse à la prudence avant de reprendre les analyses des uns et des autres.

dimanche, mai 31 2020

Informatique : savoirs situés ou non ?

On lit souvent que les savoirs scientifiques sont « situés » ; j’aimerais explorer ici la question de si les savoirs développés dans mes champs de recherche ou dans des champs voisins sont ou non situés.

(Bien entendu, ceci est un billet de blog sans prétention à constituer un travail universitaire de sociologie des sciences, de philosophie des sciences ou d’épistémologie. Ce que l’on rédige sur son temps libre l’espace d’une soirée ne saurait être comparable à ce que l’on met des mois, des années, à concevoir et à rédiger dans le cadre d’une activité scientifique professionnelle.)

Une première réponse est que les savoirs en eux-mêmes développés dans ces champs ne sont pas situés ou dépendants d’une réalité sociale. Ces savoirs consistent en des algorithmes, des architectures, des définitions, des énoncés de propriétés, des démonstrations mathématiques, des mesures expérimentales. Le fait que des théorèmes rigoureusement énoncés se déduisent d’axiomes mathématiques eux aussi rigoureusement énoncés par l’application d’un système de règles de déduction lui aussi bien défini ne dépend pas de réalités sociales.

En revanche, ce qui est vrai d’énoncés ou d’algorithmes abstraits ne l’est pas forcément de leurs applications à des problèmes concrets. Un algorithme de descente de gradient pour le réglage d’un réseau de neurones ne dépend pas de la réalité sociale. Cependant, son application à un jeu de données à des fins de reconnaissance faciale en dépend ce jeu de données pouvant ou non être représentatif de la population sur laquelle on va finalement appliquer le dispositif technologique comprenant le réseau de neurones.

Enfin, c’est une évidence que le choix des sujets d’études est socialement situé. Ce choix dépend de nombreux facteurs, dont l’attribution de budgets et de postes d’universitaires et de chercheurs. Les attributions de postes universitaires dépendent des besoins en enseignement, lesquels dépendent des choix d’orientation des étudiants, qui dépendent eux-mêmes des besoins de l’économie et de l’image que les lycéens et leurs familles se font des études et de leurs débouchés. Les attributions de budgets de recherche dépendent de ce que l’on estime ou non prioritaire : un pays qui veut développer des centrales nucléaires mettra des moyens sur certaines branches de la physique, etc. En plus de ces influences extérieures, tout en étant liées à elles, il y a des modes internes au champ scientifique. Tout cela est évident pour toutes celles et tous ceux qui travaillent dans le champ, et on peinerait à trouver quelqu’un qui défende l’idée naïve que la Science se développe sans interférence sociale.

Les questions de politique scientifique ne sont pas des questions scientifiques. En effet, celle-ci consiste à désigner les sujets d’étude qui méritent des ressources au motif que ces sujets sont ou seront importants. Important pour qui, pour quoi ? Et avec quelles certitudes sur l’avenir ? Qui peut dire ce dont la société aura besoin dans vingt ans ? Et d’ailleurs, comment définir les besoins de la société ?

Ainsi, je pense que les savoirs développés en algorithmique, théorie des langages de programmation et domaines voisins ne sont pas socialement situés. En revanche, le choix d’étudier telle ou telle approche l’est, de même que les choix de modélisation du réel social dans les applications.

dimanche, février 23 2020

Évaluation : comment ? pourquoi ?

Le projet de loi de programmation de la recherche remet à l’ordre du jour la question de l’évaluation des chercheurs et enseignants-chercheurs. Il s’agit là d’un sujet complexe, même si certains aiment en faire des bons mots simplistes.

La laborieuse évaluation individuelle

Qu’est-ce qu’un bon travail de recherche ? J’en donnerais la définition suivante : un travail sérieux et pertinent. Par sérieux j’entends qu’il faut respecter les conditions de scientificité du domaine (en sciences expérimentales, par exemple, bien contrôler les conditions des expériences) ; par pertinent j’entends qu’il faut être original et intéressant (par exemple, en mathématiques, on peut générer une infinité de démonstrations rigoureuses de faits tels que 13×789=10257, mais il n’y aucun intérêt à les publier).

Comment évaluer ce sérieux et cette pertinence ? A priori, il faut être du même domaine de recherche. Il est certes parfois possible d’avoir des doutes quand on lit un travail d’un domaine éloigné (par exemple, si on lit des statistiques sans groupe de contrôle), mais il faut vraiment être du sujet pour pouvoir évaluer l’originalité. Les chercheurs sont donc a priori évalués par des gens qui travaillent sur des sujets plus ou moins proches qu’eux. C’est sans doute cela qui a conduit certains responsables politiques à plaisanter sur les chercheurs qui veulent s’évaluer eux-mêmes…

La bibliométrie et ses dérives

Lire les travaux d’un chercheur pour l’évaluer, cela prend du temps (surtout si on n’est pas très spécialisé sur le domaine et qu’il faut se renseigner). Aussi est-il plus rapide de s’en remettre à la liste de publications des chercheurs à évaluer. En effet, la coutume est qu’un chercheur qui a découvert quelque chose en fasse part aux autres par la publication dans une revue spécialisée (Science et Nature sont les plus connues, pour les sciences naturelles), ou, dans certaines disciplines, par un article en compte-rendu de conférence, ou encore par un livre. Si un chercheur est un « trouveur », comme on dit au Café du Commerce, certainement il doit publier beaucoup ! C’est ainsi qu’on en est parfois venu à une évaluation « au poids ».

Les conséquences de l’évaluation « au poids » sont bien connues : à partir du moment où l’on demande à un corps de métier, quel qu’il soit, de « faire du chiffre », il poursuit l’augmentation du chiffre et non l’amélioration de ce que ce chiffre était censé mesurer. On a donc vu des chercheurs multiplier les articles en découpant une même idée en plusieurs morceaux, la création de revues peu exigeantes sur l’originalité voire sur le sérieux scientifique, etc. Paradoxalement, la qualité globale du processus scientifique y a sans doute perdu à cause de cette évaluation censée la tirer vers le haut : il est difficile de se tenir à jour dans un flot d’articles contenant chacun un petit incrément sur l’état de l’art !

L’évaluation individuelle du chercheur permet certes de gérer les carrières (recrutements, promotions) mais elle ne permet pas aux décideurs de voir globalement les forces et les faiblesses de leurs laboratoires. L’évaluation par le poids bibliométrique, elle, est séduisante pour ces décideurs, car elle permet d’agréger les publications des chercheurs individuels pour faire sortir des indicateurs plus globaux.

Le problème de ces indicateurs est qu’ils additionnent des poires et des oranges : suivant la discipline, la sous-discipline, le domaine d’activité, le type de travaux (théoriques, expérimentaux…) la quantité de travail nécessaire à la publication d’un article est différente ! Par ailleurs, les bases de données utilisées pour établir ces indicateurs ne tiennent compte que de certains types de publications, de façon inadaptée à certaines disciplines. Pour la petite histoire, comme feue l’Agence évaluation de la recherche et de l’enseignement supérieur (AERES) utilisait une liste de publications ne comprenant pas les compte-rendus de conférences, un haut responsable universitaire nous avait recommandé de préférer dorénavant publier dans des revues indexées par les évaluateurs… recommandation oubliée quand cette agence a modifié ses règles de fonctionnement pour les adapter à l’informatique !

Pour pallier les inconvénients évidents de la « mesure au poids », on a proposé d’autres mesures (facteur d’impact, h-index, etc.). Toutes comportent des dérives constatées : par exemple, si on compte, comme mesure de sa qualité, combien de fois un article est cité, on incite les chercheurs à forcer d’autres chercheurs à les citer, même si ce n’est guère pertinent ; sans parler, là encore, du problème d’addition de poires et d’oranges, les publications dans les domaines où il y a de nombreux chercheurs attirant naturellement plus de citations que celles dans des domaines où les chercheurs sont moins nombreux.

C’est de cela dont les chercheurs ont peur, ce que l’on résume hâtivement par « ils ne veulent pas d’évaluation » : une évaluation selon des indicateurs numériques pas si liés que cela à la qualité de la recherche, et qui imposerait telle ou telle pratique non pas parce qu’elle fait sens mais parce qu’elle permet de monter dans les indicateurs.

La valorisation

On me reprochera peut-être à ce point de trop me pencher sur la publication scientifique, et pas assez sur les autres formes de productions des laboratoires de recherche, notamment la valorisation industrielle : fondation d’entreprises, cessions de brevets et licences de logiciels notamment. Quelques explications s’imposent ici, et je prendrai des exemples dans des domaines scientifiques que je connais mieux que d’autres.

On dit parfois que la recherche universitaire en langages de programmation est inutile, avec comme justification que les principaux langages de programmation utilisés dans l’industrie ne sont pas d’origine universitaire, et que les langages universitaires (OCaml, Haskell…) sont au mieux sur des marchés de niche. Ceci n’est pas faux, mais ignore que de nombreuses innovations apportées dans les langages industriels (par exemple, les génériques en Java, ou le typage linéaire en Rust) ont été inventés dans des laboratoires universitaires et prototypés dans des langages universitaires !

Prenons maintenant les start-ups. En matière d’achats de logiciels, certains marchés sont particuliers : une grande entreprise n’achètera pas pour ses propres processus industriels un logiciel dont elle ne soit pas sûre que le fournisseur pourra lui fournir la maintenance sur 10 ans. Cela exclut souvent l’achat de logiciel développés par des start-ups, car il n’est pas sûr que la start-up soit viable. Dans ce cas, la meilleure solution est pour la start-up de se vendre à un grand groupe, dont la réputation de stabilité contentera les clients. C’est tout de même un peu plus compliqué que le schéma que l’on décrit habituellement au public.

Évaluer, mais pour quoi ?

L’AERES, puis son successeur le Haut conseil de l’évaluation de la recherche et de l’enseignement supérieur (HCERES), devaient permettre de présenter aux décideurs publics un panorama des points forts et points faibles. J’ai cru entendre que le but n’était pas vraiment atteint.

Mais pourquoi évaluer ? Les déclarations de divers hauts responsables laissent entendre une « sélection darwinienne », dont on peut supposer qu’elle consisterait à ne pas financer et à pousser dehors les mal évalués et au contraire bien doter les bien évalués. Cela peut paraître du bon sens : pourquoi financer ce qui ne fonctionne pas, n’est-ce pas là un panier percé ? La réalité est toutefois plus complexe.

La recherche est souvent la variable d’ajustement dans l’emploi du temps d’un enseignant-chercheur ; elle passe souvent après l’enseignement et la gestion de celui-ci. Un enseignant-chercheur tout à fait valable peut donc se retrouver en position de faire peu de recherche, d’où une productivité modeste dans les indicateurs. Ne pas le financer, ne pas financer son département, ne peut qu’aggraver la situation.

À l’inverse, on voit parfois de gros financements attribués à des domaines à la mode, à des chercheurs-stars, produire des résultats décevants par rapport aux sommes accordées. Là encore, il y a des explications simples : le chercheur-star, quelle que soit sa brillance, a un temps de travail limité et ne peut pas superviser efficacement par lui-même plus d’une certaine talle de projet ; et les sujets à la mode sont parfois « survendus ».

Conclusion

J’ai abordé différents sujets liés à l’évaluation et ai tenté de démontrer comment ce qui paraît simple (les publications ! les start-ups !) est en réalité plus compliqué, et que certaines idées apparemment de bon sens peuvent avoir des conséquences opposées au but poursuivi.

J’espère avoir convaincu qu’il ne s’agit pas tant de chercheurs qui refusent l’évaluation que de chercheurs qui refusent une évaluation basée sur des indicateurs douteux, évaluation qui conduirait à des attributions de crédits et de postes aggravant plutôt que résolvant les problèmes. Certains n’ont que le mot « évaluation » à la bouche, mais il conviendrait d’en expliciter le pourquoi et le comment…

vendredi, février 7 2020

Quelques réflexions sur les politiques scientifiques françaises

La section 6 du Comité national de la recherche scientifique a invité les chercheurs et chercheuses qui devaient lui envoyer leurs rapports et des projets de recherche à leur joindre, si tel était leur souhait, leurs doléances concernant les politiques actuelles en matière de recherche en France et les projets d'évolution de ces politiques. Je n'avais pas un temps énorme à consacrer à cela, d'où un caractère assez décousu de mes réflexions, mais j'ai rédige le texte suivant :

On annonce une loi de programmation pluriannuelle de la recherche. Il ne faudrait pas que celle-ci, censée apporter du dynamisme dans la science française, alourdisse au contraire la bureaucratie au détriment des intérêts de recherche et d’enseignement. Je vais ici passer en revue quelques dysfonctionnements du système actuel et fausses bonnes idées de réformes, et parfois formuler des suggestions.

Des financements sur projet inefficaces

Bien loin d’être le système « darwinien » bénéficiant aux recherches les plus prometteuses, le maquis d’appels à projets à tous niveaux (établissement, région, agences d’état, Europe…) est au contraire inefficace et n’alloue pas les ressources où il le faudrait. Les raisons en sont multiples.

Le financement des doctorants et post-doctorants sur projets aboutit à ne pas pouvoir recruter, faute d’argent, les personnes intéressantes quand elles sont disponibles, et parfois à recruter des personnes qui n’auraient pas dû l’être, de peur de perdre un budget. Paradoxal, alors qu’on prétend que ce système est censé financer les meilleurs.

Certains appels à projet (RIA…) imposent un lourd formatage, avec usage d’une langue de bois et de figures imposées (impact sociétal, impact sur la compétitivité…), tellement éloignées de la science que des prestataires privés se proposent pour aider les chercheurs à monter des dossiers. Beaucoup d’énergie, de temps de travail, et d’argent se perdent dans une bureaucratie tant publique que privée.

Les taux d’acceptation trop bas de certains appels à projets, notamment de l’ANR, conduisent les chercheurs à déposer trop fréquemment des dossiers, au prix d’un travail de montage important et d’un grand stress — dossiers qu’il faut ensuite évaluer, là encore temps de travail.

Quant aux projets ERC, si leur évaluation est plus scientifique et moins bureaucratique, ils ne sont pas forcément adaptés : ils concentrent des moyens considérables sur un petit nombre de lauréats, qui ensuite peinent à recruter les personnels contractuels ainsi financés (j’en ai fait l’expérience).

On nous parle sans cesse d’une science qui devrait être agile, mal servie par des structures vétustes. Or le système des appels à projets est le contraire de l’agilité. Le délai entre la demande de financement et la conclusion du contrat est élevé et souvent incertain (ce qui empêche de prospecter efficacement en amont pour des embauches de contractuels, les candidats exigeant en général une date ferme). On attend parfois des chercheurs qu’ils présentent un planning précis, découpé en tâches et sous-tâches, avec un diagramme de GANTT, présentant d’avance à quelle date telle ou telle découverte aura été faite, et ce sur 4 ou 5 ans !

Les règles de fonctionnement des appels à projets changent régulièrement, parfois en cours de route. Ceci crée du stress auprès des services administratifs et financiers, dont la hantise est que telle ou telle dépense ne soit pas considérée comme « justifiable » ; ces services ont donc tendance à imposer des restrictions supplémentaires, au cas où. Certains appels ont des règles de fonctionnement biscornues, permettant par exemple de rémunérer des contractuels mais pas des stagiaires de master. Là encore, les chercheurs dépensent une énergie considérable à contourner des problèmes administratifs, même s’ils ont obtenu un financement.

Notons un paradoxe. On nous dit qu’il faudrait que les universités et organismes recherchent plus de financements industriels, mais en fait le système fonctionne à l’envers : les industriels et notamment leur R&D recherchent constamment des subventions publiques !

Un manque de financements doctoraux

Dans notre école doctorale, seuls 15 % des doctorants (environ) bénéficient d’un contrat doctoral sur budget de l’école doctorale (« bourses du Ministère »), les autres étant financés par d’autres biais (une minorité de CIFRE, mais principalement des contrats de recherche). C’est insuffisant : de bons étudiants se voient refuser de tels contrats. L’intérêt scientifique serait probablement mieux servi s’il y avait un budget suffisant pour plus de contrats doctoraux, quitte à prendre le budget sur d’autres modes de financement.

Un intérêt des financements sur contrat, dans certains contextes, a été de permettre à de jeunes chercheurs d’avoir un budget et des doctorants alors que des « mandarins » locaux le leur auraient refusé. Il faudrait donc prendre garde à ce que les procédures d’attribution de ce nombre accru de financements doctoraux non liés à des projets ne souffrent pas du mandarinat.

Une multiplication de structures à la gestion hasardeuse

On a multiplié les structures de recherche hors du cadre du fonctionnement normal des organismes : IDEX (initiative d’excellence), LABEX (laboratoire d’excellence), IRT (institut de recherche technologique)... Chacune de ces structures dispose de budgets et de règles de fonctionnement spécifiques (il semble ainsi que le statut juridique et le mode de fonctionnement change d’un IRT à l’autre). Ceci multiplie les catégories administratives et complexifie la gestion.

Parfois, ces structures (LABEX, IRT) ne sont pas pérennes, mais renouvelés par périodes, ce qui interdit notamment de pouvoir enclencher un projet qui recouvre deux périodes (puisque rien ne garantit que le budget soit maintenu pour la période suivante). Il y a parfois une période de césure entre la fin d’une structure et son renouvellement, qui imposerait de renvoyer les personnels pour les réembaucher quelques mois plus tard. Ceci n’est guère respectueux des personnels ainsi précarisés.

À plus grande échelle, les restructurations incessantes enclenchées depuis dix ans (constitution de communautés d’universités aux contours changeants, fusions d’universités, établissements expérimentaux…) ont créé de l’incertitude et du stress, et nécessité un important travail. Sans prétendre qu’il faille sacraliser des structures, des découpages, qui peuvent dans certains cas être dépassés, on doit cependant rappeler que les restructurations ne devraient avoir pour objectif que l’amélioration de la recherche et de l’enseignement et non un affichage politique.

Une évaluation lourde et bureaucratique

On raconte parfois que les chercheurs ne sont pas évalués et refusent de l’être. Ces remarques, parfois colportées dans les médias, ne collent pas à ma réalité. En 2019, j’ai rempli un compte-rendu d’activité (CRAC) et un dossier de demande de promotion, et rédigé une part importante d’un rapport de laboratoire pour l’HCERES. En janvier 2020, j’ai rédigé un compte-rendu d’activité et un projet quinquennaux personnels. Encore ai-je la chance (du moins pour l’aspect évaluation) de ne pas être dans une équipe projet INRIA, sinon j’aurais à remplir un « Raweb ».

L’évaluation par le HCERES mérite qu’on s’y attarde. Cet organisme, s’il fait expertiser les laboratoires par des comités d’experts du domaine, leur impose une grille rigide de rubriques de rédaction ; il impose aux laboratoires le remplissage de tableaux d’indicateurs souvent mal définis et d’intérêt douteux. La bureaucratie a pris le pas sur l’évaluation scientifique.

L’usage d’indicateurs a ceci de pervers que les personnels évalués finissent par vouloir optimiser l’indicateur au détriment de ce que celui-ci était censé mesurer. Ainsi, on a prétendu mesurer la performance de chercheurs au nombre de leurs publications. La conséquence bien connue est que certains se sont mis à augmenter artificiellement le nombre de leurs publications, par exemple en découpant inutilement des travaux en plusieurs articles et en publiant des articles médiocres dans des revues peu sélectives (des revues se sont d’ailleurs créées pour cela). Même les bons chercheurs se sentent obligés de suivre. Ce phénomène est d’ailleurs accentué si l’on attribue des primes basées sur cet indicateur, comme cela se fait dans certains pays, ou si l’on attribue des budgets au prorata des publications, comme cela se fait hélas dans certains laboratoires français. Le CNRS a signé la déclaration de San Francisco (DORA), mais les premières questions des dossiers de promotion portent le nombre de publications au cours des n dernières années.

La préparation de l’évaluation HCERES (simultanément des laboratoires, des formations, des écoles doctorales, de l’établissement entier) est une tâche lourde — et on dit que l’on voit une baisse des indicateurs de publication l’année de cette préparation. Une telle lourdeur est-elle vraiment nécessaire ?

Des effets de mode et des coups de bélier

Dans l’intérêt de la science et de la société, il est nécessaire de formuler et suivre une politique scientifique qui ne se limite pas à la reconduction des thématiques existantes. Il faut toutefois se défier d’un pilotage de la recherche à la traîne des thématiques à la mode, et dans certains cas vite démodées.

Parfois, le pilotage se fait brutal. On a ainsi annoncé que l’intelligence artificielle était une priorité nationale. Soit. Puis, après des tergiversations, on a annoncé des instituts d’intelligence artificielle (3IA). Celui de Grenoble dispose d’un financement pour 40 nouveaux doctorants par an — à comparer avec les 15 financements distribués par le procédé normal. Où les trouver ? Les étudiants français visent souvent une carrière industrielle directement en sortie d’école d’ingénieur ; attirer des bons étudiants étrangers est difficile, et nécessite la construction de réseaux, de filières, qui ne monteront pas en charge du jour au lendemain.

Ce pilotage binaire, avec ouverture et fermeture brutales de la vanne des crédits sur tel ou tel sujet, ne conduit là encore probablement pas à un bon usage des deniers publics. De même que l’on recommande de ne pas manier brutalement les vannes hydrauliques afin d’éviter des « coups de bélier », il conviendrait de ne pas agir ainsi avec la recherche.

Des prescriptions bureaucratiques : l’exemple des ZRR

La méthode bureaucratique souvent employée pour gérer la recherche publique peut être illustrée par la mise en place des « zones à régime restrictif » (ZRR). Rappelons ce dont il s’agit.

On veut protéger les intérêts français tant industriels que stratégiques du pillage et de l’espionnage : vrai problème, objectif louable. Malheureusement, l’approche employée (le passage de certains laboratoires en ZRR), de l’avis de nombreux chercheurs et notamment de directeurs de laboratoires, est inadaptée. Je ne reviendrai pas sur les arguments (ils ont notamment été exposés par J.-M. Jézéquel, de l’IRISA), mais plutôt sur la méthode.

On désigne apparemment comme « sensibles » des laboratoires ou des équipes sur la base de mots-clefs sans s’interroger sur ce que ceux-ci recouvrent et sur la réalité des dangers dans ces laboratoires ou ces équipes.

On veut appliquer des procédures (e.g. restrictions d’accès de visiteurs) adaptées à des laboratoires où on laisse des échantillons de produits ou de matériels sensibles dans des salles d’expérimentation à des laboratoires où l’on n’a rien de cela.

On ne tient compte ni des remarques des laboratoires concernant le caractère inadapté de certaines mesures de sécurité proposées, ni de leurs demandes d’améliorations de la sécurité plus adaptées à leur contexte (moyens de sécurité informatique, notamment).

On est donc dans un système parfaitement bureaucratique : pilotage d’en haut sans prise en compte des réalités du terrain, négation de la compétence des acteurs de terrain à analyser leur situation.

Les standards internationaux

On justifie souvent les réformes dans la recherche française par l’idée qu’il faudrait mettre celle-ci au niveau des « standards internationaux ». On pourrait s’interroger sur cette notion, qui recouvre des réalités aussi différentes que celle des universités allemandes, étatsuniennes et chinoises, mais ce serait un trop long exercice pour ce texte. Je me bornerai donc à quelques constats.

Lorsque l’on compare les universités françaises aux universités américaines, on pense à Stanford, Harvard, au MIT, où circulent massivement l’argent des agences fédérales (NSF, DARPA, ONR, DOE...) ; on ne pense pas aux community colleges. Or les universités françaises (même celles qui se présentent comme des « universités de recherche ») doivent à la fois remplir le rôle d’un community college et en même temps se mesurer aux universités internationalement les plus réputées. Leurs enseignants-chercheurs sont sommés de prendre en charge des effectifs importants, d’où des heures complémentaires d’enseignement au détriment de la recherche ; mais on va ensuite leur reprocher de ne pas assez publier dans des revues ou des conférences au plus haut niveau !

L’université française, et ses personnels, est soumise à des injonctions contradictoires : il faut atteindre la visibilité et le dynamisme de recherche des plus célèbres universités internationales tout en n’en ayant pas les moyens budgétaires. Cela n’est pas tenable.

Le statut des personnels

Les chercheurs français sont comparativement moins bien payés que ceux d’autres pays. La France a en revanche divers atouts compétitifs, dont le statut de chercheur sans enseignement imposé dans les EPST dont le CNRS, et le statut de fonctionnaire accordé relativement tôt dans la carrière. On ne comprend donc pas très bien comment la qualité de la recherche française serait servie par la multiplication de statuts plus ou moins instables, sauf peut être en cas de salaires considérablement plus élevés que les actuels, ce qui ne semble guère compatible avec les contraintes budgétaires.

Perspectives

L’accumulation de réformes et de réorganisations (j’aurais pu aussi évoquer celles du baccalauréat, du DUT, des licences...) épuise les personnels, toujours sommés de s’adapter à une nouveauté incertaine, les réformes devant parfois être mises en place avant d’avoir été votées par le Parlement. Et on nous annonce encore d’autres réformes d’ampleur ! Peut-être serait-il pertinent de déjà faire fonctionner l’existant, en tentant de simplifier les structures, débureaucratiser les procédures, et mettre des moyens suffisants pour assurer les besoins d’enseignement.

vendredi, avril 26 2019

Sur l'obligation de dépôt de notices bibliographiques dans HAL

Une annonce de la direction du CNRS, il y a quelques jours, au sujet de la prise en compte des publications des chercheurs CNRS dans leur rapport annuel uniquement si elles ont été déposées dans HAL. Certaines incompréhensions ont suivi, et j’aimerais clarifier ici quelques points soulevés.

Les chargés et directeurs de recherche au CNRS (mais pas les ingénieurs de recherche, chercheurs contractuels, enseignants-chercheurs membres d’unités du CNRS, ou autres personnels) doivent rendre trois sortes de rapports d’activité :

  • Tous les deux ans et demi (auparavant tous les deux ans), un rapport détaillé avec discussion de la recherche effectuée, bibliographie, etc. Tous les cinq ans (auparavant tous les quatre ans) ce rapport doit être accompagné d’un projet de recherche. Ce rapport donne lieu à évaluation par la section compétente du Comité national de la recherche scientifique (CoNRS).

  • Pour les demandes de promotions ou de prime d’encadrement doctoral et de recherche (PEDR).

  • Tous les ans, le compte-rendu activité chercheur (CRAC), ou, dans les disciplines de sciences humaines et sociales, le RIBAC.

Le CRAC est de nos jours un formulaire dans une application Web, avec diverses rubriques (publications, colloques auxquels on a assisté, dépôt de brevets…). Je trouve d’ailleurs son ergonomie assez déplorable (rubriques et catégories au sens peu clair, beaucoup de mouvements de souris pour saisir chaque information…), mais je suis philosophe à ce sujet depuis que je connais l’interface de gestion des projets européens.

J’ignore à quoi sert précisément le CRAC. Peut-être en tire-t-on des statistiques. Je sais que le CoNRS a le CRAC a disposition lors de la lecture des rapports détaillés, peut-être ses membres y cherchent-ils des informations complémentaires dans les dossiers délicats ?

Actuellement, les rubriques du CRAC concernant les publications scientifiques peuvent être remplies à partir de HAL (je reviendrai plus bas sur ce qu’est HAL), mais on peut en tout cas compléter et rectifier à la main. C’est cette possibilité que le CNRS compte supprimer, afin d’encourager le dépôt de notices bibliographiques dans HAL.

HAL est un service commun au CNRS et à d’autres organismes proposant plusieurs services entremêlés :

  • C’est une base de notices bibliographiques (auteurs, nature de la publication, éditeur, etc.) avec ajout de données administratives et bureaucratiques (affiliations des auteurs, nature du financement des travaux…).

  • C’est aussi une archive ouverte (mise à disposition gratuite d’articles scientifiques au public) dans laquelle on peut aussi bien déposer des rapports de recherche, voire des brouillons, que des articles ou autres documents publiés chez un éditeur. Dans ce dernier cas, on est généralement contraint de ne fournir que la version auteur, c’est-à-dire avant traitement par l’éditeur.

L’obligation de dépôt des notices ne s’étend pas à celle du texte des articles eux-mêmes, même si ce dépôt est encouragé. À noter que depuis la loi sur la République numérique de 2016 (mes lecteurs se souviendront peut-être des articles et tribunes que j’ai publié à ce sujet), toute clause des contrats d’édition faisant obstacle à la mise en ligne des articles par les auteurs après 6 mois après leur publication (1 an pour les lettres, sciences humaines et sociales) est réputée nulle.

Peut-être faut-il relier cette obligation de dépôt de notices bibliographiques avec celle d’un accord entre un consortium d’organismes français de l’enseignement supérieur et de la recherche et des éditeurs, prévoyant la mise en place de liens depuis HAL vers les sites des éditeurs et à terme (au bout de deux fois le délai légal cité plus haut) le chargement automatique sur HAL d’une version ouverte de l’article.

(Message aux collègues concernés : j’aimerais que l’on m’explique en quoi consiste le RIBAC et sa différence avec le CRAC.)

jeudi, novembre 1 2018

Sur le plagiat scientifique

Dans mon billet précédent j’ai évoqué le plagiat de généralités introductives, qui présentent un domaine, une technologie, une application, mais je n’ai pas évoqué le plagiat du contenu scientifique proprement dit.

Les articles sur le plagiat, notamment en lettres, sciences humaines et sociales, évoquent le « copier-coller » : des mémoires, des thèses, des articles, des livres, qui reprennent verbatim du texte publié ailleurs, sans qu’il ne s’agisse de citations dûment attribuées aux auteurs du texte original. Cela m’étonnait, car le copier-coller est facilement détectable par de simples recherches informatiques, il existe même des logiciels spéciaux pour cela (tels que Compilatio).

Toutefois, ces logiciels, en général, ne détectent que les plagiats de documents disponibles en ligne (ou fournis dans une base de documents privée, par exemple les mémoires publiés les années précédentes dans la même université) ; ils ne détectent pas les plagiats de documents publiés uniquement sous forme papier, ou uniquement disponible derrière des paywalls. Par ailleurs, même si ces logiciels existent, encore faut-il qu’ils soient utilisés. Si leur usage est maintenant obligatoire à la soumission d’une thèse dans certaines universités (dont la COMUE Université Grenoble Alpes), ce n’est pas le cas partout… et par ailleurs je ne les ai jamais utilisés lorsque j’évaluais des articles pour des revues ou des conférences, peut-être à tort.

Le copier-coller, facilement détectable par des moyens automatisés, est risqué. Aussi le plagiaire un peu moins naïf prendra soin de paraphraser le texte avec plus ou moins de servilité. J’ignore d’ailleurs à quel point d’éloignement du texte d’origine on ne peut plus parler de plagiat au sens usuel du terme, et où la justice jugerait qu’il ne s’agit plus d’une contrefaçon.

Dans le cas des publications scientifiques, il y a une autre forme de plagiat : le plagiat d’idées. Il s’agit de reprendre sciemment des idées d’autres personnes et de les faire passer pour siennes, sans pour autant reprendre des textes. Il ne s’agit alors plus d’une contrefaçon au sens du droit d’auteur, puisque les idées sont de libre parcours.

Relevons tout d’abord qu’il arrive souvent que les mêmes idées soient publiées par des auteurs différents en toute bonne foi. Le volume des publications scientifiques est considérable, on ne peut pas avoir tout lu sur un sujet. De plus la communauté scientifique est morcelée en disciplines, sous-disciplines et thématiques, de sorte que ce qui porte un nom et est expliqué dans un certain formalisme dans une thématique de recherche peut porter un autre nom et être expliqué autrement dans une autre thématique. J’ai assisté à des colloques dont le but était justement d’obtenir que des chercheurs de deux thématiques puissent se parler et se comprendre, et parfois on découvrait qu’un procédé utilisé dans un domaine était au fond le même que celui décrit sous un autre nom dans un autre domaine !

À d’autres époques, les barrières de langues ont également joué : un chercheur soviétique publiant en russe n’était pas forcément au courant de ce que des Canadiens publiaient en anglais, et vice-versa. (Il y avait d’ailleurs quand j’étais étudiant des rumeurs selon lesquelles des chercheurs occidentaux comprenant le Russe faisaient carrière en republiant des idées théoriques trouvées dans des comptes-rendus de l’époque soviétique ; je n’ai aucune idée de si cela est arrivé.)

Dans ces conditions, il est très possible pour des auteurs peu scrupuleux de prendre des idées déjà publiées et de les reprendre sous un autre nom et dans un autre formalisme. Pour prendre un exemple concret, un de mes travaux récents peut aussi bien être expliqué dans un formalisme de transformation de formules logiques que dans un formalisme d’interprétation abstraite, qui au fond veulent dire la même chose mais qui seront superficiellement différents ; à mon avis, deux auteurs différents auraient pu publier cette même idée sous ces deux formes et on ne s’en serait pas rendu compte, ou du moins seulement après réflexion. Qui plus est, il est toujours possible de plaider l’ignorance des travaux précédents, surtout avec les différences de vocabulaire et de formalisme !

La pire forme de plagiat d’idées dont j’ai eu vent m’a été rapporté par un chercheur, qui avait assisté à la scène suivante chez un « ponte » du domaine. Le mandarin, dans un comité éditorial, donnait à évaluer un article à un de ses doctorants en lui donnant comme consigne de le rejeter, mais de reprendre les idées pour les implanter et les publier. Des collègues, dans d’autres disciplines, ont évoqué le cas d’idées dans des demandes de financements, dont l’évaluation est en théorie confidentielle : les demandes ont été rejetées, mais les idées exploitées par d’autres.

Il est d’ailleurs parfois bon d’être prudent quand on discute d’idées non publiées avec des collègues. J’ai tendance à être plutôt ouvert et à dire sur quoi je travaille, mais cela n’est pas forcément une bonne idée. Des collègues qui avaient un peu trop bavardé en conférence ont eu la surprise de voir leurs idées publiées par leur interlocuteur ! Mon avis serait de se méfier de collègues qui posent beaucoup de questions sur les travaux en cours, mais sont évasifs concernant ce qu’ils font à ce sujet.

De la malhonnêteté scientifique en informatique

On a beaucoup parlé ces derniers temps de fraude scientifique. Toutes les « affaires » concernaient, me semble-t-il, la biologie ; j’aimerais ici esquisser ce qui pourrait relever de la fraude dans ma discipline, l’informatique, et des disciplines connexes.

En premier lieu, un avertissement. Lorsque l’on parle d’erreurs dans des publications scientifiques, on glisse parfois un peu rapidement de l’idée d’erreur à l’idée de fraude. Or, il est tout à fait possible de commettre des erreurs en toute bonne foi. L’idée d’erreur elle-même mérite d’être nuancée : l’erreur scientifique, du moins dans mon domaine, consiste souvent non pas en quelque chose de vraiment faux, mais plutôt en quelque chose qui n’a pas la portée que la publication laisse supposer ; je vais expliciter cela.

Mon sentiment général est d’ailleurs qu’il existe toute une gradation entre la publication la plus honnête et rigoureuse et la publication franchement frauduleuse, passant par diverses négligences, choix avantageux de cas d’études, exagérations, désir de ne pas trop explorer ce qui pourrait conduire à d’autres résultats… Tout ceci est d’ailleurs encouragé par le système de publication scientifique, de recrutement, de promotion et de financement des chercheurs ! Si j’écris un article où j’explique que ma méthode n’est qu’une amélioration de travaux précédents, produisant un gain modeste de performances et que je le soumets à une revue ou conférence de premier plan, il sera probablement rejeté ; si au contraire je présente mon approche comme très novatrice avec un gain important de performances, il sera accepté ; or de l’un à l’autre il n’y a qu’une question de présentation et de choix d’exemples... L’accumulation de publications « cotées » me permettra d’avoir un bon dossier pour demander une promotion, un financement, etc. (même si d’autres facteurs sont considérés).

Revenons à la question des publications en informatique. Il est périlleux de parler en généralités sur une discipline qui recouvre en réalité des sous-disciplines si diverses ; toutefois je ne pense pas me tromper en disant qu’un article ou une thèse d’informatique comprend en général :

  1. Une introduction (longue dans le cas d’une thèse, parfois très brève dans un article) présentant le domaine, les questions que l’on entend soulever ou résoudre, l’intérêt technologique, social ou économique de ces questions et des solutions apportées, les travaux scientifiques connexes, et un résumé des principales contributions.

  2. Des contributions théoriques : descriptions d’algorithmes, preuves de correction ou de complexité de ces algorithmes, définitions mathématiques, théorèmes mathématiques et preuves de ces théorèmes, etc.

  3. Une évaluation pratique, typiquement des chronométrages de temps de calcul sur une batterie d’exemples.

Voyons ce qu’il en serait des fraudes pour chacun de ces aspects.

Introductions d’articles

Dans les présentations de domaines scientifiques dans les rapports et thèses on trouve parfois des plagiats. En effet, ces présentations portent sur des généralités et non sur les travaux spécifiques de l’auteur, et il est tentant de reprendre des textes, schémas etc. trouvés dans d’autres documents. Il est toutefois périlleux de copier-coller depuis des documents trouvés sur le Web, car il est alors facile de retrouver les passages qui semblent « rapportés » ; cette recherche est d’ailleurs automatisée par des logiciels tels que Compilatio, installés dans les universités. Il est bien entendu plus délicat de retrouver la paraphrase ou l’inspiration non créditée. Il ne faut également pas crier au plagiat ou à l’« auto-plagiat » (reprise par un même auteur de textes identiques dans plusieurs publications, afin de multiplier celles-ci sans apport scientifique) si les textes similaires ne concernent que des définitions standard… il n’y a pas trente-six façons de dire, par exemple, qu’un treillis est un ensemble ordonné dont toute paire d’éléments admet une borne supérieure et une borne inférieure !

La présentation des questions résolues est parfois trompeuse (sciemment ou non). En effet, on peut très facilement faire apparaître un résultat comme ayant une portée plus importante qu’il n’en a réellement, par exemple en ne précisant pas certaines restrictions ou définitions ; par exemple, on peut dire que le résultat obtenu est « optimal », mais en ne précisant pas la notion d’optimalité ou complétude utilisée ou les hypothèses sous-jacentes, qui seront plus loin dans l’article. Le lecteur qui se limiterait à l’introduction pourrait en concevoir une idée plus haute des résultats que la réalité.

Les possibles applications technologiques, notamment dans les thèmes à la mode du moment, sont parfois exagérées. J’ai une fois été dans un comité de programme d’une conférence où nous avons accepté un article par ailleurs scientifiquement solide, mais à condition que les auteurs ôtent de leur introduction des perspectives d’applications trop distantes et incertaines.

L’exposé des travaux voisins est un art difficile. Si l’on oublie un travail pertinent, on risque de se faire des ennemis des auteurs vexés et de leurs amis ; cela peut être rédhibitoire. Toutefois, si l’on mentionne des travaux équivalents, la contribution pourra être considérée comme trop mineure. Il s’agira donc de rendre hommage à des travaux tout en expliquant que ce que l’on fait est mieux ou différent, mais si l’on dit trop que c’est mieux on risque de vexer, donc le mieux est d’expliquer que c’est différent. Tout ceci peut être un peu trompeur.

Résultats théoriques

Il paraît a priori difficile de tricher dans des preuves mathématiques : ce n’est pas comme une expérience que l’on peut inventer. Toutefois, il est possible de se tromper...

Un raisonnement mathématique est très rarement parfaitement rigoureux au sens que l’on expliciterait chaque recours à une définition ou à une règle de déduction. En effet, des preuves mathématiques rédigées à ce niveau de détail seraient interminables et incompréhensibles pour un lecteur humain (c’est d’ailleurs pourquoi, si on veut en arriver là, on a recours à un « assistant de preuve », un outil informatique qui vérifie la preuve à son plus haut niveau de détail). Une preuve mathématique usuelle passera au contraire rapidement sur des étapes de raisonnement que tout lecteur du domaine pourrait reconstituer et détailler si besoin.

Parfois, cela se voit à certaines tournures : quand l’on fait une hypothèse « sans perte de généralité », on veut que ramener le cas général au cas particulier étudié se fait par une transformation et une justification suffisamment simples pour que le lecteur ne voie pas de problème à ce qu’on les omette. Dans certains cas, on dira qu’une preuve est la même qu’une autre mutatis mutandis, c’est-à-dire « en changeant ce qui doit être changé »…

Parfois, malheureusement, on commet une erreur. On pense qu’une étape est évidente alors qu’il y a un problème, on prend des quantifications logiques dans le mauvais sens, on se mélange dans les indices, on applique un théorème en oubliant une de ses hypothèses… Georges Gonthier cite même le cas d’un théorème dont la preuve est fausse car s’appuyant sur une erreur d’imprimerie !

Si l’on peut se tromper ainsi de toute bonne foi, on peut certainement le faire volontairement. Il doit également exister des cas intermédiaires, du style « ce résultat semble se déduire de tel résultat dans tel article, et nous n’allons pas chercher la petite bête en vérifiant toutes les conditions au risque de tomber sur un os technique qui prendra du temps à résoudre » — autrement dit on ne commet pas sciemment une erreur, mais on est sciemment négligent au risque d’une erreur.

Pour prendre un exemple concret, il m’est arrivé d’évaluer un article où, dans une démonstration, les auteurs invoquaient un théorème « trop beau pour être vrai ». Je suis allé voir en bibliothèque le livre d’où ils tiraient ce résultat, j’ai vu qu’ils avaient omis en le citant une hypothèse, non vérifiée dans leur cas. Erreur volontaire ou involontaire ?

Par ailleurs, même si un résultat théorique est prouvé rigoureusement, il reste la question de son interprétation informelle, qu’il est possible d’exagérer ! En effet, un résultat théorique porte sur un modèle d’une partie de la réalité, modèle qui peut être imprécis voire passer à côté de l’essentiel, partie de la réalité qui peut être trop restreinte…

Résultats pratiques

Il s’agit ici en général de programmer les algorithmes proposés, puis de les essayer sur des jeux d’exemples afin d’évaluer leur efficacité et leur précision en pratique.

On peut être surpris du recours à une évaluation pratique dans le cas de l’algorithmique, puisque l’on fournit déjà des preuves mathématiques. Il y a plusieurs raisons pour ceci. Tout d’abord, deux algorithmes apparemment équivalents du point de vue de certaines analyses de complexité peuvent avoir des coûts très différents en pratique. Par ailleurs, dans certains domaines on sait que la complexité pire cas de tous les algorithmes est prohibitive, voire qu’il n’existe pas de procédé algorithmique qui fonctionne dans tous les cas : aussi on voudra distinguer différentes propositions suivant ce qui se passe sur des cas réalistes, quelle proportion de cas seront résolus en combien de temps.

Une première difficulté est donc de choisir des cas d’essais réalistes, au sens de représentatifs de ce que les utilisateurs du procédé algorithmique proposé voudraient pouvoir résoudre. Parfois on prend des exemples « synthétiques » plus ou moins aléatoires, mais rien ne dit que ceux-ci soient représentatifs des situations réelles ! Il est tentant de proposer comme exemples « représentatifs » ceux sur lequel l’algorithme proposé dans l’article est particulièrement efficace…

La constitution de bibliothèques d’exemples (SPECint, SMT-LIB etc.) pallie en partie ce problème mais en crée d’autres. En effet, les chercheurs visent alors à résoudre les exemples dans la bibliothèque et non ceux des situations réelles… On a même vu des concepteurs tenter de détecter certains des exemples standard et dans ce cas appliquer des procédures spéciales, un peu comme les véhicules Volkswagen qui détectaient qu’ils étaient sur le banc d’essai antipollution et appliquaient un programme spécial de carburation.

Se pose ensuite le problème de la comparaison aux autres méthodes. Ceci suppose soit de se procurer d’autres outils implantant les méthodes auxquelles on se compare (outils souvent indisponibles, non maintenus, sans documentation…), ou d’implanter soi-même les méthodes en question. Il est alors possible d’implanter ces méthodes de façon stupide, inefficace, tandis que la nouvelle à laquelle on les compare sera implantée intelligemment…

Ainsi, même en rapportant sincèrement des résultats d’expériences réellement conduites, il est possible d’induire le lecteur en erreur, du fait de la non représentativité de ces expériences. Il y a, à mon avis, toute une continuité entre les petites omissions et le choix d’exemples plutôt favorables à la nouvelle méthode et l’invention complète de résultats, comme on peut malheureusement le soupçonner dans le cas de certains articles.

De nos jours, certaines conférences d’informatique suggèrent fortement, voire dans certains cas imposent, la soumission d’artefacts, c’est-à-dire d’un composant logiciel intégrant les outils et les exemples permettant à une équipe d’évaluateurs de reproduire les résultats de l’article, voire d’essayer la méthode sur d’autres exemples. Bien entendu, ce n’est pas une solution totale, mais cela met un peu de rigueur dans le processus.

En conclusion

Il y a toute une gradation entre l’honnêteté complète et les résultats fabriqués. Certaines décisions sont parfaitement humaines et explicables : par exemple, si une méthode a une faiblesse, on va éviter de trop la souligner afin de ne pas donner des verges pour se faire battre… D’une façon générale, cela fait partie de l’exercice que de manifester un certain enthousiasme pour le nouvel algorithme proposé. De là l’on glisse à ne plus mentionner les faiblesses, à exagérer les points positifs, à sélectionner les exemples, à omettre de préciser certaines conditions de mesure… La pente est facile !

dimanche, octobre 7 2018

Sokal squared : une totale confusion

Les réseaux sociaux scientifiques bruissent d’un scandale : des chercheurs ont intentionnellement écrit des articles scientifiques ridicules, et qui auraient dû être rejetés par un comité éditorial un tant soit peu scrupuleux, et ont pu les faire publier dans des revues traitant notamment de questions de genre. Leur but était de démontrer que les revues de ces domaines scientifiques publient n’importe quoi à condition que ce n’importe quoi s’inscrive dans les bonnes thématiques, utilise le bon vocabulaire, les bonnes citations, et produise des conclusions conformes aux préjugés idéologiques du champ considéré, reprenant ici les objectifs et la méthode du fameux canular de Sokal.

Les réactions à cette annonce ont été sans surprise. Ceux qui estimaient que certains champs universitaires relèvent de l’opinion et non de la science, et masquent leur manque de justification scientifique sous un vocabulaire pompeux, ont été confortés dans leur opinion : voilà la preuve que leurs intuitions étaient bonnes ! D’autres, dans les champs de recherche visés ou dans des champs voisins, ont dénoncé une manœuvre politique de droite menée par des chercheurs eux-mêmes médiocres, ne démontrant rien, les revues visées n’étant pas centrales dans le champ du savoir visé. On retrouve là encore largement la polémique suivant le canular de Sokal.

Je ne désire pas ajouter du bruit à cette polémique, donc ne pas parler de ce cas d’espèce, mais seulement éclairer la question des publications de mauvaise qualité voire totalement bidon, et leurs conséquences sur le champ scientifique.

J’ai déjà évoqué ici le cas des revues et conférences totalement bidon. Celles-ci ne sélectionnent pas du tout les articles qu’elles acceptent — on a vu des articles générés aléatoirement être acceptés — et visent un but lucratif (frais d’inscription, frais de publication). Elles ne posent finalement guère de problèmes : certes, des fonds ont été dépensés pour aller en conférence à Orlando ou Las Vegas, mais cela ne représente pas une part importante des budgets de recherche ; par ailleurs, la mention de telles publications, dans un dossier de demande de financement ou de promotion ou dans un bilan de laboratoire, vaudra en général des conséquences négatives. Il y a donc des incitations fortes à ne pas publier dans de tels lieux, du moins dans les institutions de recherche dotées de procédures d’évaluation un tant soit peu sérieuses.

Toutefois, dans le cas de l’affaire Sokal ou de la récente affaire sur les études de genre, il ne s’agissait apparemment pas de ces revues totalement bidon et à but lucratif, que personne ne prend au sérieux, mais de revues scientifiques reconnues comme telles, dont certaines étaient éditées par des universités prestigieuses ou recevaient des articles de chercheurs de ces universités. Il me semble qu’il ne s’agit pas de la même question. Voyons donc les problèmes qui se posent si des revues considérées comme sérieuses, même si « peu centrales », publient des articles qui n’auraient pas dû être publiées.

Le premier problème, à mon avis le plus important, serait que des gens se basent sur des conclusions insuffisamment étayées pour guider des activités dont le dysfonctionnement aurait des conséquences sensibles : par exemple, une étude médicale ou pharmaceutique erronées pour prescrire un traitement, un algorithme incorrect utilisé dans un produit ou service, ou encore promouvoir une réforme économique ou sociale… Normalement, on ne base pas un projet avec des conséquences humaines ou financières importantes sur un article scientifique sans l’étudier en profondeur (examiner chaque justification et non seulement les conclusions) et/ou valider soi-même l’utilisation envisagée ; plus généralement on s’en remet plutôt à des articles de revue, résumant les travaux de plusieurs chercheurs, ou des monographies résumant l’état de l’art.

A priori, l’impact d’un article erroné isolé est donc très limité. Toutefois, il arrive parfois que des conclusions erronées soient reprises dans d’autres articles, et finissent, à force d’être reprises partout, par être considérées comme fiables, alors que tout remonte en fait à une unique source originale incorrecte. Richard Feynman cite ainsi (The Seven Percent Solution, dans Surely you’re joking Mr Feynman) le cas d’une extrapolation erronée dans une étude expérimentale sur la désintégration β, reprise par toute une communauté scientifique qui se demandait comment faire coïncider des modèles et des résultats expérimentaux qui différaient… jusqu’à ce que Feynman eût des doutes, reprît les citations et les calculs depuis l’origine et s’aperçût de l’erreur. Il n’est donc pas à exclure que des idées erronées, reprises par une communauté qui se cite elle-même, aient été mises en place dans des politiques publiques ou dans des protocoles médicaux.

Outre ce problème pour la société en général, il y a un second problème, interne au monde scientifique. Les postes de chercheurs et les financements sont en quantité limitée, de sorte que ceux qui sont attribués à un sujet ne le sont pas à un autre. Un domaine de recherche médiocre et qui s’auto-entretient par des citations, invitations d’articles, et renvois d’ascenseurs divers peut nuire à la science en général de part les ressources qu’il accapare. Ces inconvénients internes au monde scientifique peuvent d’ailleurs produire des effets qui lui sont extérieurs : obligation pour des étudiants de suivre des cours sur la théorie évoquée, voire d’être notés en fonction de leur adhésion à celle-ci ; mise en place de politiques publiques ou de procédures médicales suivant les prescriptions du champ (le Lyssenkysme est un cas exacerbé de ce phénomène, étant soutenu par un pouvoir totalitaire). Tout ceci relève donc de problèmes systémiques, mettant en jeu un champ scientifique et non telle ou telle revue dysfonctionnelle.

Il me semble que certaines analyses qui ont été faites suite à des publications scandaleuses mélangent des phénomènes sans grand rapport les uns avec les autres. Par exemple, si l’accusation est l’existence d’un système de promotion de recherches sans valeur scientifique à l’intérieur de certaines disciplines dans le monde universitaire occidental, il n’est pas pertinent de pointer la publication d’articles générés aléatoirement dans des revues totalement bidon et reconnues comme telles d’un champ de « sciences exactes ».

samedi, mars 17 2018

Ma gestion des conflits d'intérêts

Dans la recherche scientifique, nous avons souvent à nous préoccuper de conflits d’intérêts. On pense évidemment à ceux des chercheurs qui travaillent sur un sujet tel que les produits pharmaceutiques, les pesticides, etc., où il y aurait intérêt à biaiser les résultats des études en faveur de tel ou tel industriel qui financerait les recherches, ou emploierait par ailleurs le chercheur comme consultant (on en trouve facilement des exemples dans l’actualité). Dans mon domaine de recherche, ces problèmes ne se posent guère. En revanche, se pose souvent le problème des conflits d’intérêts lorsqu’il s’agit d’évaluer leurs collègues ou leurs travaux.

Les travaux scientifiques sont évalués avant leur publication en revues, comptes-rendus de conférence, ou ouvrages, du moins chez les éditeurs scientifiques sérieux : le travail répond-il aux standards de qualité de sa discipline ? Quant aux scientifiques (au sens large, j’inclus les universitaires de toute discipline), ils sont évalués, à divers points de leur carrière. Les évaluateurs sont, habituellement, des scientifiques plus ou moins du même domaine (pour évaluer une publication très technique, on prendra des spécialistes, alors que pour évaluer une carrière on pourra prendre des évaluateurs plus loin thématiquement). Fatalement, ces évaluateurs connaissent parfois les auteurs des articles, les candidats aux promotions. Certains critiquent d’ailleurs un fonctionnement « par cooptation » ; mais il est difficile de faire autrement : pour évaluer quelqu’un pour un poste en France, avec un dossier en français et dans le contexte particulier de l’enseignement supérieur et la recherche français, en général il faut un français du même domaine, qui n’est pas si vaste.

Il se pose donc des conflits d’intérêts. Voici donc comment je gère ceux-ci quand c’est moi l’évaluateur.

Le malaise

Il m’est arrivé que l’on me demande de rédiger un rapport sur le dossier d’une personne que j’apprécie beaucoup. Je ne rentrais dans aucune des conditions que l’organisme commanditaire de l’évaluation considérait comme constituant un conflit d’intérêts, et pourtant je me sentais mal à l’aise. Je fis ce travail mais in fine j’aurais préféré que cela fût quelqu’un d’autre.

Premier critère pour moi : je peux refuser une évaluation, même si je ne rentre dans aucun cas officiel de conflit d’intérêts, si celle-ci me met mal à l’aise d’une façon ou d’une autre.

(Par ailleurs, je me suis retrouvé à devoir donner mon avis sur la candidature de quelqu’un dont j’appréciais humainement la compagnie, mais dont la compétence ne me paraissait pas suffisante pour le poste. Cette personne, l’ayant appris, m’en a par la suite durablement voulu. Ce genre de problèmes est également à prendre en compte.)

L’apparence du favoritisme

Imaginons que j’évalue un dossier sans éprouver d’inconfort en le faisant, que je ne rentre dans aucun des cas de conflit d’intérêts identifiés par le commanditaire de l’évaluation. Je risque cependant, dans certains cas, que certains se fassent la réflexion que j’aurais agi par favoritisme ou, au contraire, inimité, s’il y avait entre moi et la personne à évaluer des liens, réels ou supposés, positifs ou négatifs, remettant en cause mon objectivité.

Second critère : éviter ce qui pourrait donner lieu à mauvaise interprétation.

Les critères du commanditaire

Certains commanditaires d’évaluation ont une liste officielle de critères signalant un conflit d’intérêt (par exemple, avoir été directeur de thèse du candidat, avoir co-signé une publication avec lui pendant les 3 dernières années...) ; d’autres non. Dans tous les cas, si j’estime avoir un conflit d’intérêts (réel ou potentiel), j’explique les faits au commanditaire et je le laisse estimer si ceux-ci constituent ou non un conflit d’intérêts en son sens. En effet, je n’ai pas à me substituer à lui en ce qui concerne la politique de son organisme, de son éditeur, de sa revue…

Ainsi, dans ce domaine comme dans d’autres, je sépare bien ce qui relève d’une éthique personnelle (qui, en l’espèce, relève plus du désir d’éviter des situations inconfortables que d’un questionnement purement moral) de ce qui relève d’une question de politique des organismes ou des publications, où je laisse la décision à ceux qui en ont la responsabilité.

vendredi, septembre 22 2017

Les conférences ou revues scientifiques bidons

Les chercheurs en informatique un tant soit peu expérimentés savent qu’il existe depuis longtemps (enfin, au moins depuis une vingtaine d’années) des conférences scientifiques bidons, c’est-à-dire des événements qui se donnent quelques apparences d’un vrai colloque, mais ne contrôlent pas valablement la qualité des interventions. Se sont rajoutées des revues bidons, c’est-à-dire des publications qui se donnent l’apparence de revues de publication scientifique mais qui, là encore, ne contrôlent pas valablement la qualité des articles publiés.

Dans certains cas, le manque de contrôle est tel que des articles générés aléatoirement, et absolument sans sens, ont été acceptés. L’outil SCIgen permet de produire des documents ayant superficiellement l’apparence d’articles de recherche en informatique (présentation, vocabulaire) mais absolument sans aucun sens ; son dérivé MathGen produit des documents ayant superficiellement l’apparence d’articles de recherche en mathématiques (y compris des formules), mais sans aucun sens là non plus. Dans un cas, un « article » consistant en la phrase Get me off Your Fucking Mailing List (« enlevez mon adresse de courrier électronique de votre putain de liste de diffusion ») répétée a été accepté, ce qui indique une absence totale de lecture avant acceptation.

Pourquoi ces revues et conférences bidons existent-elles ?

Sans prétendre lire dans les pensées des organisateurs de ces publications et événements, je soupçonne que leurs motivations sont les suivantes :

  1. Dans certains cas, il s’agit tout simplement d’une activité lucrative : la personne qui assiste au colloque (notamment pour y intervenir), l’auteur d’un article publié, payent une participation aux frais. Il suffit que celle-ci dépasse sensiblement les coûts d’organisation ou de publication pour qu’un bénéfice soit dégagé. (Notons que cela n’est pas propre aux publications bidons : certains grands éditeurs de revues scientifiques dégagent des marges considérables pour les mêmes raisons.)

  2. Dans certains cas, il s’agit d’une activité d’auto-promotion : un groupe de scientifiques ayant du mal à se faire reconnaître monte son colloque, sa revue, où ils s’évaluent les uns les autres.

Quant aux chercheurs qui soumettent des communications à ces revues ou conférences, je pense qu’il existe les cas suivants :

  1. Par inexpérience : ils ne font pas la différence avec une revue ou conférence sérieuse. Ceci me semble d’autant plus probable qu’ils sont écartés des circuits scientifiques habituels.

  2. Dans le cas de conférences organisées dans des endroits « intéressants », ils peuvent vouloir se faire payer un voyage aux frais de leur université, de leur organisme de recherche ou de l’organisme qui finance leurs travaux.

  3. Ils peuvent vouloir, en toute connaissance de cause sur la nullité de la revue ou conférence, allonger leur CV.

Rappelons que les chercheurs subissent une pression constante pour démontrer qu’ils font réellement de la recherche valable. La vérification de cela se fait souvent bureaucratiquement, par l’examen d’une liste de publications et d’autres activités (exposés dans des conférences internationales…). Il y a donc une incitation permanente à multiplier les publications et en tout cas à ne surtout pas apparaître comme « non publiant ». On voit parfois des obligations couperet, par exemple la délivrance d’un doctorat est subordonné à la publication d’au moins un article dans une revue internationale.

Comment distinguer les revues et conférences sérieuses des bidons ?

Il ne s’agit pas d’une science exacte, mais plutôt de l’application de bon sens et d’une connaissance des usages scientifiques. Ce qui suit est issu de mon expérience en informatique, il est cependant possible que certains points s’appliquent à d’autres disciplines.

Prendre l’avis de chercheurs expérimentés

Les chercheurs expérimentés dans un domaine connaissent les revues et conférences habituelles de ce domaine ainsi que leur niveau de sélectivité.

Caveat : ce critère peut encourager à toujours publier dans les mêmes revues rassurantes de quelques grands éditeurs, même quand ces revues sont essoufflées et ne méritent plus la réputation qu’elles ont pu avoir, tandis qu’on ignorera comme suspectes des revues plus jeunes.

L’appel à publications

Les revues sérieuses sollicitent rarement les chercheurs pour qu’ils leur envoient des articles. À l’inverse, les publications bidons envoient des courriers électroniques de masse.

Caveat : il peut arriver que des coordinateurs de numéros spéciaux de revue cherchent à s’assurer d’un nombre suffisant de soumissions et sollicitent leurs collègues.

Les conférences sérieuses envoient un appel à communication, ne serait-ce que parce que les auteurs doivent respecter des dates précises d’envoi qu’il faut rappeler. Cet appel est diffusé via des listes ou sites thématiquement adaptés. À l’inverse, les conférences et publications bidons envoient souvent leurs sollicitations à des chercheurs hors de la discipline concernée.

Des appels répétés, avec décalage des dates de soumission, indiquent que la conférence s’inquiète de ne pas recevoir suffisamment de soumissions. Cela ne veut pas dire que la conférence est bidon, mais plutôt qu’il ne s’agit pas d’un événement des plus prestigieux.

Dans tous les cas, une conférence ou journal sérieux met en avant son comité scientifique (comité de sélection, comité éditorial…).

En revanche, les conférences ou journaux bidons tendent à mettre en avant des critères extra scientifiques tel que leur « facteur d’impact » ou l’indexation de la publication par des systèmes bibliométriques comme SCOPUS, voire Google Scholar — ce qui est d’autant plus ridicule que Google Scholar indexe tout le contenu d’apparence scientifique ouvertement accessible sur le Web. De même, certains journaux peu sérieux indiquent qu’ils sont « prestigieux » — or quand on est véritablement prestigieux, on n’a pas besoin de le dire, tellement cela va de soi.

L'évaluation

Une conférence ou une revue sérieuse doit avoir le temps d'expertiser les articles, ce d'autant plus qu'elle en reçoit beaucoup et que ceux-ci sont longs et techniques. Les referees doivent placer le travail d'évaluation dans un emploi du temps souvent déjà très chargé. Un article accepté en quelques jours n'a donc probablement pas été sérieusement expertisé.

Le lieu de la conférence

Les conférences bidon cherchant à attirer les chercheurs peu scrupuleux en quête de vacances frais payés tendent à être organisées dans des lieux touristiques (Las Vegas, Orlando, les îles grecques…).

Caveat : il peut exister d’excellentes raisons d’organiser une conférence sérieuse dans de tels lieux, notamment la présence d’une bonne capacité hôtelière, de centres de congrès, d’un aéroport bien desservi... Par ailleurs, il ne faut pas oublier qu’un lieu touristique peut avoir des habitants y compris des scientifiques — je suis ainsi allé deux fois en conférence à Venise tout simplement car ces années là c’étaient des collègues de l’Université de Venise qui organisaient.

Le comité scientifique

Une conférence ou journal sérieux fait sélectionner les communications acceptées par un comité composé de scientifiques compétents du domaine, de préférence jouissant d’une certaine reconnaissance de leur pairs. (Cela ne veut pas dire que le comité doit être composé exclusivement de « mandarins », car on sait bien que ceux-ci sont souvent trop occupés pour bien faire leur travail éditorial.)

S’agissant de disciplines où l’on s’attaque à des problèmes qui ne sont pas propres à un pays ou une langue, on s’attend à un comité international. En informatique, cela veut dire qu’il y aura des membres en poste aux États-Unis et/ou Canada, en Europe occidentale et centrale, au Japon et/ou Corée, éventuellement en Australie et/ou Nouvelle-Zélande, en Inde, parfois en Chine, Brésil, Argentine, Chili. Un comité ne comprenant que des membres d’un seul pays peut être suspecté d’être une « bande de copains » pratiquant l’autopromotion.

Caveat : il va sans dire qu’il est normal que le comité d’une conférence française, destinée à faciliter les rencontres, les collaborations et la vie d’une communauté scientifique française, soit principalement composé de chercheurs français.

Les membres du comité doivent être clairement identifiés. En informatique, on donne généralement un lien vers leur page Web professionnelle, qui comprend elle même généralement un lien vers une liste de publications ou d’autres indications démontrant leur activité scientifique.

À l’inverse, les publications et conférences bidons n’indiquent pas leur comité scientifique, ou encore celui-ci est composé d’inconnus.

Caveat : il arrive que des conférences et publications bidons ajoutent des scientifiques sérieux comme membres d’un supposé comité scientifique sans le consentement de ceux-ci (bien évidemment, ils ne sont pas sollicités lors du processus éditorial). Il arrive aussi que des scientifiques sérieux soient bernés : sollicités par un collègue pour être membre d’un comité, ils acceptent et découvrent trop tard qu’ils servent de caution à un processus non respectueux de la rigueur scientifique.

Les sollicitations à être membre du comité scientifique

La sollicitation pour être membre d’un comité scientifique vient ordinairement d’un collègue et non d’une maison d’édition. On peut d’autant plus suspecter une escroquerie si le courrier est exagérément flatteur mais semble ignorer le domaine d’activité précis de la personne sollicitée. Aucune revue respectable ne sollicite des chercheurs « à l’aveuglette » pour peupler son comité scientifique.

Les thématiques

Une conférence scientifique, un revue sérieuse a une thématique d’ensemble bien identifiée, souvent explicitée par une liste de sous-thèmes (voir par exemple l’appel à communications de CAV 2017). Ceci s’explique aisément : dans le cas d’une conférence ou d’une revue destinée à la publication de résultats originaux, et non de vulgarisation, il faut bien que le comité éditorial soit spécialiste des sujets traités ; par ailleurs l’assistance d’une conférence n’est souvent pas en mesure de suivre la présentation de résultats de recherche trop éloignés de ses thématiques.

Caveat : on sollicite parfois, dans une conférence thématique, des exposés hors de cette thématique ; il existe par ailleurs des conférences destinées à des échanges entre plusieurs champs scientifiques. Les exposés sollicités ne sont alors normalement pas des présentations de résultats originaux de recherche, mais plutôt des tutoriels, introductions, exposés de vulgarisation.

À l’inverse, les conférences bidons ont souvent des thématiques vastes et floues, utilisant des termes ronflants mais imprécis (par exemple « cybernétique » ou « systémique »), parfois groupant plusieurs disciplines sans grand rapport, ou encore mettent en avant des mots-clefs à la mode (par exemple Big Data ou Cloud).

Caveat : il existe dans les thématiques à la mode de vrais problèmes scientifiques et il peut donc être légitime d’organiser des conférences dessus. Par ailleurs, dans certaines disciplines scientifiques, il est de coutume d’organiser des grandes conférences à spectre thématique très large, mais qui sont en fait l’agrégation d’un très grand nombre de sessions thématiques, chacune gérée par des spécialistes de leur thème.

Il n’y a bien entendu rien de mal à pratiquer l’interdisciplinarité. Toutefois, les travaux interdisciplinaires posent des problèmes d’évaluation certains. Les domaines flous et mal définis, sans thèmes, méthodes ou communauté scientifique bien identifiée, attirent les escrocs.

L’éditeur ou l’organisation organisatrice

Une conférence organisée par une société savante reconnue (par exemple l’ACM) ou encore des chercheurs d’une université réputée, une revue ou compte-rendu de conférence publié par un éditeur connu (Springer LNCS...), peuvent jouir d’une présomption de sérieux. À l’inverse, il existe des éditeurs, notamment en Inde, spécialisés dans les publications peu sérieuses. Plus près de chez nous, mes collègues de sciences humaines me disent que certaines collections d’un éditeur parisien bien connu relèvent largement d’une publication à compte d’auteur sans véritable filtre éditorial (en clair, l’auteur est publié tant qu’il paye).

Caveat : Ce critère est à manier avec précaution.

  1. On a vu de grands éditeurs publier des ouvrages ou des revues de piètre qualité, des sociétés savantes (je pense notamment à l’IEEE) être insuffisamment regardants…

  2. Ce critère tend à conforter l’oligopole des grands éditeurs scientifiques (Elsevier, Springer) qui font des bénéfices considérables avec l’argent du contribuable.

Le faible rapport avec la fraude scientifique au sens ordinaire

Les revues et conférences vraiment bidons publient n’importe quoi, mais en même temps personne ne consulte leurs articles.

La fraude scientifique au sens ordinaire consiste d’une part à truquer des résultats (prétendre que des expériences ont réussi alors que non, ignorer délibérément que des expériences ont échoué, etc), d’autre part à plagier des résultats existants (ce qui peut d’ailleurs se faire de façon plus adroite qu’un simple copier-coller), dans le but de publier dans des lieux prestigieux, ceci afin de promouvoir sa carrière ou de solliciter des financements.

Or, en informatique du moins, on ne promeut pas efficacement et à long terme sa carrière en publiant dans des revues bidons (si on les liste dans son CV, on se « grille » vite — il ne faut d’ailleurs pas oublier que les collègues parlent entre eux et que les comportements douteux finissent par être connus bien au-delà du laboratoire). Par ailleurs, il n’y a pas besoin d’inventer des résultats enthousiasmants pour publier dans les revues bidons, puisque celles-ci ne vérifient pas le contenu des articles.

Il s’agit donc de deux phénomènes séparés, même s’ils ont une cause commune : la volonté d’embellir CV et compte-rendus d’activité.

mardi, juin 27 2017

Quelques précisions sur les concours de recrutement de chercheurs au CNRS

Il est rare que le résultat des concours de recrutement dans l’enseignement supérieur et la recherche fasse l’objet de polémiques publiques. C’est pourtant le cas des concours de chargé de recherche au CNRS de cette année, plus précisément de ceux de l’Institut des sciences humaines et sociales (InSHS), une des divisions de cet organisme ; on en parle dans Le Monde et sur France Culture ! C’est l’occasion pour moi de revenir sur le déroulement de ce concours.

Quand on parle de concours de la fonction publique, on imagine une suite d’examens écrits et oraux, plus ou moins scolaires, portant sur les connaissances générales et spécifiques attendues du personnel recruté. Les concours de recrutement de chercheurs ne se déroulent absolument pas comme cela.

Le candidat (ou la candidate, bien évidemment) soumet en ligne un dossier comportant d’une part un résumé de ses travaux de recherche précédents (y compris une liste de publications, brevets, etc.) d’autre part un projet de recherche et d’intégration dans des laboratoires du CNRS. En effet, le travail de recherche scientifique, une fois mené, se concrétise principalement sous la forme de publications décrivant les résultats auxquels on est arrivé, dans des revues ou ouvrages spécialisés, après passage devant un comité de lecture et de sélection.

On vérifie d’abord si le dossier est complet et si le candidat vérifie les conditions légales pour concourir, c’est-à-dire la possession d’un doctorat (sauf dispense par une commission scientifique). Le candidat est déclaré « admis à concourir ».

Le dossier est examiné par une commission compétente pour la discipline concernée (on peut candidater dans plusieurs disciplines en même temps), formée de membres élus par les chercheurs du CNRS et par des enseignants-chercheurs ou chercheurs d’autres organismes. Il s’agit, plus précisément, soit d’une section du Comité national de la recherche scientifique (qui a pour autre rôle notamment d’évaluer les chercheurs du CNRS et de se prononcer sur leurs promotions) soit d’une commission interdisciplinaire. Ces sections et commissions sont numérotées, c’est pour cela que dans les articles de presse cités on parle de postes de section 36, 39, etc.

À l’issue de cet examen, une partie des candidats (mettons la moitié) sont admis à poursuivre et à se présenter à une audition où ils présenteront leurs travaux, leur projet et répondront à des questions. L’utilité de cette audition, brève en raison du nombre importants de candidats à passer, est discutée, notamment en raison de la rigidité administrative qu’elle impose (on fait venir, à leur frais, des candidats parfois de très loin, et l’absence est éliminatoire).

La commission produit un classement d’admissibilité, comportant habituellement plus de candidats que de postes à pourvoir (un concours est habituellement ouvert pour quelques postes, voire un seul). Ce classement est ultérieurement transmis à un jury d’admission, commun à plusieurs sections ou commissions, qui établit un classement définitif en sélectionnant parmi les admissibles. Ce jury d’admission est lui aussi formé de scientifiques du domaine, dont des représentants des sections compétentes et des personnalités scientifiques extérieures nommées par la direction — je précise cela, car certains propos tenus dans l’actuelle polémique suggéraient qu’il comprenait des « administratifs ». On m’a toutefois plusieurs fois suggéré que l’avis de la direction de l’institut y est important.

Le plus souvent, le classement d’admission, comportant une liste principale d’autant de candidats que de postes, puis une liste complémentaire, reproduit celui d’admissibilité, à l’exception de candidats ayant démissionné du concours (par exemple, parce qu’ils ont obtenu un poste à l’étranger). Parfois, le jury d’admission permute des candidats de la liste complémentaire, ce qui a une importance notamment si des postes non pourvus sur d’autres concours sont redéployés, ce qui permet de recruter un candidat de plus que le nombre initialement prévu sur un concours donné. Il est en revanche rare que des candidats en liste principale soient déclassés, et c’est ce qui suscite la polémique.

L’an dernier, le jury d’admission de l’institut d’informatique (InS2I) a déclassé des candidats en liste principale (voir le classement d’admissibilité et le classement d’admission), ce qui a provoqué une polémique entre la section 6 et la direction de l’institut, la première publiant une motion, la seconde répliquant par un courriel aux laboratoires dans laquelle elle détaillait les raisons du jury d’admission. Je ne citerai pas in extenso ce courrier, mais on y évoquait la nécessité d’équilibrer les thématiques (le jury d’admissibilité ayant favorisé certains thèmes de recherche, très théoriques, au détriment des autres) et les provenances (quatre candidats classés ayant leur directeur de thèse ou leur co-directeur de la même équipe du même laboratoire).

Je serais donc curieux d’en savoir plus sur les raisons des jurys d’admission InSHS de 2017, au delà des postures convenues.

Réf: Décision de constitution auprès de chacun des instituts du CNRS d'un jury d'admission pour les concours de recrutement des chargés de recherche ouverts au titre de l'année 2017, réf. DEC171262DRH, Bulletin officiel du CNRS, avril 2017, pp 244-251

PS Ce billet, rédigé sur mon temps libre, ne comporte ni approbation ni improbation des positions du CNRS, et n'est pas non plus une référence officielle concernant la procédure des concours — seuls les textes et sites officiels font foi.

PS² Réaction du conseil scientifique de l'InSHS, et réaction de la direction du CNRS à la polémique.

dimanche, mai 28 2017

Le devenir des jeunes docteurs et ses paradoxes

Je lis régulièrement des articles (dans la presse, sur des blogs, des sites associatifs, sur Twitter…) évoquant les « galères » des doctorants, la difficulté à trouver un emploi ensuite, le nombre de postes insuffisants dans l’enseignement supérieur et la recherche publiques. Il me semble que ces discours gagneraient souvent à mieux cibler les domaines concernés (les difficultés ne sont pas les mêmes partout) et à donner le contexte d’interprétation (ce qui éviterait certaines conclusions hâtives).

Il y a actuellement en général un nombre élevé de candidats par poste de chercheur ou d’enseignant-chercheur ouvert au concours. Ce nombre varie suivant les disciplines. Certains en concluent que certaines disciplines sont très bien dotées et qu’il y est « facile » d’obtenir un poste. Il convient de nuancer ces propos.

Dans certaines disciplines de « sciences exactes », une bonne proportion de jeunes docteurs ne candidate pas aux emplois d’(enseignant-)chercheurs publics ; parfois ils passent par sécurité la qualification de maître de conférence, mais ne candidatent pas ensuite, ou encore candidatent « mollement » ; en cas d’échec, ils ne réessayent pas forcément. Ils vont travailler dans des entreprises privées. À l’opposé, dans d’autres disciplines, les jeunes docteurs candidatent, et après un échec candidatent à nouveau, éventuellement depuis des postes d’enseignants dans le secondaire. Il me paraît délicat de conclure que telle ou telle discipline est plus « difficile » qu’une autre.

Ce constat pourrait (j’emploie le conditionnel car bien évidemment il faudrait le vérifier) expliquer le paradoxe que dans les sciences humaines et sociales, réputées disciplines où il est très difficile d’obtenir un poste, le ratio du nombre de qualifiés aux fonctions de maîtres de conférence sur le nombre de postes ouverts est comparable à celui en informatique (que certains jugent discipline facile), tandis que le nombre de candidats par poste ouvert est supérieur. Il est possible que cela soit tout bonnement dû à ce qu’en informatique de nombreux jeunes docteurs passent la qualification par sécurité sans candidater, ou en candidatant peu, et en tout cas ne s’obstinent pas ensuite.

En ce qui me concerne, j’ai eu jusqu’à présent trois doctorants qui ont soutenu. Sur les trois, l’un travaille maintenant chez Apple (dans la Silicon Valley), un autre chez Grammatech (également aux États-Unis), le troisième chez Clustree (en France). Seul l’un des trois a candidaté à un poste de maître de conférence, et encore n’a-t-il candidaté qu’à un poste et, j’en ai l’impression, sans trop y croire. L’un fait maintenant des choses sans rapport avec sa thèse (si ce n’est qu’il s’agit d’informatique et qu’on y utilise les mêmes mathématiques de base), un autre des choses en rapport avec sa thèse mais plus « appliquées ». Je soupçonne qu’en informatique, tout docteur sachant programmer et qui cherche un emploi un peu sérieusement en trouve un très rapidement — il me semble que les doctorants de notre laboratoire qui abandonnent des thèses trouvent également très vite un emploi.

Il me semble heureux que ces jeunes docteurs trouvent des emplois dans l’industrie. En effet, en raisonnant globalement, il n’y a besoin que d’un jeune chercheur pour me remplacer, quand je quitterai mon poste. Pourtant, en moyenne, chaque chercheur ou enseignant-chercheur encadre bien plus de doctorants qu’un seul ; ce qui veut dire que, même avec une politique d’enseignement supérieure et de recherche ambitieuse et sans austérité, la très grande majorité des jeunes docteurs doivent chercher des emplois en dehors de la recherche publique (il y a peut être des exceptions localisées, avec des recrutements massifs dans certaines disciplines ou thématiques « à la mode », mais on ne peut en faire une règle générale). Aucune société, fût-elle amoureuse des sciences comme le fut feue l’Union soviétique, ne pourrait soutenir une inflation exponentielle des emplois scientifiques.

La clef du problème me semble donc être, encore une fois, les débouchés en dehors de l’enseignement supérieur et de la recherche publique. En tout état de cause, il faudrait éviter les constats globaux, alors qu’il s’agit de questions à aborder par discipline, voire sous-discipline.

vendredi, mai 26 2017

Les revues scientifiques bidons, suite

Le journaliste du Monde Pierre Barthélémy appelle la Science à « faire le ménage » des revues scientifiques bidons. Comme dans mon billet précédent, je déplore la confusion entre deux problèmes à mon avis distincts.

Le premier problème est le lancement, à des fins de rentabilité financière, de conférences et revues « scientifiques » qui invitent des orateurs ou publient des articles sans qu’il n’y ait d’évaluation scientifique (ou, ce qui revient au même, avec une évaluation sciemment ignorée).

Il convient ici de rappeler que ni la science ni l’édition scientifique ne sont des professions réglementées, comme le sont par exemple la médecine ou la pharmacie. N’importe qui peut se dire philosophe, sociologue, astrophysicien… et d’ailleurs les médias, dont le Monde, ne se privent pas de présenter comme des scientifiques des individus qui ne jouissent d’aucune reconnaissance de la part de la communauté scientifique. De même n’importe qui peut fonder une « revue scientifique », et la communauté scientifique n’a pas plus de moyen de faire fermer celle-ci qu’elle n’en a d’interdire aux télévisions et aux magazines de faire se parader des charlatans.

Les revues et conférences totalement bidons, sans vrai comité scientifique, sont en dehors de la communauté scientifique. Tout ce que celle-ci peut faire à leur égard, c’est de ne pas tenir compte de leurs articles et présentations dans l’évaluation des curriculum vitæ de chercheurs ou des demandes de financements. C’est déjà très largement le cas.

Un second problème, distinct dans ses processus comme dans ses conséquences, est l’existence de revues en apparence sérieuses — notamment, munies de comités d’universitaires appartenant à des organismes réputés et bénéficiant d’autres signes extérieurs de réputation (grade élevé, invitations…). C’est ce que visaient les canulars Sokal et Tremblay.

Une telle revue ne peut exister qu’avec des soutiens dans la communauté scientifique, voire l’existence de toute une école de pensée et d’équipes de recherche liées. Le problème n’est donc plus celui d’une publication, mais de toute une communauté. Si telle revue n’est pas sérieuse, alors il en est de même de son directeur éditorial… mais que dire alors de ceux qui l’ont promu à son poste universitaire ? Les ramifications et les implications humaines sont importantes.

Ces sujets sont d’autant plus délicats que la mise en lumière d’un manque de sérieux chez certains auteurs, dans une certaine école de pensée… peut être perçue comme une attaque globale sur une discipline entière, voire un groupe de disciplines. On se rappellera par exemple la polémique intense ayant suivi la sortie d’Impostures Intellectuelles, perçu comme une attaque de physiciens étrangers contre les sciences humaines et sociales françaises. Une telle critique est inaudible pour ceux qui devraient l’écouter.

Que faire ? Je ne le sais pas. Et vous ?

lundi, mai 22 2017

Sur la portée expérimentale des canulars dans les publications scientifiques

On connaît la pratique de l’article canular dans les revues scientifiques. Le scénario est toujours un peu le même :

  1. Un article dénué de sens mais qui respecte superficiellement les canons d’un domaine scientifique (présentation, vocabulaire, bibliographie, formules mathématiques le cas échéant…) est soumis à une revue ou conférence.

  2. L’article est accepté, ce qui laisse supposer qu’il n’a pas été soumis à la relecture d’experts (ou que leurs avis ont été totalement ignorés).

  3. Les auteurs de l’article informent le public ; parfois les médias reprennent l’information. Des conclusions sont éventuellement tirées, à plus ou moins bon escient, sur la scientificité du domaine scientifique concerné ou sur le sérieux d’un mode d’édition.

Je ne prétends pas ici fournir un historique du genre, et me limiterai donc à quelques faits marquants.

Le canular le plus célèbre de ce genre est sans doute celui du mathématicien et physicien Alan Sokal en 1996, débouchant sur « l'affaire Sokal ». En 2005, des chercheurs en informatique du Massachusetts Institute of Technology font accepter à une conférence un article généré automatiquement, aléatoirement et totalement dénué de sens. Leur logiciel SCIgen est modifié et adapté et d’autres font accepter des articles similaires. En 2013, un journaliste de la revue Science piège un bon nombre de revues avec un article de biologie bidonné. En 2015, des sociologues du Carnet Zilsel font accepter un article ridicule, signé d’un québécois fictif nommé Jean-Pierre Tremblay, à une revue de sociologie française.

Je pense que, malheureusement, une bonne partie des commentaires sur ces canulars mélangent des choses qui ne le devraient pas.

SCIgen visait des conférences qui étaient largement connues des scientifiques du domaine comme étant bidon (ce qu’on appelle parfois conférences prédatrices). En résumé, des gens organisaient des conférences dans des lieux touristiquement intéressants (par exemple : Orlando, Floride), mais acceptaient comme intervenants n’importe qui à condition que celui-ci règle les frais d’inscription, alors qu’une conférence scientifique respectable les sélectionne (soit par invitation, soit par appel à soumission d’un résumé voire d’un article complet). Ce canular a eu le mérite de confirmer publiquement des soupçons très largement partagés. En revanche, il ne dit rien sur le sérieux des champs scientifiques concernés, vu que ces conférences sont très largement rejetées par les acteurs de ces champs.

Sokal visait une revue (Social Text) éditée par les presses d’une grande université américaine et avec un comité éditorial apparemment respectable. Le canular Tremblay visait une revue, Sociétés, fondée et longtemps dirigée par Michel Maffesoli, sociologue français parvenu jusqu’au plus haut grade de la hiérarchie universitaire. Il y a là une certaine légitimité pour une discussion sur le sérieux d’une revue, d’une école de pensée, bien qu’évidemment il soit périlleux de conclure sur une unique expérience (une expérience statistiquement significative supposerait probablement un effort considérable, tandis que les canulars Sokal et Tremblay relevaient d’une sorte de hobby).

Certaines expériences menées visaient des revues Open Access dont le modèle économique repose exclusivement sur les frais de publication. Ces revues ont donc avantage, pour dégager du profit, à publier le plus d’articles, et certaines ne contrôlent pas ce qu’elles publient. Là encore, rien qui ne soit déjà fortement soupçonné : il existe de multiples signes qui incitent à la méfiance…

Plus que les expériences en elles-mêmes, ce qui paraît discutable ce sont les conséquences que certains prétendent en tirer. Qu’il soit possible d’obtenir de parler dans une conférence d’informatique non reconnue par les informaticiens ne permet pas de déduire grand-chose de l’informatique. Qu’il soit possible de publier des âneries dans certaines revues Open Access ne permet de conclure que l’ensemble des revues Open Access manquent de sérieux ; tout au plus qu’il faut être vigilant et attentif au comité éditorial et à son fonctionnement. Qu’il soit possible de publier des textes dénués de sens dans des revues de sociologie ou d’études de genre ne permet pas de conclure que la sociologie ou les études de genre sont des pseudo-sciences ; tout au plus d’avoir des soupçons sur certaines « chapelles » et sur les mécanismes qui ont permis leur installation. Peut-être l’occasion d’études de sociologie des sciences sociales ?



mercredi, mai 17 2017

Deux conseils de rédaction aux doctorants

Divers sites donnent des conseils de rédaction aux doctorants. Pour ma part, j’estime qu’il y a une grande diversité de méthodes de travail valables, qui plus est dans une grande diversité de disciplines, et qu’il est donc périlleux de proposer des conseils généraux. Je me limiterais donc à deux conseils.

Prendre des notes

On oublie tout : idées, références, citations, schémas d’expériences, conditions de mesure, mode d’emploi de logiciels. Donc il faut tout noter pour pouvoir tout retrouver. Je sais que ça a l’air évident mais on se fait toujours avoir.

Utiliser un correcteur orthographique voire grammatical

Tout le monde finit par faire des fautes d’orthographe ou de grammaire, certains plus que d’autres. J’entends parfois des gens expliquer qu’il s’agit de négligences coupables, qu’il suffit de s’appliquer, que cela aurait dû être acquis à l’école primaire, qu’on peut suivre des cours de rattrapage — cela n’est pas mon propos. Je constate cependant qu’un texte émaillé de fautes fait mauvais effet.

Je pense que c’est un peu tard pour aborder ce genre de problèmes et que pendant les trois ans d’un doctorat on n’a pas le temps de les pallier. J’estime qu’en revanche ne pas utiliser les correcteurs orthographiques, voire grammaticaux, livrés dans tous les traitements et éditeurs de textes, relève de la négligence.

(Si votre logiciel ne fournit pas de correcteur grammatical, vous pouvez essayer LanguageTool.)

- page 1 de 18