Les controverses récentes autour de l’épidémie Covid-19 ont mis sur la place publique la question des publications scientifiques. J’aimerais clarifier quelques points qui ont été soulevés dans des articles de presse au sujet des revues scientifiques (j’entends ici bien entendu les revues où sont présentés les résultats de recherche, et non les magazines de vulgarisation tels que La Recherche ou Science & Vie).

Les rétractions

La rétraction d’un article ne signifie pas qu’il y ait eu fraude. Il peut tout simplement s’agir d’erreurs de bonne foi qui ont été découvertes après publication, parfois même par les auteur·e·s de l’article.

Mes co-auteurs et moi-même avons failli devoir rétracter un article entre le moment où il avait été accepté par le comité éditorial et le moment où il allait être publié. Notre article argumentait que, malgré un coût élevé dans le pire cas, notre algorithme était rapide sur les cas réalistes, et fournissait à l’appui de cela des chronométrages sur des exemples significatifs. Nous avions par ailleurs validé l’implantation de l’algorithme en le comparant avec une analyse plus lente mais qui devait donner exactement le même résultat. Sauf que… les tests de comparaison n’avaient pas été tous passés. Erreur technique, dans un contexte de hâte et de stress avant la soumission d’article, et il y avait un bug qui faisait que parfois les résultats divergeaient, ce qui notamment mettait en doute nos chronométrages favorables.

Nous prévînmes le comité éditorial ; il était clair pour nous que nous devrions retirer l’article si nous ne pouvions pas corriger le bug, ou si les chronométrages devenaient défavorables. Nous (enfin, plus exactement, le doctorant) pûmes heureusement corriger le bug, faire passer tous les tests de comparaison, puis refaire les chronométrages et constater que même avec la version déboguée nous avions les mêmes bonnes performances. Ouf !

La mise au point d’expériences est chose délicate. Il est facile d’oublier un petit facteur, un élément perturbateur, une impureté… La complexité des traitements informatiques ultérieurs peut conduire à des résultats erronés (il semble qu’ainsi on a publié de nombreux articles de biochimie comportant des résultats faux en raison de problèmes de compatibilité d’un script Python utilisé pour analyser certaines données expérimentales). Il est facile, a posteriori, de dire qu’il aurait fallu procéder à telle ou telle vérification !

L’évaluation par les pairs

Certaines fausses idées circulent parfois à propos de l’évaluation par les relecteurs des revues ou conférences scientifiques :

  1. Qu’ils refont les expériences indiquées.

  2. Qu’ils sont chargés de débusquer les fraudes.

Il est évident que les relecteurs ne peuvent refaire les expériences décrites dans les articles (sauf dans quelques cas particuliers, voir plus loin). Monter une expérience ou une étude clinique cela prend du temps, du matériel, des moyens ; les rapporteurs des revues rédigent leurs rapports dans la hâte, en prenant sur leur temps de recherche, lequel est, dans le cas des enseignants-chercheurs, lui-même casé dans les disponibilités laissées par l’enseignement et l’administration de l’enseignement. Souvent des délais très courts sont imposés par les revues.

Les relecteurs ne sont pas spécifiquement chargés de débusquer des fraudes (même si, bien entendu, ils doivent signaler leurs soupçons au comité éditorial, le cas échéant). Ils sont chargés d’évaluer l’originalité et l’intérêt de la publication (on n’accepte pas les articles qui n’apportent rien à l’état des connaissances), le sérieux de la méthodologie, le cas échéant la qualité des démonstrations mathématiques. Ils sont censés pointer les faiblesses des articles (telle conclusion est insuffisamment étayée, telle expérience pourrait être perturbée par tel phénomène, telle étape d’un raisonnement mathématique est douteuse…). Les relecteurs sont en droit de supposer que les auteurs sont de bonne foi.

En informatique, on a depuis une dizaine d’années encouragé les auteurs à fournir, en sus de leur article, le logiciel et les données utilisés pour les conclusions expérimentales. Ceci permet à des évaluateurs de refaire passer les expériences numériques et éventuellement d’essayer leurs propres exemples. À mon avis, l’intérêt de ce système n’est pas tant d’éviter les fraudes caractérisées que de forcer les chercheurs à mettre en ordre leurs expériences avant publication, alors que la tendance naturelle est à bricoler dans la hâte et sans respect de la traçabilité.

Les preprints

On s’est beaucoup alarmé de l’existence de serveurs de preprints, c’est-à-dire d’articles non validés par les pairs. Le plus connu est probablement arXiv, lancé par des physiciens puis étendu aux mathématiques et à l’informatique ; en biologie il y a bioRxiv.

Les articles publiés dans les revues ou les conférences scientifiques ne sont pas destinés au grand public, mais à un lectorat possédant le bagage scientifique pour les comprendre. En mathématiques, le niveau nécessaire simplement pour comprendre l’énoncé de ce qui est démontré peut varier entre le niveau « mathématiques spéciales » et « en cours de doctorat sur cette thématique », voire « spécialiste du sujet » ; le niveau nécessaire pour comprendre les démonstrations peut être supérieur. Autant dire qu’il me semble périlleux de tirer des conclusions de la lecture d’un article sur un serveur de preprints, à moins d’être soi-même spécialiste du sujet.

Ces remarques sont également vraies des articles publiées dans des revues : il est dangereux, quand on n’est pas du domaine, d’en tirer des conclusions. Toutefois, dans le cas des preprints, se rajoute l’absence de validation par les pairs.

Faut-il condamner les preprints ? Je ne le pense pas. Ceux-ci n’ont jamais été destinés au grand public (dans lesquel j’inclus les journalistes). En revanche, il me semble qu’il faudrait inciter la communauté scientifique à la prudence dans les annonces, communiqués de presse, etc. sur des sujets aussi sensibles qu’une angoissante pandémie… et bien entendu inciter la presse à la prudence avant de reprendre les analyses des uns et des autres.