Le projet de loi de programmation de la recherche remet à l’ordre du jour la question de l’évaluation des chercheurs et enseignants-chercheurs. Il s’agit là d’un sujet complexe, même si certains aiment en faire des bons mots simplistes.

La laborieuse évaluation individuelle

Qu’est-ce qu’un bon travail de recherche ? J’en donnerais la définition suivante : un travail sérieux et pertinent. Par sérieux j’entends qu’il faut respecter les conditions de scientificité du domaine (en sciences expérimentales, par exemple, bien contrôler les conditions des expériences) ; par pertinent j’entends qu’il faut être original et intéressant (par exemple, en mathématiques, on peut générer une infinité de démonstrations rigoureuses de faits tels que 13×789=10257, mais il n’y aucun intérêt à les publier).

Comment évaluer ce sérieux et cette pertinence ? A priori, il faut être du même domaine de recherche. Il est certes parfois possible d’avoir des doutes quand on lit un travail d’un domaine éloigné (par exemple, si on lit des statistiques sans groupe de contrôle), mais il faut vraiment être du sujet pour pouvoir évaluer l’originalité. Les chercheurs sont donc a priori évalués par des gens qui travaillent sur des sujets plus ou moins proches qu’eux. C’est sans doute cela qui a conduit certains responsables politiques à plaisanter sur les chercheurs qui veulent s’évaluer eux-mêmes…

La bibliométrie et ses dérives

Lire les travaux d’un chercheur pour l’évaluer, cela prend du temps (surtout si on n’est pas très spécialisé sur le domaine et qu’il faut se renseigner). Aussi est-il plus rapide de s’en remettre à la liste de publications des chercheurs à évaluer. En effet, la coutume est qu’un chercheur qui a découvert quelque chose en fasse part aux autres par la publication dans une revue spécialisée (Science et Nature sont les plus connues, pour les sciences naturelles), ou, dans certaines disciplines, par un article en compte-rendu de conférence, ou encore par un livre. Si un chercheur est un « trouveur », comme on dit au Café du Commerce, certainement il doit publier beaucoup ! C’est ainsi qu’on en est parfois venu à une évaluation « au poids ».

Les conséquences de l’évaluation « au poids » sont bien connues : à partir du moment où l’on demande à un corps de métier, quel qu’il soit, de « faire du chiffre », il poursuit l’augmentation du chiffre et non l’amélioration de ce que ce chiffre était censé mesurer. On a donc vu des chercheurs multiplier les articles en découpant une même idée en plusieurs morceaux, la création de revues peu exigeantes sur l’originalité voire sur le sérieux scientifique, etc. Paradoxalement, la qualité globale du processus scientifique y a sans doute perdu à cause de cette évaluation censée la tirer vers le haut : il est difficile de se tenir à jour dans un flot d’articles contenant chacun un petit incrément sur l’état de l’art !

L’évaluation individuelle du chercheur permet certes de gérer les carrières (recrutements, promotions) mais elle ne permet pas aux décideurs de voir globalement les forces et les faiblesses de leurs laboratoires. L’évaluation par le poids bibliométrique, elle, est séduisante pour ces décideurs, car elle permet d’agréger les publications des chercheurs individuels pour faire sortir des indicateurs plus globaux.

Le problème de ces indicateurs est qu’ils additionnent des poires et des oranges : suivant la discipline, la sous-discipline, le domaine d’activité, le type de travaux (théoriques, expérimentaux…) la quantité de travail nécessaire à la publication d’un article est différente ! Par ailleurs, les bases de données utilisées pour établir ces indicateurs ne tiennent compte que de certains types de publications, de façon inadaptée à certaines disciplines. Pour la petite histoire, comme feue l’Agence évaluation de la recherche et de l’enseignement supérieur (AERES) utilisait une liste de publications ne comprenant pas les compte-rendus de conférences, un haut responsable universitaire nous avait recommandé de préférer dorénavant publier dans des revues indexées par les évaluateurs… recommandation oubliée quand cette agence a modifié ses règles de fonctionnement pour les adapter à l’informatique !

Pour pallier les inconvénients évidents de la « mesure au poids », on a proposé d’autres mesures (facteur d’impact, h-index, etc.). Toutes comportent des dérives constatées : par exemple, si on compte, comme mesure de sa qualité, combien de fois un article est cité, on incite les chercheurs à forcer d’autres chercheurs à les citer, même si ce n’est guère pertinent ; sans parler, là encore, du problème d’addition de poires et d’oranges, les publications dans les domaines où il y a de nombreux chercheurs attirant naturellement plus de citations que celles dans des domaines où les chercheurs sont moins nombreux.

C’est de cela dont les chercheurs ont peur, ce que l’on résume hâtivement par « ils ne veulent pas d’évaluation » : une évaluation selon des indicateurs numériques pas si liés que cela à la qualité de la recherche, et qui imposerait telle ou telle pratique non pas parce qu’elle fait sens mais parce qu’elle permet de monter dans les indicateurs.

La valorisation

On me reprochera peut-être à ce point de trop me pencher sur la publication scientifique, et pas assez sur les autres formes de productions des laboratoires de recherche, notamment la valorisation industrielle : fondation d’entreprises, cessions de brevets et licences de logiciels notamment. Quelques explications s’imposent ici, et je prendrai des exemples dans des domaines scientifiques que je connais mieux que d’autres.

On dit parfois que la recherche universitaire en langages de programmation est inutile, avec comme justification que les principaux langages de programmation utilisés dans l’industrie ne sont pas d’origine universitaire, et que les langages universitaires (OCaml, Haskell…) sont au mieux sur des marchés de niche. Ceci n’est pas faux, mais ignore que de nombreuses innovations apportées dans les langages industriels (par exemple, les génériques en Java, ou le typage linéaire en Rust) ont été inventés dans des laboratoires universitaires et prototypés dans des langages universitaires !

Prenons maintenant les start-ups. En matière d’achats de logiciels, certains marchés sont particuliers : une grande entreprise n’achètera pas pour ses propres processus industriels un logiciel dont elle ne soit pas sûre que le fournisseur pourra lui fournir la maintenance sur 10 ans. Cela exclut souvent l’achat de logiciel développés par des start-ups, car il n’est pas sûr que la start-up soit viable. Dans ce cas, la meilleure solution est pour la start-up de se vendre à un grand groupe, dont la réputation de stabilité contentera les clients. C’est tout de même un peu plus compliqué que le schéma que l’on décrit habituellement au public.

Évaluer, mais pour quoi ?

L’AERES, puis son successeur le Haut conseil de l’évaluation de la recherche et de l’enseignement supérieur (HCERES), devaient permettre de présenter aux décideurs publics un panorama des points forts et points faibles. J’ai cru entendre que le but n’était pas vraiment atteint.

Mais pourquoi évaluer ? Les déclarations de divers hauts responsables laissent entendre une « sélection darwinienne », dont on peut supposer qu’elle consisterait à ne pas financer et à pousser dehors les mal évalués et au contraire bien doter les bien évalués. Cela peut paraître du bon sens : pourquoi financer ce qui ne fonctionne pas, n’est-ce pas là un panier percé ? La réalité est toutefois plus complexe.

La recherche est souvent la variable d’ajustement dans l’emploi du temps d’un enseignant-chercheur ; elle passe souvent après l’enseignement et la gestion de celui-ci. Un enseignant-chercheur tout à fait valable peut donc se retrouver en position de faire peu de recherche, d’où une productivité modeste dans les indicateurs. Ne pas le financer, ne pas financer son département, ne peut qu’aggraver la situation.

À l’inverse, on voit parfois de gros financements attribués à des domaines à la mode, à des chercheurs-stars, produire des résultats décevants par rapport aux sommes accordées. Là encore, il y a des explications simples : le chercheur-star, quelle que soit sa brillance, a un temps de travail limité et ne peut pas superviser efficacement par lui-même plus d’une certaine talle de projet ; et les sujets à la mode sont parfois « survendus ».

Conclusion

J’ai abordé différents sujets liés à l’évaluation et ai tenté de démontrer comment ce qui paraît simple (les publications ! les start-ups !) est en réalité plus compliqué, et que certaines idées apparemment de bon sens peuvent avoir des conséquences opposées au but poursuivi.

J’espère avoir convaincu qu’il ne s’agit pas tant de chercheurs qui refusent l’évaluation que de chercheurs qui refusent une évaluation basée sur des indicateurs douteux, évaluation qui conduirait à des attributions de crédits et de postes aggravant plutôt que résolvant les problèmes. Certains n’ont que le mot « évaluation » à la bouche, mais il conviendrait d’en expliciter le pourquoi et le comment…