Fondements scientifiques

Concepts

Olivier Laurent

IRSN, Fontenay-aux-Roses

Volume 19, numéro 5, Septembre-Octobre 2020

Télécharger le PDF de l'analyse

ANALYSE D'ARTICLE

Dans la boîte noire. Qu’est-ce que l’intelligence artificielle peut apporter à la recherche en santé-environnement ?

À ce jour, il n’existe pas de définition consensuelle de l’intelligence artificielle (IA). Une première approche englobée sous ce terme consiste à construire des logiciels et appareils qui résolvent des problèmes de manières analogues à celles qu’emploieraient des humains. Une autre approche consiste à permettre, par analyse automatique de données massives, d’identifier des liens dans des jeux de données très vastes et très complexes, qui seraient difficiles, extrêmement longs, voire même impossibles à identifier par un investigateur humain. On parle parfois dans ce second cas d’intelligence « augmentée ».

Ces capacités permettent d’envisager de nombreuses applications pour la recherche en santé-environnement. Ainsi, des chercheurs du domaine ont déjà utilisé l’IA pour améliorer les recherches et extractions d’informations renseignées de manières éparses dans de vastes corpus de littérature, pour modéliser les effets de polluants au sein de cellules et tissus, ou encore pour estimer la qualité de l’air d’après des données d’imagerie satellitaire.

Si ces technologies présentent de formidables capacités, il reste important de les utiliser avec précaution pour ne pas générer de résultats erronés. Tout d’abord, pour que des algorithmes puissent effectuer des tâches de manière adéquate (par exemple, reconnaître un objet), il faut les y entraîner, à l’aide de données adéquates et « annotées » par la main humaine. Ces données doivent être suffisamment comparables à celles du domaine d’application souhaité. Par ailleurs, les algorithmes peuvent tester plusieurs manières de modéliser les données (soit envisager plusieurs modèles), et sélectionner les modèles présentant les meilleures performances. Ici, le risque de surajustement aux données est crucial, car il risque d’amener à la sélection automatique d’un modèle qui s’adapterait presque parfaitement à un jeu de données mais n’aurait aucune pertinence pour d’autres (manque de généralisabilité), ce qui mènerait alors à de mauvaises performances dans les applications ultérieures (par exemple, prédictions erronées). Il est en premier lieu important de pouvoir connaître les modèles évalués et, en cas de besoin, de pouvoir guider leur sélection. Or certains algorithmes ne présentent pas ces informations de manière transparente ; on parle alors de « boîtes noires ». Par ailleurs, les choix (non automatisés) entre modèles restent souvent difficiles et demandent des compétences et de l’expérience en modélisation statistique. Ils demandent naturellement d’avoir bien formulé la question à étudier. Pour pallier en partie ces limites, certains outils en open source, comme PennAI développé par l’université de Pennsylvanie, commencent à rendre plus transparentes les sélections automatiques de modèles qu’ils proposent.

Les auteurs abordent des exemples de fouille et d’analyse de texte pour la réalisation de synthèses scientifiques, auxquelles l’United States Environmental Protection Agency (US EPA) et le National Institute of Environmental Health Sciences (NIEHS) s’intéressent de plus en plus, mais pour lesquelles beaucoup de travail d’entraînement des machines (par exemple, par annotation humaine de texte) semble encore nécessaire avant de pouvoir extraire des informations de phrases en tenant compte de nuances d’écritures.

Un exemple d’algorithme visant à prédire des concentrations de PM2,5 utilisant les données satellitaires est également évoqué. Ses performances, très bonnes dans son domaine d’entraînement initial, se dégradent toutefois rapidement au-delà de ce domaine. Par ailleurs, cet algorithme étant une « boîte noire », il n’est pas possible de déterminer les incertitudes liées à ses prédictions – ni même de connaître les variables prédictrices qu’il utilise !

L’auteur conclut que les priorités du développement des méthodes utilisant l’IA dans le domaine santé-environnement doivent être de permettre aux algorithmes de pouvoir accéder à suffisamment de données de bonnes qualités annotées, accessibles par tous (machines et humains confondus, par exemple selon les règles FAIR [Findability, Accessibility, Interoperability, and Reuse]) et bien sûr de développer la transparence des algorithmes utilisés.

Commentaire

Les auteurs ont le mérite de nous rappeler que les contours du concept d’IA ne font pas actuellement totalement consensus (on peut d’ailleurs imaginer que ces contours pourront encore évoluer à l’avenir) et, partant de ce constat, de guider les lecteurs au travers d’exemples très concrets appliqués à la recherche en santé-environnement. Si le potentiel de ces technologies apparaît majeur, et qu’elles sont peut-être même la seule manière de faire apparaître rapidement des liens complexes entre différents jeux de données massives, il reste à ce jour indispensable d’exercer une grande vigilance sur les opérations automatiques réalisées par les algorithmes. Ceci n’est bien sûr possible qu’à condition que ces opérations soient transparentes. De manière générale, la formulation d’hypothèses de recherche claires et l’exercice de l’esprit critique à chaque étape restent plus que jamais nécessaires, ce qui ne doit pas empêcher de s’ouvrir à des découvertes fortuites, que l’IA nous offrira sans doute de plus en plus. À nous de savoir manier tour à tour sens critique et humilité dans notre cheminement au côté de l’IA. Celui-ci ne fait que commencer...


Publication analysée :

* Schmidt CW. Into the black box: what can machine learning offer environmental health research? Environmental Health Perspectives 2020 ; 128(2). Doi : 10.1289/EHP5878