La plupart des algorithmes médicaux ont été développés à partir d'informations provenant de personnes traitées au Massachusetts, en Californie ou à New York, selon un nouvelle étude . Ces trois États dominent les données des patients - et 34 autres États n'étaient tout simplement pas représentés du tout, selon la recherche publiée cette semaine dans le Journal of the American Medical Association . La distribution géographique étroite des données utilisées pour ces algorithmes peut être un biais non reconnu, affirment les auteurs de l'étude.
Les algorithmes examinés par les chercheurs sont conçus pour prendre des décisions médicales basées sur les données des patients. Lorsque les chercheurs construisent un algorithme qu'ils souhaitent guider le diagnostic du patient - comme examiner une radiographie pulmonaire et décider si elle présente des signes de pneumonie - ils lui donnent des exemples concrets de patients avec et sans la condition qu'ils souhaitent rechercher. . Il est bien reconnu que la diversité de genre et de race est importante dans ces ensembles de formation: si un algorithme ne reçoit que les radiographies des hommes pendant l'entraînement, il peut ne pas fonctionner aussi bien lorsqu'il reçoit une radiographie d'une femme hospitalisée avec des difficultés respiratoires. . Mais si les chercheurs ont appris à surveiller certaines formes de biais, la géographie n’a pas été mise en évidence.
"Il y a toutes ces choses qui finissent par être intégrées dans l'ensemble de données et deviennent des hypothèses implicites dans les données, qui peuvent ne pas être des hypothèses valides à l'échelle nationale", auteur de l'étude et Université de Stanford Le chercheur Amit Kaushal a déclaré à Stat News .
Kaushal et son équipe ont examiné les données utilisées pour entraîner 56 algorithmes publiés, conçus pour être utilisés dans des domaines tels que la dermatologie, la radiologie et la cardiologie. On ne sait pas combien sont réellement utilisés dans les cliniques et les hôpitaux. Sur les 56 algorithmes, 40 ont utilisé les données des patientsMassachusetts, Californie ou New York. Aucun autre État n'a fourni de données à plus de cinq algorithmes.
Il n'est pas clair si ou exactement comment la géographie peut fausser les performances d'un algorithme. Les centres côtiers comme New York, cependant, ont des données démographiques et des problèmes de santé sous-jacents différents de ceux des États du Sud ou du Midwest. Pourtant, les chercheurs savent, en général, que les algorithmes qui fonctionnent dans un ensemble de circonstances ne fonctionnent parfois pas aussi bien avec d'autres. Quelques études montrer que les algorithmes peuvent mieux fonctionner dans les institutions où ils sont créés que dans d'autres hôpitaux.
De nombreux centres de recherche universitaires qui font de la recherche sur l'intelligence artificielle et l'apprentissage automatique se trouvent dans des centres de soins de santé comme le Massachusetts, la Californie et New York. Les données de la Californie, qui abrite la Silicon Valley, ont été incluses dans environ 40% des algorithmes. Il est difficile pour les chercheurs d’accéder aux données d’institutions autres que celles où ils travaillent. C'est peut-être pourquoi les données se regroupent de cette manière. L'élargissement des ensembles de données peut être difficile, mais l'identification de la disparité montre que la géographie est un autre facteur qui mérite d'être suivi dans les algorithmes médicaux.
Aucun commentaire:
Enregistrer un commentaire