Résumé
Une cohorte de 1 257 participants avec 18 288 échantillons de gouttes de sang séché (DBS) collectés sur 134 lots analytiques et 15 mois est utilisée pour tester si les profils métabolomiques non ciblés de LC-MS portent suffisamment de signal au niveau individuel pour identifier un participant à partir d’une seule piqûre au doigt. Après normalisation tenant compte des lots, sélection des caractéristiques supervisée, filtrage du signal biologique et vote à la majorité au niveau utilisateur sur les cartes DBS, le modèle atteint 94,1 % de précision au niveau utilisateur et 85,5 % de précision au niveau échantillon dans une validation GroupKFold à 10 plis (groupe = lot). Sur un ensemble de lots futurs retenus de 17 lots, le modèle atteint 96,1 % de précision au niveau utilisateur et 92,6 % au niveau échantillon sur 1 134 classes, comparé à une ligne de base aléatoire de 0,088 %.
Une deuxième contribution du document est méthodologique : les auteurs montrent que le fractionnement aléatoire naïf gonfle la précision parce que 92,8 % des échantillons d’essai partagent leur paire (utilisateur, lot) avec l’ensemble d’entraînement. Un fractionnement tenant compte des groupes est nécessaire pour mesurer la vraie généralisation.
Pourquoi c’est important
La plupart des sciences des biomarqueurs traitent encore les valeurs de laboratoire comme des instantanés uniques. Cette prépublication expose le cas, avec des données, de traiter la biologie comme une trajectoire et d’évaluer les changements par rapport à la ligne de base d’un individu. Elle encadre aussi le protocole et la discipline de validation sur lesquels le reste du programme de recherche de BioTwin est construit.
Auteurs
Pierrick Hauguel, Nicolas Anctil, Louis-Philippe Noel. Tous les auteurs sont des employés et actionnaires de BioTwin Inc. Brevet PCT en attente.