Dans deux articles dans Nature Biotechnology, Lennart Martens, affilié au VIB et à l'UGent, présente une solution pour traiter cette énorme montagne de données sur les protéines. Et cela à l'aide d'un simple jeu sur votre smartphone.
Protéines. Notre corps en est rempli. Ils extraient l'énergie des aliments, structurent les cellules et transportent les substances dans tout le corps. Mais de nombreuses protéines sont un mystère pour la science. Dans deux articles dans Nature Biotechnology Lennart Martens, affilié au VIB et à l'UGent, présente une solution pour traiter cette énorme montagne de données sur les protéines. Et cela à l'aide d'un simple jeu sur votre smartphone.
En 2003, Martens à Cambridge a commencé à créer une base de données appelée PRIDE, PReomics IDentifications. Ces dernières années, les chercheurs ont déposé une énorme quantité de données de spectrométrie de masse sur les protéines dans cette base de données. Les spectres de la base de données sont des peptides, des morceaux de protéines, que l'ordinateur analyse s'il veut savoir à quelles protéines ils appartiennent. «La manière dont nous analysons maintenant les spectres est en fait assez simple», explique Martens. «Un logiciel spécial examinera les échantillons de protéines et tentera d'appliquer chacune des possibilités d'une base de données de protéines connues à un tel spectre. Le logiciel compare donc les spectres avec ce qui est connu et vérifie si cela correspond. C'est donc une sorte de reconnaissance de formes, comme la recherche d'une base de données d'empreintes digitales à la police.'
Il y a une étape supplémentaire impliquée. « Le logiciel ne peut pas nous dire ce qui est bien et ce qui est mal. Le score d'appariement qui est attribué dit seulement :ceci est très similaire, ceci moins, et c'est ensuite à nous de dire ce qui est correct et ce qui ne l'est pas. C'est pourquoi nous avons écrit un outil, le PeptideShaker, pour analyser ces scores en détail. Le PeptideShaker, un fichier zip que vous pouvez simplement télécharger, se connecte à la base de données publique PRIDE et répertorie toutes les données qu'il contient, ainsi que toutes les méta-informations disponibles. Vous pouvez cliquer sur un ou plusieurs de ces ensembles de données, ils seront alors automatiquement téléchargés et réanalysés sur votre ordinateur.'
Mais il y a plus. Dans une analyse ordinaire, seule une petite partie des dizaines de milliers de spectres est identifiée, environ 20 %. « Nous ne savons pas ce qu'il en est d'environ 80 % des données enregistrées par spectrométrie de masse. Cela peut être pour diverses raisons. Certaines sont simplement mauvaises:les spectres ne proviennent pas de peptides ou le signal n'est pas assez clair.» Une autre partie peut être liée à des protéines, mais elles ne sont pas encore connues ou ont été modifiées chimiquement. Par exemple, les sucres ou les graisses peuvent se lier aux protéines, ce qui fait varier l'empreinte digitale de ces peptides. « Nous ne savons pas que certaines protéines existent. Nous ne les avons jamais vus et ne savons pas à quoi ils ressemblent. Et puis, bien sûr, il devient difficile de faire correspondre les motifs avec ces spectres. C'est comme comparer les empreintes digitales de personnes dont vous ne connaissez même pas l'existence.'
PRIDE contient actuellement environ 700 millions de spectres, environ la moitié sont déjà accessibles au public aujourd'hui, le reste le sera dans un avenir proche. Mais environ 80% n'ont pas été identifiés, et cette protéine inconnue peut contenir de nouvelles connaissances intéressantes. C'est pourquoi les chercheurs veulent regarder les spectres eux-mêmes afin d'y lire directement quelle était la structure de la protéine. Une tâche difficile, explique Martens. «Ces spectres sont complexes, ce ne sont pas des signaux clairs, car il y a beaucoup d'autres là-dedans en plus de l'empreinte digitale de la protéine. Il existe des algorithmes dits "de novo" qui tentent de résoudre ce problème, mais même pour ces outils, c'est trop compliqué. Notre idée était donc de sélectionner parmi tous ces spectres ceux qui sont de bonne qualité et de les mettre dans un jeu simple où les gens peuvent appliquer leur propre perspicacité dans l'identification de ces spectres." la créativité nécessaire pour cette tâche est encore quelque chose que l'humain l'esprit est meilleur.
Construire des maisons
Cette créativité a conduit au développement du jeu informatique, qui est actuellement encore en cours d'élaboration. L'application gratuite devrait sortir plus tard dans l'année. L'analyse des peptides devient alors un passe-temps simple et rapide :les joueurs voient apparaître sur leur écran le plan d'une rue avec des terrains à bâtir libres et doivent le remplir au mieux avec une série de bâtiments. La science derrière cela est, bien sûr, un peu plus compliquée. Un spectre est essentiellement une série de pics sur un graphique montrant les masses mesurées du peptide sur l'axe des x et la quantité ou l'intensité de ces masses sur l'axe des y. La distance entre ces sommets détermine la largeur du chantier. Les bâtiments représentent à leur tour les acides aminés qui composent un peptide. Chaque bâtiment a une largeur différente car les acides aminés diffèrent par leur structure. L'objectif est d'intégrer au mieux les bâtiments dans l'emprise de la rue.
Mais pour un bon score il faut aussi construire le plus haut possible. La hauteur du bâtiment dépend de l'intensité de la masse, représentée dans le jeu simplement comme un terrain à bâtir de faible, moyenne ou haute intensité. « L'intention est d'atteindre un résultat optimal d'une certaine manière, à savoir que vous pouvez construire le plus haut possible, comme à Hong Kong ou à Manhattan, afin de fournir autant de pièces que possible dans la rue. L'idée scientifique sous-jacente est simplement qu'un signal d'intensité plus élevée a plus de chances de faire partie de l'empreinte digitale."
"L'idée, et je pense que c'est assez révolutionnaire, est que nous exécutons un logiciel en arrière-plan qui examine la solution du joueur et calcule à partir de là. Parce que si les bâtiments placés par l'utilisateur sont corrects, l'ordinateur peut améliorer ce score avec quelques calculs supplémentaires." Ainsi :même les mauvais joueurs peuvent soudainement être placés en haut du meilleur score par l'ordinateur après quelques jours de calcul, car leur ordinateur de solution a aidé à analyser correctement l'empreinte protéique.
Martens ne sait pas combien de personnes joueront avec et ce que le jeu peut finalement rapporter. "C'est la beauté de celui-ci. C'est vraiment un saut dans l'inconnu. Nous n'avons aucune idée de ce qu'il y a dans ces 80 % des spectres, nous ne pouvons donc pas imaginer ce qui va en sortir. Ce que vous trouvez est par définition inconnu donc tout ce qui sort est une nouvelle découverte. Et avec autant de données disponibles, il existe une excellente occasion d'acquérir des connaissances plus fondamentales sur la composition de notre protéome, la collection de toutes les protéines de notre corps.» Après tout, PRIDE contient beaucoup de données humaines. Mais il contient également des données sur les protéines de plantes, de souris, de mouches, de bactéries ou d'agents pathogènes. "Ce sont les deux choses intéressantes. Vous apprenez à connaître votre propre biochimie en tant qu'être humain, mais vous avez également des applications médicales directes car nous acquérons une meilleure compréhension de la tuberculose ou du paludisme grâce à cette recherche." Qui d'autre pensait que les jeux sur smartphone étaient un passe-temps inutile ?
Plus de science citoyenne sur notre portail :http://eosscience.eu/citizenscience