L'ADN contient des variants grands et petits, et tous ne sont pas détectés aussi bien. Dans cette introduction, j'approfondirai la variation de l'ADN entre deux personnes, comment nous pouvons la détecter et quelles peuvent en être les conséquences.
Notre matériel héréditaire, l'ADN, est composé de 47 morceaux :les chromosomes (Figure 1). Ces chromosomes sont constitués d'environ 6,4 billions de "lettres", les nucléotides, des lettres qui se présentent sous la forme A, T, G ou C. L'ADN est le code de programmation de tous les êtres vivants et contient donc les informations nécessaires pour contrôler chaque processus biochimique dans chaque cellule et pour construire toutes ces cellules ensemble en un humain complet, koala, fraise ou séquoia. L'ADN entier, étiré sur environ 2 mètres de long, est replié dans le noyau de chaque cellule de notre corps et est également appelé le « génome ». Environ 5 % du génome contient un code dont nous savons qu'il est directement responsable de la production de protéines. On pense que d'autres éléments jouent un rôle régulateur :combien, où et quand les protéines sont-elles produites. De plus, il y a aussi des pièces dont la fonction est inconnue, ou peut-être qu'il n'y a tout simplement pas de fonction. Une grande partie de notre génome est constituée de petits et de gros morceaux répétitifs :ils se produisent plusieurs fois.
Mais il y a pas mal de variation dans ce génome entre deux personnes. Cette variation survient parce que notre machinerie de copie d'ADN se trompe très rarement, mais ces rares erreurs peuvent ensuite être transmises aux générations suivantes. Il peut également mal tourner lors de la production de cellules sexuelles, lorsque des morceaux d'ADN des parents sont échangés de manière inégale.
Le but de la recherche génétique est dans une épingle montagne à la recherche de cette épingle pointue qui cause la maladie.
Nous détectons ces différences en lisant l'intégralité de l'ADN, un processus appelé « séquençage ». En utilisant différentes méthodes de séquençage (voir ci-dessous), nous avons pu déterminer que l'ADN de deux personnes semble identique à environ 98,5 %, avec environ 4,6 millions de variantes ou un total de 47 millions de lettres différentes. La plupart des différences sont fréquentes dans la population et sont pratiquement inoffensives et sont simplement appelées « variantes » ou « polymorphismes ». Mais de nombreuses maladies sont également génétiques ou héréditaires, que nous appelons « mutations ». Il reste souvent difficile pour ces millions de variantes de déterminer si elles sont nocives ou inoffensives. C'est le but de la recherche génétique :rechercher dans une montagne d'épingles l'épingle qui est pointue et qui cause la maladie.
Pour des raisons techniques, le séquençage de l'ADN n'a pas lieu pour un chromosome complet en un seul morceau, mais en fragments séparés. En 1977, une méthode a été développée dans laquelle ces fragments étaient tous lus un par un, un processus très coûteux et inefficace. C'était un énorme exploit, mais avec ces techniques, le projet du génome humain a été achevé en 2003, dans lequel tous ces fragments ont été mélangés (assemblés) dans le bon ordre pour quelques individus en un génome humain complet, le génome de référence. Une complication dans l'assemblage sont les pièces répétitives du génome, où il n'est pas clair où ces pièces du puzzle s'emboîtent.
Aujourd'hui, après séquençage, les fragments sont comparés au génome de référence pour trouver la bonne place pour chaque fragment, une tâche bioinformatique appelée « alignement ». Dans l'étape suivante, les variants et les mutations peuvent alors être identifiés en recherchant les différences entre les fragments et la référence. En gros, nous pouvons diviser les méthodes de séquençage du génome en séquençage de fragments « courts » et « longs ». Les méthodes de séquençage de fragments courts existent depuis environ 15 ans et sont actuellement les plus couramment utilisées. Avec le séquençage de fragments courts on obtient des fragments très précis de 50 à 250 lettres, mais ceux-ci sont parfois un peu trop courts pour s'aligner exactement avec le génome de référence dans une région répétitive. Le séquençage de fragments longs a été développé plusieurs années plus tard et produit des fragments de 10 000 à 2 millions de lettres. Pour cela, l'alignement, la recherche du bon emplacement dans le génome, est plus simple, également avec des séquences répétitives. Cependant, ces technologies présentent l'inconvénient que dans la détermination des nucléotides, environ 5 à 10 % des lettres sont fausses, ce qui peut compliquer l'identification des variants. Ces méthodes de fragments longs sont encore assez récentes et sont donc beaucoup moins utilisées en recherche génétique et médicale.
La plupart de ces différences ne sont qu'une lettre :des variants à un seul nucléotide (voir, par exemple, la figure 2). Un exemple de maladie génétique causée par une seule variante nucléotidique est la drépanocytose, une forme d'anémie dans laquelle la protéine d'hémoglobine héritée du père et de la mère est défectueuse et ne transporte pas correctement l'oxygène. Avec le séquençage de fragments courts, nous pouvons bien détecter bon nombre de ces variantes de nucléotide unique en raison de la haute qualité des fragments courts. Actuellement, le séquençage de fragments courts a déjà été réalisé pour des centaines de milliers de patients ou de volontaires sains. Pour la recherche génétique, ces ensembles de données sont un énorme pas en avant. Des causes génétiques ont été trouvées pour de nombreuses maladies, ce qui est important pour le diagnostic et le développement de thérapies. Malheureusement, ces chiffres énormes ne suffisent pas à résoudre toutes les maladies héréditaires.
Les soi-disant variantes structurelles sont plus grandes, par définition au moins 50 lettres qui changent de nombre ou d'emplacement, et sont comparativement beaucoup plus rares. Les variantes structurelles se présentent sous différentes odeurs et couleurs, telles que les suppressions, les inversions et les expansions répétées (voir la figure 3). Encore une fois, bon nombre de ces variantes sont inoffensives, mais il y a aussi celles qui entraînent des maladies génétiques. De même, une trisomie, dans laquelle un certain chromosome est trop présent, comme dans la maladie de Down ou la trisomie 21, est un exemple de très grande variante structurelle. Un autre exemple de variante structurelle dommageable est une duplication ou même une triplication de l'ensemble du gène de l'alpha-synucléine, qui amène les personnes atteintes de cette variante à développer la maladie de Parkinson à un très jeune âge.
Il y a deux raisons pour lesquelles ces variantes sont trop grandes pour être trouvées avec des méthodes de séquençage de fragments courts. Souvent, ces variants sont aussi longs ou beaucoup plus longs que les fragments de séquençage, ce qui rend l'alignement et l'appel des variants assez difficiles, et les variants structurels sont fréquents dans les régions répétitives de l'ADN. Du fait de ces séquences répétitives, un alignement correct est difficile voire impossible. Ces problèmes systématiques ont permis à la plupart des variantes structurelles de rester sous le radar pendant des années. Les technologies de séquençage de fragments longs offrent une solution à cela, et avec les dernières méthodes, nous pouvons déterminer qu'environ 25 000 variantes structurelles peuvent être trouvées par personne. Ensemble, cela représente 37 millions de lettres différentes, et de ce fait, ces variantes rares ont également la plus grande influence sur la variation entre deux personnes, et très probablement aussi un rôle dans le développement de maladies. Dans mon projet de recherche, nous recherchons des variantes structurelles jouant un rôle dans les maladies cérébrales neurodégénératives, telles que la maladie d'Alzheimer et la démence frontotemporale. L'application du séquençage de longs fragments à un plus grand nombre d'individus permettra, espérons-le, d'accroître considérablement nos connaissances sur de nombreuses maladies génétiques dans les années à venir.