Les sources d’ADN
Avant le séquençage, il était nécessaire de rechercher des donateurs volontaires d’ADN. Plusieurs procédures ont été faites afin d’assurer la confidentialité et la protection du droit à la vie privée des volontaires.
L’ADN de cinq volontaires a été retenu : deux hommes et trois femmes d’origines variées. Un volontaire était Africain-Américain, un Chinois-Asiatique, un Mexicain-Hispanique, et deux Caucasiens. Le choix des volontaires s’est fait à partir de multiples critères dont leur origine afin d’atteindre diversité génétique et qualité des banques d’ADN.
Environ 130 ml de sang a été prélevé chez les femmes. Chez les hommes en plus des mêmes quantités de sang, on a prélevé cinq échantillons de sperme sur une période de six semaines.
Les méthodes de séquençage
Dans un premier temps, pour la méthode de séquençage shotgun [1], la banque de plasmides a été constituée. Cette banque, afin de reconstruire précisément la séquence du génome, doit être uniforme en taille, chimérique, et doit représenter aléatoirement le génome.
Dans un second temps, la recherche de beaucoup d’informations sur la séquence s’est faite par séquençage informatique et automatisé d’ADN.
Le séquençage et la recherche par les deux extrêmités de clones de plasmides ont été nécessaires pour l’estimation de la reconstruction du génome. Les chercheurs ont ainsi prouvé une précision de 98% pour les appariements.

Flow diagram for sequencing pipeline. Samples are received, selected, and processed in compliance with standard operating procedures, with a focus on quality within and across departments. Each process has defined inputs and outputs with the capability to exchange samples and data with both internal and external entities according to defined quality guidelines.
Pour l’assemblage du génome, deux méthodes ont été utilisées.
La première est une combinaison informatique de toutes les lectures de séquence, avec des fragments d’information de la GenBank, afin de générer une vue d’ensemble indépendante et non-biaisée du génome.
La seconde est le regroupement de tous les fragments avec une région ou un chromosome grâce à des informations concernant la cartographie du génome. L’information regroupée ainsi a été ensuite fragmentée et réassemblée avec des moyens informatiques.
Ces deux méthodes ont abouti pratiquement au même assemblage pour la séquence d’ADN. La deuxième méthode a permis d’obtenir une séquence plus complète avec moins de lacunes et a été utilisée pour la phase d’analyse.

Architecture of Celera’s two-pronged assembly strategy. Each oval denotes a computation process performing the function indicated by its label, with the labels on arcs between ovals describing the nature of the objects produced and/or consumed by a process. Copyright © 2002 by The American Association for the Advancement of Science. All rights reserved.
Afin d’énumérer les gènes, l’approche “Otto” a été utilisée. Cette méthode est un algorithme de prédiction de gènes. Elle est basée sur :
la comparaison de la séquence identifiée avec des régions conservées entre la souris et l’homme,
les similitudes entre la séquence et les EST ou d’autres informations dérivées d’ARNm,
et les similtudes avec des protéines.
La méthode Otto est très sensible et spécifique dans la définition de la structure des gènes.
26 383 gènes ont ainsi pu être répertoriés et ont été utilisés pour des analyses ultérieures.
Afin de caractériser la structure des gènes et d’améliorer cette étude informatique initiale, d’autres méthodes manuelles seront utilisées.
Numbers of exons and transcripts supported by various types of evidence for Otto and de novo gene prediction methods.
Total |
Types of evidence |
No. of lines of evidence [2] |
||||||||
Mouse |
Rodent |
Protein |
Human |
>=1 |
>=2 |
>=3 |
>=4 |
|||
Otto |
Number of transcripts |
17,969 |
17,065 |
14,881 | 15,477 |
16,374 |
17,968 |
17,501 |
15,877 |
12,451 |
Number of exons |
141,218 |
111,174 | 89,569 |
108,431 |
118,869 |
140,710 |
127,955 | 99,574 |
59,804 |
|
De novo |
Number of transcripts |
58,032 |
14,463 |
5,094 |
8,043 |
9,220 |
21,350 |
8,619 |
4,947 |
1,904 |
Number of exons |
319,935 |
48,594 | 19,344 |
26,264 |
40,104 |
79,148 |
31,130 |
17,508 |
6,520 |
|
No. of exons per transcript |
Otto |
7.84 |
5.77 |
6.01 |
6.99 |
7.24 |
7.81 |
7.19 |
6.00 |
4.28 |
De novo |
5.53 |
3.17 |
3.80 |
3.27 |
4.36 |
3.7 |
3.56 |
3.42 |
3.16 |
|
De nombreuses régions non-codantes dans la séquence assemblée ont été découvertes ainsi que leurs corrélations avec la séquence prédite.
La proportion en G+C, la densité génique dans les plans cytogénétiques, les îles CpG et les éléments répétitifs du génome ont aussi été analysés.

Relation between G+C content and gene density. The blue bars show the percent of the genome (in 50-kbp windows) with the indicated G+C content. The percent of the total number of genes associated with each G+C bin is represented by the yellow bars. The graph shows that about 5% of the genome has a G+C content of between 50 and 55%, but that this portion contains nearly 15% of the genes. Copyright © 2002 by The American Association for the Advancement of Science. All rights reserved.
La nature dynamique du génome peut être analysée à plusieurs niveaux : les duplications de gènes grâce aux intermédiaires ARN (retransposition) et les duplications de segments géniques. Les chercheurs se sont concentrés sur les retranspositions générant des gènes fonctionnels (paralogues sans introns) ou inactifs (pseudogènes). Les gènes qui sont impliqués dans les processus translationnels et dans la régulation nucléique regroupent près de 50% de tous les paralogues sans introns et les pseudogènes recensés dans cette étude.
L’étendue de la duplication de segments génomiques a aussi été cataloguée et les chercheurs ont prouvé qu’il y avait 1077 blocs dupliqués, ce qui couvre 3522 gènes distincts.
| Genome overview | |||
| Size of the genome (including gaps) | 2.91 Gbp | Size of the genome (excluding gaps) | 2.66 Gbp |
| Longest contig | 1.99 Mbp | Longest scaffold | 14.4 Mbp |
| Percent of A+T in the genome | 54 | Percent of G+C in the genome | 38 |
| Percent of undetermined bases in the genome | 9 | Most GC-rich 50 kb | Chr. 2 (66%) |
| Least GC-rich 50 kb | Chr. X (25%) | Percent of genome classified as repeats | 35 |
| Number of annotated genes | 26,383 | Percent of annotated genes with unknown function | 42 |
| Number of genes (hypothetical and annotated) | 39,114 | Percent of hypothetical and annotated genes with unknown function | 59 |
| Gene with the most exons | Titin (234 exons) | Average gene size | 27 kbp |
| Most gene-rich chromosome | Chr. 19 (23 genes/Mb) | Least gene-rich chromosomes | Chr. 13 (5 genes/Mb), Chr. Y (5 genes/Mb) |
| Total size of gene deserts (>500 kb with no annotated genes) | 605 Mbp | Percent of base pairs spanned by genes | 25.5 to 37.8 [3] |
| Percent of base pairs spanned by exons | 1.1 to 1.4 [3] | Percent of base pairs spanned by introns | 24.4 to 36.4 [3] |
| Percent of base pairs in intergenic DNA | 74.5 to 63.6 [3] | Chromosome with highest proportion of DNA in annotated exons | Chr. 19 (9.33) |
| Chromosome with lowest proportion of DNA in annotated exons | Chr. Y (0.36) | Longest intergenic region between annotated + hypothetical genes) | Chr. 13 (3,038,416 bp) |
| Rate of SNP variation | 1/1250 bp |
Des méthodes informatiques ont été utilisées pour identifier les polymorphismes de nucléotides simples (SNP) en comparant la séquence Celera avec d’autres sources de SNP. Le taux de SNP entre deux chromosomes était d’environ 1 pour 1200 pour 1500 bp.
Les SNP ne sont pas distribués au hasard dans le génome. Seule une petite proportion des SNP (<1%) pourrait avoir un impact sur les fonctions des protéines. On estime ainsi que seulement des milliers de variations génétiques et non des millions existent et qui contribueraient à la diversité structurale des protéines humaines.

Une analyse informatique initiale de la séquence protéique prédite a été faite dans le but de cataloguer les différences et les similitudes majeures en comparant le génome humain avec d’autres séquences de génomes eucaryotes.
Plus de 40% de la séquence protéique prédite ne peut être attribué à une fonction moléculaire par les méthodes affectant les protéines à des familles déjà connues. Une analyse basée sur les domaines protéiques permet d’obtenir un catalogue détaillé de toutes les différences majeures entre le génome humain et celui de la mouche ou du vers. Les principales différences se situent au niveau des domaines de régulation du développement et de processus cellulaires comme la fonction neuronale, l’hémostasie, les réponses immunitaires spécifiques et la complexité cytosquelettique.
L’énumération finale des familles protéiques et les détails des structures des protéines sera faite ultérieurement et par expérimentation manuelle.

La méthode de séquençage shotgun est fiable pour les génomes qui ont une taille de l’ordre du mégabase.
Le nombre de gènes chez l’homme est bien inférieur au nombre estimé au préalable : 26 000 à 38 000 contre 50 000 à plus de 140 000.
Le génome humain est le premier génome d’eucaryote pour lequel une vérification presque complète du polymorphisme a été faite. Les chercheurs ont identifié et localisé plus de 3 millions de SNP mais le catalogue des SNP n’est pas terminé. Ceci permet tout de même de révéler les fortes hétérogénéités dans la distribution des SNP dans le génome.
La prochaine étape après le séquençage, est de pouvoir enfin comprendre la complexité des mécanismes du génome humain.
Source : http://www.inapg.inra.fr/ens_rech/b...
[2] Four kinds of evidence (conservation in 3× mouse genomic DNA, similarity to human EST or cDNA, similarity to rodent EST or cDNA, and similarity to known proteins) were considered to support gene predictions from the different methods. The use of evidence is quite liberal, requiring only a partial match to a single exon of predicted transcript. This number includes alternative splice forms of 17,764 genes.
[3] In these ranges, the percentages correspond to the annotated gene set (26, 383 genes) and the hypothetical + annotated gene set (39,114 genes), respectively.