Lorsqu’il a été découvert pour la première fois, le cœlacanthe a suscité beaucoup d’excitation. C’était un exemple vivant d’un groupe de poissons qui était supposé n’exister que sous forme de fossiles. Et pas n’importe quel groupe de poissons. Avec leurs nageoires longues et effilées en forme de tige, les cœlacanthes et leurs congénères sont censés inclure les ancêtres de tous les vertébrés qui ne sont pas des poissons – les tétrapodes, ou les vertébrés à quatre membres. Cela signifie, entre autres choses, nous. Depuis lors, cependant, des preuves ont été accumulées montrant que nous sommes plus étroitement liés aux dipneustes, qui vivent en eau douce et se trouvent en Afrique, en Australie et en Amérique du Sud. Mais les dipneustes sont un peu étranges. Les espèces africaines et sud-américaines ont vu les nageoires semblables à des membres de leurs ancêtres réduites à de fines brins souples. Et obtenir une vision de leur histoire évolutive s’est avéré difficile car ils possèdent les plus grands génomes connus chez les animaux, le génome du dipneuste sud-américain contenant plus de 90 milliards de paires de bases. Cela représente 30 fois la quantité d’ADN que nous avons. Cependant, une nouvelle technologie de séquençage a rendu la résolution de ce genre de défi gérable, et une collaboration internationale a maintenant achevé le plus grand génome jamais réalisé, où toutes les chromosomes, sauf un, contiennent plus d’ADN que celui trouvé dans le génome humain. Le travail indique une histoire où le dipneuste sud-américain a ajouté 3 milliards de bases d’ADN supplémentaires tous les 10 millions d’années au cours des 200 derniers millions d’années, sans pour autant ajouter un nombre significatif de nouveaux gènes. Au lieu de cela, il semble avoir perdu la capacité de contrôler les ADN inutiles. Ce travail a été rendu possible par une technologie génériquement appelée « séquençage à longue lecture. » La plupart des génomes qui ont été achevés ont été réalisés en utilisant des lectures courtes, généralement d’environ 100 à 200 paires de bases. Le secret était de faire suffisamment de séquençage pour que, en moyenne, chaque base dans le génome soit séquencée plusieurs fois. Avec cela, un programme informatique astucieusement conçu pourrait déterminer où deux morceaux de séquence se chevauchaient et enregistrer cela comme une seule séquence plus longue, répétant le processus jusqu’à ce que l’ordinateur crache de longues séquences de bases contiguës. Le problème est que la plupart des espèces non microbiennes ont des étirements de séquence répétée (pensez à des centaines de copies des bases G et A à la suite) qui étaient plus longs que quelques centaines de bases – et des séquences presque identiques se retrouvent à plusieurs endroits du génome. Il serait impossible de les faire correspondre à un emplacement unique, et ainsi le résultat du logiciel d’assemblage du génome aurait beaucoup de lacunes de longueur et de séquence inconnues.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du