François Sabot, chercheur à l’IRD de Montpellier, nous parle du riz.
Les scientifiques disposent aujourd’hui d’outils de plus en plus performants pour étudier la diversité des plantes cultivées et notamment celle du riz. Est-ce que vous pouvez nous décrire quels sont ces outils ?
FS : A l’heure actuelle, on dispose de plus en plus d’outils pour étudier la diversité des plantes, d’une part au niveau des plantes entières : on peut observer ce qu’on appelle son phénotype – sa réponse à son environnement, comment est-ce qu’elle va grandir, etc… mais on dispose d’autre part d’énormément de nouveaux outils qui sont apparus non pas pour étudier l’aspect extérieur des plantes mais leur aspect intérieur, donc leur ADN, ce qu’il y a au niveau de leurs cellules. Ceci est obtenu grâce aux nouvelles technologies de séquençage, qu’on appelle les Next Generation Sequencing (NGS) et qui sont apparues dans les 10 dernières années. Ces technologies nous permettent d’avoir accès à énormément de données sur ces plantes. Pour le riz par exemple, il y a 10 ans on n’avait que deux séquences de riz complètes. Pour d’autres individus, seules des informations génétiques ponctuelles étaient disponibles. Aujourd’hui, plus de 3000 génomes de riz ont été séquencés dans leur totalité avec des résultats de très haute qualité.
Qu’apportent ces nouvelles technologies à la recherche sur le riz qui est pourtant déjà très étudié ?
FS : Ces nouvelles technologies permettent un accès à une information beaucoup plus importante et beaucoup plus précise. Comme je le disais, le séquençage des génomes concerne maintenant de nombreuses accessions. L’obtention de ces données est portée par plusieurs gros programmes : le projet 3000 génomes porté par l’IRRI (Institut de recherche International sur le Riz), mais également un projet chinois sur 1500 génomes de riz ou encore un projet conduit dans notre laboratoire sur plus de 400 génomes de riz africain. Ceci permet d’avoir accès à toutes les variations ponctuelles disponibles au sein de chacune des plantes ainsi qu’à tous les gènes de ces plantes. Mais surtout un accès à toutes les grandes variations telles que les recombinaisons, voire les nouveaux gènes parfois non présents dans les génomes de référence. Les deux exemples les plus connus sont Pup1 (Phosphorus uptakes), qui est un gène permettant de résister à un déficit de phosphore dans le sol, un problème important pour la croissance du riz ; et Sub1 (Submergence resistance), qui est un gène de résistance à la submergence, autre grand problème sur le riz dans les pays du Sud. Ces deux gènes n’existent pas dans les génomes de référence du riz et on a pu les découvrir grâce aux nouvelles technologies de séquençage sur des plantes qu’on avait observées comme étant résistantes au manque de phosphore et à la submergence. Cela nous permet aussi d’avoir une idée vraiment globale de l’évolution de ces plantes, beaucoup plus précisément que ce qu’on avait avant, dans la mesure où on peut étudier l’intégralité du génome pour toutes ces plantes et pas seulement des petites fractions.
Avec ce type de technologies, nous sommes en plein dans l’ère des Big Data, c’est à dire des quantités gigantesques de données générées comme vous le décrivez. Comment les scientifiques font-ils pour gérer et exploiter toutes ces données ?
FS : Ces technologies génèrent énormément de données, appelées des Big Data en génomique. A titre de comparaison, elles n’en génèrent pas moins qu’en astronomie – on peut donc dire que ce sont des données astronomiques. L’avantage d’avoir accès à énormément d’informations, est un avantage double car la personne qui génère ces données trouve l’information qu’elle cible, mais d’autres personnes se trouvant à l’extérieur du programme de recherche, comme les chercheurs du Sud par exemple, qui ne peuvent pas nécessairement, pour les raisons de moyens techniques, générer ces données là, peuvent également travailler ces données de façon à en sortir une autre information biologique. L’effet inverse est que ces données sont si conséquentes qu’il est compliqué d’y trouver ce que l’on cherche. On se retrouve avec des fichiers gigantesques, de l’ordre de plus de 50 Giga-octets par individu séquencé pour une information initiale. Une fois la donnée travaillée on peut atteindre des fichiers de 500 Giga-octets. Si on travaille sur plusieurs dizaines voire centaines d’individus, on va vite se retrouver à devoir gérer des centaines de Téraoctets de données. Pour pouvoir gérer ces données, on va devoir passer par la bioinformatique et l’informatique pure et dure. On travaille donc avec des gens qui savent manier ces données et gérer ces quantités de données. On va alors travailler ces données en faisant des filtres au fur et à mesure de façon à pouvoir, à partir d’une information non lisible de manière humaine vu qu’il y a trop de données, obtenir un fichier qui in fine, est humainement lisible, et de données biologiquement valables – car c’est cela qu’il est important de garder à l’esprit – pour répondre à notre question de recherche.