LA BIO-INFORMATIQUE
des données au sens biologique
LA BIO-INFORMATIQUE
des données au sens biologique
LA BIO-INFORMATIQUE
des données au sens biologique
La bio-informatique, des données au sens biologique
La bio-informatique, des données au sens biologique
Par Margaux Prieux. Publié le 18/11/2022
Margaux Prieux en thèse au CIRI, nous parle de sa double compétence en biologie et bio-informatique développée au cours de son doctorat.
Au cours de mes études de biologie, je me suis spécialisée en génomique. Ce que je n’avais pas prévu en commençant une thèse, c’est que ce domaine requiert des compétences en biologie mais pas seulement. Alors, lorsqu’on me demande sur quel domaine portent mes recherches, je réponds que je suis doctorante biologiste en Immunologie, une discipline qui s’intéresse au système immunitaire, et je dispose également d’une double compétence en bio-informatique. Souvent, les questions qui suivent sont « C’est quoi la bio-informatique ? » et « à quoi ça sert ? ». Moi-même, il y a encore quelques années, j’ignorais en quoi cela consistait et en quoi cela allait devenir un outil indispensable à la biologie.
De la biologie à la découverte de la bio-informatique
Trouver sa voie n’est pas forcément chose facile. J’ai toujours eu l’esprit plus scientifique que littéraire et j’ai été très vite intéressée par les sciences du vivant, qu’on appelle plus globalement la biologie. Au fil des années, j’ai été captivée par les mécanismes de fonctionnement des organismes vivants mais plutôt à l’échelle moléculaire, au niveau de leur génome en particulier.
Le génome, c’est l’ensemble du matériel génétique d’une espèce inscrit dans son ADN (Acide DésoxyriboNucléique). Quant à lui, l’ADN est une longue chaine composée d’une suite de bases nucléiques, représentées par quatre lettres (A, T, G et C), qui regorge d’informations. C’est assez fascinant de savoir qu’on peut y trouver des prédispositions à des pathologies (certains cancers, mucoviscidose, …) mais aussi nos traits physiques ou encore notre origine ethnique. Mais pour dénicher ces informations, il faut pouvoir déterminer la séquence d’ADN (la suite de lettres) en question. C’est ce qu’on appelle le séquençage d’ADN.
Pour cela, les scientifiques utilisent des méthodes de séquençage nouvelle génération (NGS) qui permettent la lecture de milliards de molécules d’ADN en parallèle. On obtient alors des milliards de séquences très courtes (150 lettres environ) qui se retrouvent stockées dans des fichiers informatiques dans un format FASTQ – le type de fichier que vous n’ouvrez pas d’un simple clic sur l’ordinateur. C’est à ce moment que la bio-informatique va nous être utile. Et soit vous faite appel à un bio-informaticien, soit vous êtes curieux et vous vous lancez dans le grand bain.
Et alors la bio-informatique, quèsaco ?
La bio-informatique se définit comme une science se situant au carrefour de l’informatique, des mathématiques et de la biologie. Il s’agit d’analyser et visualiser par informatique les données biologiques obtenues expérimentalement pour leur donner du sens. Pour cela, le bio-informaticien peut à la fois créer ses propres algorithmes (logiciels) ou utiliser ceux déjà existants, développés par d’autres mathématiciens ou bio-informaticiens. Dans les deux cas, on utilise un ou des langages de programmation qu’on peut définir comme un code de communication entre humain et ordinateur. Les langages les plus populaires en bio-informatique sont Python, ou encore R, qui est intégré dans l’environnement (interface) RStudio. La puissance de calcul des ordinateurs actuels nous permet d’exploiter et analyser les fichiers comportant les milliards de séquences d’ADN obtenues après séquençage. Mais concrètement, quelles analyses peut-on faire et à quoi peuvent-elles servir ?
L’utilité de la bio-informatique pour mes recherches
La bio-informatique s’applique aussi bien au domaine de la biologie qu’à l’écologie, ou encore à la paléogénomique, discipline qui a pour but de reconstituer les génomes anciens. D’ailleurs, Svante Pääbo, le suédois pionnier de la paléogénomique, a reçu le prix Nobel de médecine 2022 pour avoir réalisé le séquençage complet du génome de l’homme de Néandertal à partir d’un os retrouvé en Sibérie. Et il a pour cela largement eu recourt à la bio-informatique.
Pour ma thèse de doctorat, je m’intéresse aux lymphocytes T CD8, des cellules dites tueuses qui ont pour fonction de défendre l’organisme lors d’une infection virale ou bactérienne. Une fois l’infection éliminée, une partie de ces lymphocytes persistent et sont capables de répondre rapidement et efficacement en cas de seconde infection par le même pathogène. On appelle ces cellules des lymphocytes mémoires. Ils sont d’une importance cruciale puisqu’ils confèrent une protection efficace et durable à l’hôte. Mais comment et à quel moment de l’infection les cellules décident-elles de devenir mémoires ?
Pour répondre à cette question, je m’intéresse aux gènes (dont l’ADN est le constituant) exprimés par ces lymphocytes T CD8 en réponse à une infection virale et qui pourraient expliquer leur choix de devenir ou non des cellules mémoires. Pour cela, j’utilise d’une part des méthodes de séquençage de l’ADN, d’autre part la bio-informatique pour analyser les données générées et leur donner un sens biologique.
La double compétence : une difficulté ou une force ?
Comme je l’ai dit plus haut, le doctorat permet de devenir expert dans un domaine. Cela nécessite d’ingurgiter beaucoup de connaissances par le biais de la recherche bibliographique, mais également d’acquérir un large panel de compétences. Mon travail est double, et jongler entre la biologie et la bio-informatique n’est pas toujours facile. L’immunologie est un domaine riche, dont l’état des connaissances ne fait que croître rapidement au fil des années.
De l’autre côté, j’ai dû me former à la bio-informatique qui requiert un certain niveau en informatique que je n’avais pas initialement. Qui dit informatique, dit apprentissage de langages qui ont chacun leurs spécificités, leurs règles. J’ai très vite appris qu’en bio-informatique, il faut être rigoureux et attentif. Parfois (voire souvent), mon code ne fonctionnait pas, simplement parce que j’avais oublié ou mal placé une virgule. Et bien sûr, vous pouvez parfois chercher longtemps où est cette petite erreur. Aussi, je ne me considère pas véritablement comme une bio-informaticienne. Même si je comprends plusieurs langages, je ne sais pas les écrire moi-même, et il me manque aussi certaines bases en mathématiques pour pouvoir créer mes propres algorithmes.
En résumé, la bio-informatique est d’une grande utilité, voire indispensable, pour l’analyse de données en biologie. Son essor a notamment permis la découverte de biomarqueurs du cancer, et contribue à la recherche de nouveaux vaccins. Faire de la bio-informatique, c’est être capable d’analyser ses propres données biologiques générées expérimentalement ; c’est être à l’interface entre le biologiste et le bio-informaticien. Je sais parler bio-informatique à un biologiste et inversement, je sais parler biologie à un bio-informaticien. Comprendre la bio-informatique est un véritable atout aujourd’hui même si l’on n’est pas expert. Alors, n’ayez plus peur de la bio-informatique et lancez-vous !
Cet article a été écrit par Margaux Prieux pour Sciences pour tous.
Sa bio
Par mes études et mes stages, je me suis spécialisée dans le domaine de la génomique. C’est au cours de mon stage de master 2 que je me suis initiée à la bio-informatique. Je suis maintenant en 4ème année de thèse au CIRI (Centre Internationale de recherche en Infectiologie) en codirection avec le LBMC (Laboratoire de Biologie et de Modélisation de la Cellule). Ma thèse porte sur l’étude des lymphocytes T CD8 mémoires par des approches à l’échelle de la cellule unique. Le but est de comprendre les mécanismes moléculaires qui contrôle la différenciation et la qualité fonctionnelle de ces lymphocytes mémoires impliquant une part importante d’application bio-informatique.
J’ai vraiment aimé votre publication…. j’ai mieux saisi la spécialité qui m’intéresse.Courage pour la suite !