Le Biologiste et l'IT : état des lieux

Le Biologiste et l'IT : état des lieux

Public cible : Biologiste, Étudiant, stratège IT de laboratoire

Résumé

  • Le biologiste:
    • est confronté au déluge de données;
    • doit lui même produire, trier et traiter une énorme quantité de données;
  • Les outils IT sont devenus des auxiliaires incontournables;
  • Les compétences IT à acquérir sont toujours plus exigeantes.

Le Biologiste connaît des méthodes de travail chamboulées sur une relative courte période de temps à cause de la quantité de données à intégrer ( Biology’s Big Problem: There’s Too Much Data to Handle).

L’informatisation des laboratoires et le développement des accès aux réseaux de communication permet un accès quasi instantané à l’ensemble de la connaissance. Le tout est porté par le développement de plateformes de consultation de publications et la multiplication de bases de données spécialisées.

Evolution du nombre de Journaux (rouge) / Articles (bleu) indexés par EUROPEPMC

Source : EUROPEPMC (05/2018)

Le biologiste se trouve donc confronté a une masse considérable d’informations de nature multiple qu’il doit pouvoir transformer avant de l’intégrer à ses propres problématiques.

De plus, l’évolution de la démarche scientifique le pousse à augmenter les effectifs de ses jeux de données pour renforcer la puissance des preuves.

Un Biologiste pris dans le déluge de données

Le fonds de données le plus important…

Certaines activités du secteur des Sciences de la Vie (omique, analytique, médecine, …) sont génératrices d’énormes quantités de données. L’omique compte parmi les acteurs les plus importants du phénomène BIG DATA au même titre que l’étude de la physique des particules, les données issues de l’astronomie ou bien générées par les réseaux sociaux:

Domaine Génomique Twitter Youtube Astronomie CERN
Acquisition (/an) 1 ZB 0.5 - 15 G Tweets 500 - 900 M heures 25 ZB ?
Stockage (/an) 2 - 40 EB 1 - 17 PB 1 - 2 EB 1 EB 73 PB

Sources: Big Data: Astronomical or Genomical? // CERN Data Centre passes the 200-petabyte milestone

… et une croissance en accélération constante

Les progrès continus de l’ingénierie et des méthodes permettent d’avoir un accès toujours plus détaillé aux phénomènes, aux structures et à leurs dynamiques. A cela s’ajoute les possibilités d’études multi-omics par superposition des couches de données et leurs éventuels suivis dans le temps. Au final cela se traduit par une augmentation considérable du nombre de variables suivies et une accélération exponentielle de la masse d’information qui leur est associée car ce qui était est l’exception il y a moins de 20 ans est quasiment réalisé de manière routinière aujourd’hui:

Evolution du nombre de génomes humain séquencés

Source: Big Data: Astronomical or Genomical?

L’IT en renfort

d’abord pour s’informer…

Les méthodes d’interrogation pour chercher des données déjà publiées sont diverses. Parmi elles on peut retenir :

  1. Les moteurs de recherche spécialisés: C’est le mode le plus utilisé car le plus accessible et le plus intuitif. Ce mode d’interrogation est calqué sur celui des moteurs de recherche traditionnels. L’utilisation d’une syntaxe avancée et de filtres permet une flexibilité sur la restriction des résultats obtenus.

  2. Les langages de bases de données: Certaines données mises à disposition mais ne sont accessibles qu’à travers des bases de données. Pour avoir accès à ces données, il est nécessaire d’utiliser les langages de bases de données (SQL, noSQL, SPARQL…).

  3. Les APIs: Les données sont entreposées dans des dépôts. Les propriétaires fournissent des moyens d’accéder aux données par des “APIs”, sorte de boîtes noires, qui permettent d’obtenir les informations sans avoir à se préoccuper de la manière dont les informations ont été stockées par l’auteur dans ses fichiers orignaux.

Ces deux derniers modes prennent tout leur sens lorsqu’ils sont manipulés par un langage informatique qui permet à l’utilisateur d’inclure une automatisation des recherches ainsi qu’une éventuelle transformation des résultats.

… puis pour créer

L’équipement des structures permet progressivement de gagner en productivité:

  1. années 1980 : Bureautique pour récoltes et analyse des données, manuelle puis automatique; parallèlement appropriation de méthodes liées à la mise en oeuvre facilité de méthodes mathématiques de statistiques et de modélisation;

  2. années 1990 : Pilotage des expérimentations et du matériel par l’automatisation et la robotisation (précision et reproductibilité);

  3. années 1995 - 2005 : Rationalisation et ère pré-NGS en amorce du déluge de données, notamment par l’analyse des puces à ADN et l’explosion de l’utilisation des solutions de traitement statistique;

  4. années 2010 : Avènement des NGS; développement des méthodologies de traitement de données et de la puissance du matériel pour digérer les données anciennes et nouvellement, globaliser les systèmes de modélisation in silico;

  5. actuellement : Assistances IA pour faciliter l’exploitation de l’ensemble des données issues des avancées précédentes.

Des difficultés pour l’utilisateur

Le Biologiste rencontre des difficultés d’intégration efficace de la chaîne IT dans son processus de recherche. Les causes sont multiples:

  • décentralisation très marquées des sources de données;
  • mode d’utilisation parfois peu trivial;
  • formats de représentation des données hétérogènes, pléthoriques souvent peu standardisés;
  • complexité / absence de mise en oeuvre d’interfaçage des différentes solutions;
  • barrière du jargon technique IT;
  • rapidité d’évolution des solutions;

La survenue de difficultés est certaine lors de la mise en oeuvre des stratégies. Le Biologiste doit pouvoir se faire aider dans ses démarches. Un référent spécialiste sensibilisé à aux thématiques de recherche ou bien des communautés en ligne peuvent être de solides auxiliaires…

AU FINAL

Le Biologiste doit se mettre dans une logique d’utilisation toujours plus sophistiquée de l’ IT pour exploiter au mieux le potentiel de la matière et du matériel dont il dispose. Cela sous entend souvent l’acquisition de compétences IT avancées et l’assistance de spécialistes de l’IT.

Avatar
WPdrx
Physiologiste Bioinformaticien
Suivant
Précédent