Sacha Schutz

Transférer un fichier via une fontaine de QR code

2024-10-28T19:30:31+01:00

Serait-il possible d’envoyer un fichier de 10 Mo en utilisant uniquement des QR codes ? C’est la question que je me suis posé lorsque l’on m’a affirmé qu’il était impossible d'extraire des données d’une instance Jupyter fonctionnant dans un bureau virtuel.

Dans cet genre d'environnement, un data scientist est censé pouvoir effectuer des analyses, mais il lui est impossible de récupérer les données. Cependant, les données affichées à l’écran transitent forcément par la carte graphique de l’utilisateur, ce qui signifie qu’un pirate pourrait potentiellement récupérer l’intégralité d’un fichier volumineux en réalisant simplement des captures d’écran.

J’ai donc voulu tester cette théorie en tentant de transférer un fichier de 10 Mo à partir d’une séquence vidéo de QR codes, générée grâce à un algorithme particulièrement ingénieux : le code fontaine de Luby.

Encoder des données dans un QR Code

La capacité de stockage d’un QR code varie en fonction de sa version et de son niveau de correction d'erreur. Dans le meilleur des cas, un QR code en version 40 (177 x 177) avec un niveau de correction d'erreur faible (7 %) peut stocker jusqu’à 2 953 octets. Nous sommes encore loin des 10 Mo souhaités. Pour y remédier, il est donc nécessaire de générer plusieurs QR codes, que l’on pourra transmettre en masse dans un flux en stream ou via une vidéo.

Supposons que je génère 30 QR codes par seconde ; je pourrais ainsi récupérer des données à une vitesse de 480 Kbits/s (2 000 octets * 30 * 8 * 10⁻³). On est certes loin des vitesses de la fibre optique, mais au-dessus des performances d’un modem 56K.

Animation à 30 frame par secondes de plusieurs QR code en version 40 encodant un fichier de 100 Ko.

Utilisation du code fontaine

Plaçons-nous maintenant du côté du récepteur. En principe, il suffirait de faire des captures d’écran toutes les 4 ms pour décoder chaque QR code dans le bon ordre. Mais en pratique, il est très probable que certains QR codes soient manqués. Dans les protocoles classiques de communication réseau bidirectionnelle, comme TCP, chaque capture ou paquet doit être confirmé par le récepteur avant d’envoyer le suivant. Ici, ce n’est pas envisageable, car notre communication est unidirectionnelle : nous ne faisons qu’écouter.

Une solution pourrait consister à demander à l'émetteur de répéter son message en boucle. Cependant, attendre un cycle complet pour récupérer un seul paquet manqué serait inefficace.

La solution réside dans l'utilisation d'un code fontaine qui génère des paquets de données aléatoires, étiquetés, qui sont émis continuellement comme une fontaine de paquets. Le récepteur n’a alors qu’à collecter les paquets dans le désordre et les réassembler.

Il existe une implémentation de code fontaine très efficace, appelée transformation de Luby (ou code LT), que nous allons utiliser. Voici comment elle fonctionne.

Fonctionnement de l'algorithme de Luby

Un code LT fonctionne de la façon suivante:

Emetteur

Le message à transmettre est d'abord découpé en plusieurs blocs source de même taille.
Un tirage aléatoire est ensuite effectué pour sélectionner N blocs source.
La valeur de N est choisie selon une distribution de Soliton (voir graphique ci-dessous).
Ces N blocs source sont combinés à l’aide de l’opérateur XOR pour former un seul bloc encodé.
Ce bloc encodé est ensuite transmis au récepteur avec un identifiant précisant le nombre de blocs source qu’il contient.
Dans notre cas, ce bloc est transféré via un QR code, les 12 premiers octets étant réservés pour l’identifiant.

Distribution de Soliton utilisé pour choisir le nombre de bloc source à combiner. Notez qu'il y aura principalement des combinaisons de 2 blocs et plus rarement des blocs seuls.

Recepteur

Le récepteur collecte les paquets encodés en scannant les QR codes.
Si un paquet est composé d’un seul bloc source, il le stocke directement.
Si un paquet est composé de 2 blocs source, il applique un XOR avec un des paquets déjà reçus pour reconstruire le second bloc source.
Il poursuit de cette manière avec les paquets contenant 3, 4 ... blocs
Une fois tous les paquets reçus et reconstruits, il les remet dans l’ordre pour reconstruire le message original.

En combinant les blocs avec un XOR, on peut transmettre statistiquement beaucoup moins de blocs que la méthode naïve, qui consisterait à les envoyer un par un.

Une implémentation de cet algorithme est disponible dans la bibliothèque lt-code en Python.

Implementation en python

Avec tous ces éléments, j'ai développé une petite librarie disponnible sur Github appelée qrfontain qui permet de transférer des données via une flux de QR codes.

Pour emettre un fichier

import qrfontain 

with open("big.txt", "rb") as file:

  for image in qrfontain.data_to_qrcode(file):
    display(image)

Pour recevoir un fichier

import qrfontain 

with open("output.txt", "wb") as file:

  # Get QR Code images 
  data = qrfontain.data_from_qrcode(image_generator)
  file.write(data)

Experience

Pour l'expérience, j'ai créé trois fichiers de tailles différentes (100 Ko, 1 Mo et 10 Mo) que j'ai encodés dans une vidéo de QR codes à 30 images par seconde. Pour le décodage, j'ai développé une interface graphique en Qt capable de capturer des QR codes à 60 fps. J'utilise QScreen.grabWindow pour prendre des captures d'écran et zbarlight pour la détection des QR codes. L'application permet de sélectionner une région de l’écran via un carré transparent pour capturer les QR codes et récupérer les données transmises. Voir la vidéo ci-dessous. C'est assez satisfaisant, on a l'impression de récupérer un signal radio extra-terreste.

Resultats

Et voilà les temps de téléchargement pour 3 fichiers de tailles différentes :

0.1 Mo : 9446 ms
1 Mo : 50464 ms
10 Mo : 466420 ms

Il me faut donc 7 minutes pour télécharger un fichier de 10 Mo. La relation est linéaire avec une vitesse avoisinant les 180 kbits/s soit 3 fois plus rapide qu'un modem 56K.

Conclusion

Avec un peu plus d'effort, je pense qu'il serait facile de transmettre des données plus rapidement.
Nous pourions par exemple jouer avec le framerate ou en parallelisant avec plusieurs QR code.
Après nous serons toujours limités par la bande passante et le taux de rafraichissement d'une image.

J'avais au début envisagé de transmettre les données en utilisant les pixels et les couleurs d'une image. Cependant, il est très difficile de récupérer les informations de manière fiable à partir d'une capture d'écran. L'antialiasing et les transformations de rendu déforment les données encodées, rendant leur décodage impraticable. Si vous avez d'autres idées, n’hésitez pas à les partager dans les commentaires !

Reference

qrfontain: Ma petite librarie python
divan.dev : Fountain codes and animated QR
Nick's Blog : Damn Cool Algorithms: Fontain Codes
qram : Autre implementation Javascript
txqr: Autre implementation en Go

Code d'erreur de Reed-Solomon

2024-09-30T19:30:31+02:00

Le code de Reed-Solomon est un algorithme conçu pour corriger des erreurs dans une séquence de données en utilisant des symboles supplémentaires. C'est un système de correction d'erreurs utilisé par exemple pour lire vos vieux CD-ROM rayés.
Pour mieux comprendre, imaginez que je vous transmets lettre par lettre le mot c-h-a-t, mais que la troisième lettre se corrompt en chemin pour devenir c-h-x-t. Vous ne pourrez pas interpréter le message correctement. Cependant, en ajoutant un symbole supplémentaire à mon message, par exemple c-h-a-t-y, vous allez pouvoir identifier et corriger un erreur peut importe ou elle se trouve grâce au code de Reed-Solomon.

Nous allons donc explorer le fonctionnement de cet algorithme à travers l'exemple du mot c-h-a-t et voir comment réaliser cette operation avec notre language préféré Python.

Representation du mot chat dans un espace discret

Tout d'abord, representons les lettres du mot chat sur un graphique où l'axe des ordonnées indique la position de chaque lettre dans l'alphabet, tandis que l'axe des abscisses correspond à leur position dans le mot. Par exemple, le C est la première lettre du mot chat et la troisième lettre de l'alphabet, donc ses coordonnées seront (0, 2). De même, nous aurons H (1, 7), A (2, 0) et T (3, 19).

Representation du mot chat dans un espace ou l'axe X represente la position d'une lettre dans le mot et l'axe Y la position de la lettre dans l'alphabet. L'index des positions commence à zero.

Deux éléments importants à comprendre concernant ce graphique. Tout d'abord, le domaine des valeurs est discret. En effet, les positions sont des nombres entiers, car il est impossible d'avoir une position comme 1,5. Ensuite, observez la borne supérieure de l'axe des ordonnées, qui est égale à 26. Cela correspond au nombre de lettres dans l'alphabet. Nous verrons plus tard, que nous pouvons utiliser l'algèbre modulaire pour avoir une lettre à la position 27.

Interpolation lagrangienne

Maintenant trouvons une fonction mathématique qui passe par ces quatre points. Plus précisément, nous allons rechercher un polynôme de degré 3 (correspondant au nombre de lettres moins un) en effectuant une interpolation Lagrangienne. Cette méthode est relativement simple à comprendre, et je vous invite à l'explorer par vous-même. Nous réaliserons cette interpolation directement en Python en utilisant scipy.interpolate.lagrange.

from scipy.interpolate import lagrange

x = [0,1,2,3]
y = [2,7,0,19]
polynome = lagrange(x,y)

polynome(4)

Nous obtenons alors le graphique suivant:

Polynome de degré 3 passant par les 4 points. Ce polynome a été obtenu grâce à une interpolation lagrangienne.

Il est important de comprendre que ce polynôme est unique. Il n'y a qu'un seul polynome de degré 3 qui passe par ces 4 points. Si vous connaissez au minimum 3 points vous pouvez déduire le polynome de degré 4 et prédire n'importe quel point manquant. C'est sur ce principe que se base la correction d'erreur de Reed-solomon. Vous allez utiliser suffisament de symboles surnuméraires pour prédire le polynome et par conséquence prédire les symboles pour n'importe quelles positions.

Ajout du symbole de correction

Pour déterminer le symbole de correction à utiliser à la cinquième position du mot, il suffit de calculer polynome(4) = 102. Ainsi, le symbole de de correction à utilisé est la 102ème lettre de l'alphabet. Mais attendez, il n'y a que 26 lettres dans l'alphabet ! En effet, ce que je vous ai dit n'est pas tout à fait exact. En réalité, le polynôme de Lagrange est recherché dans un espace de Galois où l'arithmétique modulaire s'applique. Imaginez que l'alphabet est disposé en cercle : après la lettre Z, vous revenez à la lettre A et recommencer le comptage. Dans cette espace tous les opérateurs mathématiques sont respectés. Z + 3 = C par exemple. Ainsi, la 102ème lettre de l'alphabet est la lettre Y.

Il suffit d'utiliser le polynome pour identifier le symbole de correction d'erreur. Sur les 5 points representés, seul 4 sont nécessaires pour trouver le polynôme.

Vous pouvez ajouter autant de symboles de correction d'erreur que vous le souhaitez. Pour un mot de N lettres avec un seul symbole de correction d'erreur, vous devez connaître N-1 symboles pour valider le code de Reed-Solomon. Si vous ajoutez trois symboles, cela signifie que vous pouvez perdre jusqu'à trois symboles et les retrouver.

En pratique

En pratique, vous pouvez utiliser la bibliothèque Python reedsolo, disponible sur PyPI, pour encoder une chaine de caractères. Par exemple, pour encoder le mot hello en utilisant 10 symboles de correction d'erreurs :

from reedsolo import RSCodec
rsc = RSCodec(10)
message = rsc.encode(b'hello')  
print(message)   # bytearray(b'hello\xec\x8e')

# Alteration du message 
message[0] = 0
message[2] = 0 

# Retrouver le message original 
correction , _, _= rsc.decode(message)
print(correction) # bytearray(b(hello))

Conclusion

Le code de correction d'erreur Reed-Solomon est remarquable pour sa capacité à corriger et à identifier des erreurs, peu importe leurs positions dans le message. Vous trouverez également d'autres codes correcteurs, tels que le code de Hamming et le code de Golay, chacun ayant ses propres avantages et inconvénients.

PS : J'ai changé le backend de mon blog. Je vais essayer de publier plus court mais beaucoup plus chaque semaine dans des domaines plus datascience/info et moins bioinfo. Donc lachez des commentaires pour me motiver.

Références

Biowasm: Vos outils bioinformatiques sur une page web static

2024-09-22T19:30:31+02:00

Récemment, une collègue m'a fait découvrir Biowasm. C'est une collection d'outils bioinformatiques bien connus, compilés en WebAssembly. Concrètement, cela signifie que nous pouvons créer des interfaces graphiques pour nos collègues non-spécialistes en bioinformatique, directement sur une simple page web statique, sans avoir besoin de serveur. Et Justement, un biologiste m'a demandé s'il était possible de générer un fichier FASTQ réduit, autrement dit de faire un échantillonnage aléatoire (downsampling). C'était donc une excellente occasion de tester Biowasm en construisant une page web qui fait le travail.

Créer la page web static

L'interface graphique se résume à l'essentiel : un bouton pour charger le fichier FASTQ, un champ pour saisir le nombre de reads souhaités, et un gros bouton pour lancer la transformation. Impossible de faire plus simple ! J'ai construit cette interface en HTML pur, en utilisant la bibliothèque CSS PicoCSS. Pour être honnête, je n'ai pas trop aimé coder tout ça à la main. Après avoir gouté à plusieurs frameworks web, et à TailwindCSS, c'était laborieux. Mais pour ce projet simple, ça faisait largement l'affaire. Pour ceux qui sont allergique au HTML, je recommande de jeter un œil à Dominate, un outil qui permet de générer du HTML directement en Python. C'est même moins verbeux que le HTML classique, et personnellement, je trouve ça génial !

Utilisation de biowasm

Biowasm est distribué via une bibliothèque JavaScript appelée Aioli, qui vous permet d'exécuter divers outils bioinformatiques en seulement quelques lignes de code. Actuellement, il s'agit principalement d'applications écrites en C/C++, telles que samtools, bedtools et bwa. Vous pouvez consulter la liste complète des outils disponibles ici.

Par exemple, pour exécuter bedtools, il vous suffit d'ajouter ce code à votre page HTML :

<script src="https://biowasm.com/cdn/v3/aioli.js"></script>
<script type="module">
const CLI = await new Aioli(["bedtools/2.31.0"]);

const output = await CLI.exec(`bedtools --version`);


</script>

Incroyable, non ? En plus, Aioli propose une API qui permet de gérer un système de fichiers virtuel local. Comme vous le savez, un navigateur ne peut pas accéder directement à votre système de fichiers pour des raisons évidentes de sécurité. Vous vous demandez sûrement comment peut on alors charger de gros fichiers, comme un fichier BAM ?

Eh bien, c’est possible ! Le système de fichiers virtuel ne fait que pointer vers votre fichier réel, sans le charger intégralement en mémoire. Cependant, il y a une limitation : la sortie que vous générez doit elle être entièrement stockée en mémoire avant d'être téléchargée sous forme de fichier. Cela pose problème si vous devez générer un fichier de 100 Go alors que votre machine ne dispose que de 8 Go de RAM.

Bioweb : Fastq sampling

J'ai donc mis tout cela en pratique en créant une page web statique permettant de réaliser le downsampling d'un fichier FASTQ avec seqtk et sa commande seqtk sample. Je l'ai publié sur une page github disponnible ici Cet exemple est particulièrement intéressant car il implique la gestion du chargement d'un fichier FASTQ ainsi que la sauvegarde du fichier généré. Le processus fonctionne plutôt bien. J'ai testé avec un fichier FASTQ de 5 Go : c'était un peu long, mais j'ai obtenu le résultat en moins d'une minute.

Conclusion

Biowasm est un outil très pratique qui vous permet de déployer rapidement de petits outils bioinformatiques pour vos biologistes, sans avoir besoin de serveur. Il est extrêmement simple à utiliser, bien que probablement limité pour des tâches plus complexes ou pour l'exécution de pipelines plus lourds. Ironiquement, la partie la plus difficile de ce projet a été... de personnaliser le bouton "upload" du formulaire. D'ailleurs je n'ai pas reussi, question de sécurité.
Si vous aussi vous voulez faire un outil, hesitez pas à l'ajouter sur mon repo via une pull-request.

PS : Dites bonjour dans les commentaires, cela me motivera pour publier plus !

Remerciements

Merci à @lourdes pour la découverte

Exploiter des fichiers parquets avec Pola.rs et DuckDB

2023-03-12T19:30:31+01:00

Cela fait un bon moment que j'entends parler des fichiers Parquet. Un format binaire beaucoup plus léger que les fichiers CSV pour le stockage des tableaux de données.
Lorsque j'ai vu pour la première fois un collègue faire une requête SQL quasi instantanée sur des millions des lignes répartis sur différents fichiers parquets, je me suis dit les yeux grands écarquillés, que c'était peut être un peu plus que ça. En effet, aujourd'hui le format parquet est utilisé en big data pour stocker et interroger de façon efficace des données volumineuses grâce à un modèle orienté colonne basé sur Apache Arrow que je décrirai juste après. À cela, s'ajoutent de nouveaux outils en Python pour pouvoir manipuler et interroger ces fichiers.

Dans ce billet de blog, je vous propose d'utiliser pola.rs et duckDB, pour explorer les données d'un fichier VCF volumineux provenant de 1000genomes.

Architecture d'un fichier parquet

Base de données orientée colonnes

Les bases de données classiques ( MYSQL, SQLite, Oracle... ) sont des architectures orientées en ligne. C'est-à-dire que les lignes d'une table sont sauvegardées de manière contiguë en mémoire. Cela permet d'insérer ou de supprimer facilement des enregistrements. Revers de la médaille, il est plus coûteux de faire du calcul sur une colonne entière, car cela nécessite de parcourir l'ensemble des lignes. Ces bases de données sont optimisées pour le transactionnel et sont utilisées pour des systèmes OLTP (OnLine Transactional Processing), par exemple une base de données de production gérant des utilisateurs.
Dans un fichier parquet, ce sont les colonnes qui sont sauvegardées de manière contiguë en mémoire. Ceci permet de faire des opérations de façon très efficace sur les colonnes au détriment des opérations transactionnelles. Cette architecture est très performante pour des systèmes OLAP (OnLine Analytical Processing). Par exemple un entrepôt de données destiné à être lu uniquement.

À gauche, un tableau de donnée. En haut à droite, la représentation en mémoire du tableau orienté ligne. En bas à droite, la représentation orientée colonne. source

Apache Arrow

Apache Arrow est un format standard de donnée orienté colonne pour la mémoire vive. C'est-à-dire qu'il décrit, indépendamment du langage de programmation,comment représenter un tableau dans votre RAM. Par exemple, si vous manipulez les mêmes données stockées dans un DataFrame Python ou un DataFrame R, la structure mémoire sous-jacente sera la même. Autrement dit, vous allez pouvoir transférer un DataFrame Python vers un DataFrame R, sans faire la moindre copie ou transformation. Et lorsque l'on travaille avec beaucoup de données, cela est loin d'être négligeable.
Le format parquet développé par Apache, est entièrement compatible avec Arrow. La sérialisation et la déserialisation d'un DataFrame, c'est à dire l'écriture et la lecture d'un fichier parquet sera très performante avec un minimum de transformation.

Sans Arrow, il est nécessaire de faire des conversions et des copies coûteuses entre les différentes sources de données. Le format mémoire agnostique d'Apache Arrow permet d'éviter toutes ces opérations coûteuses sources.

Du VCF au parquet avec polars

Pour lire et écrire des fichiers parquet avec Python, vous pouvez utiliser la libraire pandas. Cependant, pandas n'est pas basée sur Arrow et reste très lente pour manipuler de gros volumes de données. Nous utiliserons ici les performances quasi magiques de la libraire pola.rs pour transformer un fichier VCF en fichier parquet.

Pola.rs est écrit en Rust, est compatible avec Arrow, supporte nativement le multithreading et propose une Lazy évaluation des transformations. Je vous invite à jeter un œil sur la documentation Python pour vous familiariser avec l'API qui diffère de celle de pandas.

Téléchargement du fichier VCF

Téléchargeons un fichier VCF provenant du projet 1000Genomes et décompressez-le. Nous allons lire le fichier VCF comme un fichier CSV en mode Lazy. Ce dernier mode ne fonctionne pas encore pour les fichiers compressés.

# Téléchargement
wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000_genomes_project/release/20190312_biallelic_SNV_and_INDEL/ALL.wgs.shapeit2_integrated_snvindels_v2a.GRCh38.27022019.sites.vcf.gz

# Decompression
gzip -d ALL.wgs.shapeit2_integrated_snvindels_v2a.GRCh38.27022019.sites.vcf.gz

Création du fichier parquet avec pola.rs

Après avoir installé pola.rs via:

pip install pola.rs

Lisez le fichier VCF comme un CSV avec pl.scan_csv
Sélectionner les colonnes CHROM, POS, REF, ALT
Écrire le fichier variants.parquet avec sink_parquet

import pola.rs
pl.scan_csv(
    "ALL.wgs.shapeit2_integrated_snvindels_v2a.GRCh38.27022019.sites.vcf",
    skip_rows=40,                       # Je saute les 40 premieres lignes de commentaires
    sep="\t",                           # Séparateur TSV
    dtypes={"#CHROM": pl.Utf8},         # Je précise le type, sinon la colonne est considérée comme un int
).select([                              # Je sélectionne les colonnes souhaitées
    pl.col("#CHROM").alias("CHROM"),    # Je renomme ici la colonne avec alias
    pl.col("POS"),
    pl.col("REF"),
    pl.col("ALT")]
).sink_parquet(                         # Écriture du fichier parquet 
    "variants.parquet"
)

Je vous conseille de regarder le temps d'exécution et faire un htop pour voir la parallélisation opérée ainsi que la consommation mémoire. C'est assez bluffant. Je mets moins de 5 secondes sur mon ordinateurs perso (AMD Ryzen 9 5900X) pour traiter 78'229'218 variants. Et pour la consommation mémoire, Les fonctions scan_csv et sink_csv permettent de faire la transformation du VCF sans le charger en mémoire. Regardez aussi les tailles du fichier. 225Mo pour le fichier parquet et 1.3Go pour son équivalent en CSV. En effet, les fichiers parquets sont compressés naturellement du fait du modèle orienté colonne.

Requête SQL avec DuckDB

À présent essayez de requêter sur ce fichier. Nous pourrions le faire avec pola.rs, mais nous allons plutôt faire une requête SQL en utilisant duckDB qui s'installe tout aussi facilement avec la commande suivante :

pip install duckdb

Pour exécuter une requête SQL sur un fichier parquet, il suffit de considérer le fichier comme le nom d'une table SQL :

# Simple requête pour visualiser le contenu du fichier parquet 

duckdb.sql("SELECT * FROM 'variants.parquet'")

# ┌─────────┬─────────┬─────────┬─────────┬─────────┐
# │ #CHROM  │   POS   │   REF   │   ALT   │   ID    │
# │ varchar │  int64  │ varchar │ varchar │ varchar │
# ├─────────┼─────────┼─────────┼─────────┼─────────┤
# │ 1       │   10416 │ CCCTAA  │ C       │ .       │
# │ 1       │   16103 │ T       │ G       │ .       │
# │ 1       │   17496 │ AC      │ A       │ .       │
# │ 1       │   51479 │ T       │ A       │ .       │
# │ 1       │   51898 │ C       │ A       │ .       │
# │ 1       │   51928 │ G       │ A       │ .       │

À présent, essayons de faire plus compliqué en comptant le nombre de transitions et de transversions. C'est à dire, le nombre de combinaisons A>T, C>G etc ...

# A partir des SNPS len(ref)=1 et len(alt)=1
# Je construis une liste [ref, alt] que je trie 
# Je fait un groupby et un comptage

q = """
"SELECT list_sort([ref,alt]) AS mut, COUNT(*) as count FROM 'variants.parquet' 
WHERE len(ref) = 1 AND len(alt)=1 GROUP BY mut
"""

duckdb.sql(q)

# ┌───────────┬──────────────┐
# │    mut    │    count     │
# │ varchar[] │    int64     │
# ├───────────┼──────────────┤
# │ [C, T]    │     24782079 │
# │ [A, G]    │     24828822 │
# │ [G, T]    │      6103978 │
# │ [A, T]    │      5140035 │
# │ [A, C]    │      6086989 │
# │ [C, G]    │      6315729 │
# └───────────┴──────────────┘

Vous devriez retrouver après quelques secondes les mêmes proportions que j'ai déjà détaillées dans un précédent billet.

Autres astuces

Le partitionnement

Niveau performance, c'est déjà bluffant. Mais il existe différentes méthodes d'optimisation pour être plus performant suivant l'usage des données. Le partitionnement consiste à découper votre fichier parquet en plusieurs fichiers parquet depuis une ou plusieurs colonnes. Par exemple, je peux partitionner le fichier parquet variants.parquet par chromosomes. Si je dois chercher un variant sur le chromosome 8, je peux regarder uniquement dans le fichier correspondant. Inutile de parcourir les variants du chromosomes 2.

Construisons une partition sur la colonne chromosome avec duckDB :

duckdb.sql(
    "COPY (SELECT * FROM 'variants.parquet') TO 'chromosomes' (FORMAT PARQUET, PARTITION_BY (CHROM))"
)

Après avoir exécuté cette requête, vous devriez avoir un dossier chromosomes contenant de nombreux fichiers triés par chromosomes.
Pour sélectionner vos variants depuis ce dossier, il suffit d'utiliser le caractère étoile ou des expressions régulières pour sélectionner les sources de données souhaitées.

Dans l'exemple suivant, je sélectionne tous les variants à partir de tous les fichiers :

duckdb.sql("SELECT * FROM 'chromosomes/*/*.parquet'")

Combiner Pola.rs et duckdb

Une dernière astuce pour la fin. Pola.rs et duckdb sont de très bon amies et sont interchangeables. Vous pouvez switcher de l'un à l'autre très facilement ( Merci Arrow ).

# Passer de duckdb à pola.rs
df = duckdb.sql("SELECT * FROM 'variants.parquet' WHERE CHROM='22'").pl()


# Passer de pola.rs à Duckdb
df = pl.read_csv(....)
duckdb.sql("SELECT * FROM df")

Conclusion

Pola.rs et Duckdb sont des technologies nées du big data qui, je vous parie, vont devenir des références pour la manipulation des données volumineuses et remplacer leurs prédécesseurs comme Pandas.

Références

Créer un module python en C++ avec SWIG

2022-01-17T23:18:57+01:00

Python n'étant pas connu pour sa rapidité, il existe plusieurs solutions pour exécuter du code compilé. Je citerai par exemple numba qui utilise des décorateurs dédiés ou encore cython qui permet d'écrire un module avec un langage mélangeant du python et du C.
Mais mon regard s'est porté récemment vers la librairie SWIG qui permet facilement d'encapsuler du code C++ dans un module Python. Je vous propose donc dans ce billet, d'écrire à l'aide de SWIG, un module en C++ permettant de compter le nombre de base A,C,G,T présent dans un fichier Fasta.

Objectif

L'objectif est d'écrire un module python appelé fastareader qui s’exécute de la façon suivante :

from fastareader import FastaReader

# Instanciation : Compte le nombre de base A,C,G,T dans le fichier chr22.fa
reader = FastaReader("chr22.fa")

# Affiche le nombre de chaque base
print(reader["A"])
print(reader["C"])
print(reader["G"])
print(reader["T"])

Installation de SWIG

Swig est un programme en ligne de commande qui permet de générer automatiquement le code d'un module python à partir de notre code C++.
Pour installer Swig dans sa version (4.0):

ubuntu
sudo apt-get install swig
Windows
Télécharger le binaire ici

Création du module en C++

Je crée d'abord 2 fichiers (fastareader.h et fastareader.cpp) contenant la classe C++ qui nous calculera le nombre de base après avoir parcouru le fichier.
Je lui ajoute la méthode magique __getitem__ qui sera interprétée par python comme surcharge d’opérateur pour accéder aux résultats via la syntaxe reader['A'].

Fastareader.h

#include <iostream>
#include <string>
#include <map>
#include <fstream>
#include <cctype>

using namespace std;

using CountMap = map<char,int> ; 

class FastaReader
{
public:
    // Constructeur 
    FastaReader(const string& filename);

    // Fonction magique pour pouvoir faire reader['A']
    int __getitem__(char base);

protected:
    // Lis le fichier lors de la construction
    void read_file();

private:
   string mFilename;
   CountMap mCounter;
};

Fastareader.cpp

#include "fastareader.h"

FastaReader::FastaReader(const string& filename)
:mFilename(filename)
{

    read_file();
}

int FastaReader::__getitem__(char base)
{
    return mCounter[base];
}

void FastaReader::read_file()
{
    // Nous parcourons le fichier et nous comptons les bases A,C,G,T
    ifstream infile(mFilename);
    string line;

    mCounter['A'] = 0;
    mCounter['C'] = 0;
    mCounter['G'] = 0;
    mCounter['T'] = 0;

    while (infile.good())
    {
        char c = toupper(infile.get());
        if ((c == 'A') || (c =='C') ||( c=='G') || (c == 'T'))
            mCounter[c]++;
    }
}

Vous pouvez vérifier rapidement que le code compile avec le commande suivante. Mais par la suite, nous utiliserons setuptools pour la compilation et l'installation du module.

g++ -c fastareader.cpp

Le fichier d'interface SWIG

L'interfaçage entre python et le C++ est paramétrée depuis le fichier fastareader.i. C'est ce fichier qu'il faudra modifier si vous voulez détailler comment convertir des objets C++ en objets Python. Cette conversion existe déjà pour la plus part des types. Par exemple, ici j'importe std_string.i afin de mapper les strings C++ en string Python. Allez voir la documentation sur les typemaps pour plus de détails.

Fastareader.i

%module fastareader   // Nom du module python généré
%include "std_string.i" // permet de convertir les std:::string en Python string

%{
// Le code de cette section sera intégré au fichier produit
#include "fastareader.h" 
 %}

 // Cette section contient la liste des interfaces C++ à encapsuler
 %include "fastareader.h"

Vous pouvez à présent générer le code de l'extension python avec la commande suivante:

swig -c++ -python fastareader.i

Si tout se passe bien, vous devez obtenir 2 fichiers:

un fichier fastareader.py contenant le module python à importer.
un fichier fastareader_wrap.cxx contenant l'encapsulation de votre code C++.

Compilation avec setuptools

Une fois le code de l'extension généré, il faut le compiler et l'installer. Pour cela, vous pouvez utiliser setuptools disponible dans la librairie standard de python.
Créer le fichier setup.py avec le code suivant:

from distutils.core import setup, Extension

# Description de l'extension et du code à compiler.
# Notez bien le nom de l'extension `_fastareader` préfixé par le caractère `_` 

fastareader_module = Extension(
    "_fastareader", sources=["fastareader.cpp", "fastareader_wrap.cxx"]
)


setup(
    name="fastareader",
    version="0.1",
    author="Sacha Schutz",
    ext_modules=[fastareader_module],
    py_modules=["fastareader"],
)

Compiler et installer maintenant votre module avec les commandes suivantes:

python -m virtualenv venv 
source venv/bin/activate 

python setup.py build  # Compilation 
python setup.py install # Installation

Si tout c'est bien passé, vous devriez pouvoir lancer le code python vu au début de ce billet.

Note: Sous windows, vous aurez besoin d'installer Visual studio pour compiler une extension Python. Attention, à bien vérifier les architectures (x64, x86) et quel versions de python vous utilisez.

Le benchmark

Sur mon PC portable, Je met 0.63 secondes pour compter l'ensemble des bases du chromosome 22 avec la module C++. Et encore, le code n'est pas optimisé.

bench_cpp.py

from fastareader import FastaReader

reader = FastaReader("chr22.fasta")

print(reader["A"])
print(reader["C"])
print(reader["G"])
print(reader["T"])

(venv) ➜ time python bench_cpp.py
9094775
8375985
8369235
9054551
python test.py  0,63s user 0,02s system 99% cpu 0,645 total

Le même code écrit uniquement avec python prend 12 secondes. Soit 20 fois plus longtemps.

bench_python.py

with open("chr22.fasta") as file:

    counter = {}

    counter["A"] = 0
    counter["C"] = 0
    counter["G"] = 0
    counter["T"] = 0

    byte = file.read(1)
    while byte:
        byte = str.upper(byte)
        if byte in ("A", "C", "G", "T"):
            counter[byte] += 1

        byte = file.read(1)


print(counter["A"])
print(counter["C"])
print(counter["G"])
print(counter["T"])

(venv) ➜ time python bench_python.py
9094775
8375985
8369235
9054551
python test_py.py  12,67s user 0,02s system 99% cpu 12,791 total

Si vous voulez m'aider !

J'ai commencé à écrire un simple parseur de fichier VCF, qui contrairement à cyvcf2, ne dépend pas de htslib et compile facilement sous windows. https://github.com/dridk/vcfreader

Référence

Documentation de SWIG

Du Rock, Wikidata et du SPARQL

2022-01-10T00:25:17+01:00

Pouvez vous me citer toutes les personnes ayant eu un Oscar et le prix Nobel ? Quelles sont les lieux de naissance de toutes les célébrités se prénommant Antoine ? Trouvez moi tous les médicaments qui cible des gènes liés à la prolifération cellulaire ?
Ce genre de question peut être difficile à répondre si vous utiliser seulement un moteur de recherche comme Google. Mais en utilisant une ontologie et un langage dédié appelé SPARQL , vous allez pouvoir répondre à toutes ces questions en un éclair.
Dans ce billet, je vous propose d'explorer l'ontologie de Wikipedia (wikidata) et utiliser SPARQL pour construire une carte du monde montrant le nombre de groupe de rock par habitant de chaque pays.

Qu'est ce qu'une ontologie ?

Une ontologie est une façon d'organiser le savoir en reliant de nombreux concepts entre eux. Plus exactement, c'est un graphe construit à partir d'un ensemble de triplets composé chacun d'un sujet, d'un prédicat et d'un objet.
Par exemple, les 3 triplets suivant permettent de relier les Rolling Stones au Fish and Chips.

# SUJET                 PREDICAT             OBJET
<The Rolling Stones>   <est d'origine du>   <Royaume uni>
<The Rolling Stones>   <est un groupe de>   <Rock>
<Le Fish and Chips>    <est d'origine du>   <Royaume uni>

Exemple d'ontologie

Dans une ontologie, les concepts sont définis par un identifiant unique.
Sur wikidata, Le concept "Rolling Stones" porte l'identifiant Q11036 et le concept "Fish and Chips" porte l'identifiant Q203925. Il en est de même pour les prédicats et les objets. Ainsi, les triplets précédents peuvent s'écrire de la manière suivante:

    wd:Q11036  wdt:P17  wd:Q145  
    wd:Q11036  wdt:P31  wd:Q5741069
    wd:Q203925 wdt:P17  wd:Q145

Tous les triplets d'une ontologie sont généralement stockés dans un fichier texte au format RDF ou dans une base de donnée dédiée appelée triple store. Vous trouverez sur internet de nombreuses ontologies, notamment en biologie avec par exemple GO ( Gene ontology ) décrivant les éléments cellulaires ou HPO (Human Phenotype Ontology) décrivant les signes cliniques des maladies. L'ensemble des ontologies disponible sur le web vise à former ce qu'on appelle le web sémantique.

Le langage SPARQL

SPARQL est un langage dédié à l'extraction d'information depuis une ontologie. Je vous invite à exécuter les requêtes suivantes avec l'outil en ligne mis à disposition par wikidata.
Le principe est assez simple. Il faut écrire des triplets en remplaçant les concepts inconnus qui nous intéressent par des variables.
Par exemple pour trouver tous les groupes de rocks anglais, nous cherchons ?x tel que:

?x est d'origine anglaise
?x est un groupe de rock

En SPARQL, cela donne :

SELECT ?x 
WHERE {
?x wdt:P17 wd:Q145.
?x wdt:P31 wd:Q5741069.
}

Pour avoir le noms des concepts en français:

SELECT ?x ?xLabel 
WHERE 
{
?x wdt:P17 wd:Q145.
?x wdt:P31 wd:Q5741069.
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}

Et pour récupérer tous les groupes de rocks, le pays d'origine et le nombre d'habitant, je fais :

SELECT ?groupeLabel ?paysLabel ?population
WHERE 
{
  ?groupe wdt:P31 wd:Q5741069;
          wdt:P495 ?pays.
  ?pays   wdt:P1082 ?population.

 SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } 
}"""

Je vous invite à lire ce tutoriel pour plus de précision et à bien utiliser l'autocompletion de l'éditeur (ctrl+espace) pour éviter à devoir chercher les concepts un par un.

Exécution depuis Python

L’éditeur SPARQL de wikidata propose un bouton magique pour générer du code dans différents langages.

Editeur SPARQL de wikidata

Ainsi vous pouvez exécuter en python une requête SPARQL, récupérer le résultat en JSON et construire un Dataframe avec pandas. Vous aurez besoin du package sparqlwrapper.

# Installer sparqlwrapper
#!pip install sparqlwrapper
import sys
from SPARQLWrapper import SPARQLWrapper, JSON
import pandas as pd

endpoint_url = "https://query.wikidata.org/sparql"

query = """
SELECT ?groupeLabel ?paysLabel ?population
WHERE 
{
  ?groupe wdt:P31 wd:Q5741069;
          wdt:P495 ?pays.
  ?pays wdt:P1082 ?population.

 SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } # Helps get the label in your language, if not, then en language
}"""

def get_results(endpoint_url, query):
    user_agent = "WDQS-example Python/%s.%s" % (sys.version_info[0], sys.version_info[1])
    # TODO adjust user agent; see https://w.wiki/CX6
    sparql = SPARQLWrapper(endpoint_url, agent=user_agent)
    sparql.setQuery(query)
    sparql.setReturnFormat(JSON)
    return sparql.query().convert()


results = get_results(endpoint_url, query)

# construction d'un dataframe
df = pd.io.json.json_normalize(results['results']['bindings'])
df = df[["groupeLabel.value","paysLabel.value", "population.value"]]
df.columns = ["groupe","pays","population"]

La carte !

J'ai juste mouliné le tout avec geopandas sur un notebook jupyter disponible ici, et le tour est joué.

Nombre de groupes de rock par pays

Les pays ayant le plus de groupes de rocks par habitant, sont les pays nordiques ( Finlande, Norvège, Groenland, Islande, Suède). 1 groupe référencé en Iran, 86 groupes pour la France et 270 pour le Royaume-unis !

Note

Toutes les questions dans l'introduction sont disponible dans le menu exemple de l’éditeur SPARQL de wikidata.

Référence

Analyse de génomes de SARS-CoV-2

2021-01-25T23:51:29+01:00

La pandémie mondiale de Covid-19 a créé un élan sans précédent dans la production scientifique de données. Notamment, les données sur les génomes du virus produites par séquençage haut débit qui permettent aujourd'hui d'identifier de nouvelles mutations comme la N501Y du variant anglais B.1.1.7 où une Asparagine (N) est remplacée par une Tyrosine (Y) à la position 501 de la protéine S.
Le génome du SARS-CoV-2 étant tout petit (30 kbases) par rapport au génome humain (3 Gbases), l'analyse bioinformatique peut se faire avec un ordinateur personnel. Cette analyse est donc l'occasion d'un très bon exercice pour se familiariser avec les outils d'alignement et de détection de variants.
Dans ce billet, je vous propose de suivre pas-à-pas l'analyse d'un génome de SARS-CoV-2 à partir des données brutes générées par un séquenceur Illumina. Pour cela, j'ai récupéré les données de séquençage de 245 échantillons provenant d'un laboratoire de l'état du Delaware aux États-Unis. Plus précisément une paire de fichiers Fastq par échantillon contenant les courtes séquences, appelées reads, lus par le séquenceur. Je les ai ensuite toutes alignées sur le génome de référence de Wuhan pour en extraire les mutations que j'ai annotées. Enfin, j'ai reconstruit les génomes de chaque échantillon afin de pouvoir attribuer le nom de leurs lignées.
Pour réaliser cette analyse, il vous faudra de préférence un terminal Linux avec différents outils que vous pouvez installer avec conda. Sinon un notebook est à votre disposition à cette adresse.

Analyse de l'échantillon SRR13182925

Source des données

Je connais 2 sources principales pour récupérer des données de séquençage. SRA du NCBI et la base européenne ENA. J'ai choisi cette dernière par convenance. En fouillant, j'ai d'abord découvert le projet ICOG UK constamment mis à jour et disposant de pas moins de 206 000 génomes à l'heure où j'écris ce billet.
Mais pour mon petit PC de bureau, c'est trop de données. Nous nous contenterons pour le moment des 245 génomes du projet PRJNA673096 produit par le Delaware Public Health Lab aux États-Unis. Il s'agit de données produites sur un Illumina MiSeq en Amplicon.

Téléchargement des données avec EnaBrowserTools

Nous pouvons télécharger les fichiers Fastq directement depuis le site de l'ENA. Mais il existe un outil python en ligne de commande, enaBrowserTools, qui va nous faciliter la tâche. Pour l'installer, il suffit de suivre la documentation:

enaDataGet nous permet de télécharger les données associées à un échantillon.
enaGroupGet nous permet de télécharger l'ensemble des données d'un projet.

Pour la suite de ce billet, nous nous contenterons d'analyser uniquement l'échantillon SRR13182925. Pour télécharger ses fichiers Fastq associés, taper la commande suivante:

enaDataGet -f fastq SRR13182925

Cette commande crée un dossier SRR13182925 contenant 2 fichiers Fastq :

SRR13182925_1.fastq.gz
SRR13182925_2.fastq.gz

Ces 2 fichiers contiennent les courtes séquences lues, appelées reads, d'environ 150 bases provenant du génome viral trouvé dans l'échantillon. Ces reads sont lus dans les deux sens par le séquenceur. Pour cette raison, il y a 2 fichiers, un par sens de lecture.
Vous pourrez en avoir un aperçu à l'aide la commande suivante :

zcat SRR13182925_1.fastq.gz|awk 'NR % 4 == 2 {print $0}'

AGATAATACAGTTGAATTGGCAGGCACTTCTGTTGCATTACCAGCTTGTAGACGTACTGTGGCAGCTAAACTACCAAGTAC
ATATTGGCTTCCGGTGTAACTGTTATTGCCTGACCAGTACCAGTGTGTGTAC
TCGTAACAATCAAAGTACTTATCAACAACTTCAACTACAAATAGTAGTTGTCTGATATCACACATTGTTGGTAGATTATAACGATAGTAGTCATAATCGCTGATAGCAGCATTACCATCCTGAGCAAAGAAGAAGTGTTTTAATTCAACAGAACTTCCTTCCTTAAAGAAACCCTTAGACACAGCAAAGTCATAGAAGTCTTTGTTAAAATTACCGGGTTTGACAGTTTGAAAAGCAACATTGTTAGTAAGTGCAGCTACTGAAAAGCACGTAGTGCGT
ACATTACACATAAACGAACTTATGGATTTGTTTATGAGAATCTTCACAATTGGAACTGTAACTTTGAAGCAAGGTGAAATCAAGGATGCTACTCCTTCAGATTTTGTTCGCGCTACTGCAACGATACCGATACAAGCC
GTTAGATAGCACTCTAGTGTCAAATCTACAAACAATGGAATTAGCAGGATATCTATCGACATTGCAATTCCAAAATAGGCATACACCATCTGTGAATTTGTCAGAATGTGTGGCATAAGAATAGAAT
GTTTATTACCCTGACAAAGTTTTCAGATCCTCAGTTTTACATTCAACTCAGGACTTGTTCTTACCTTTCTTTTCCAATGTTACTTGGTTCCATGCTATACATG
etc ...

Pour plus de précision sur le format Fastq, lisez la spécification du format.

Alignement des reads sur le génome de Wuhan

L'alignement consiste à aligner les reads présents dans les fichiers Fastq (150 bases) sur un génome de référence du Sars-CoV-2 qui fait lui environ 30 000 bases.
Nous devons d'abord télécharger ce génome de référence au doux nom de NC_045512.2. Il s'agit d'un fichier Fasta que vous pouvez récupérer depuis le site ou via la commande suivante :

wget -O wuhan.fasta https://www.ncbi.nlm.nih.gov/sviewer/viewer.cgi?tool=portal&save=file&log$=seqview&db=nuccore&report=fasta&id=1798174254&extrafeat=null&conwithfeat=on&hide-cdd=on

Avant de procéder à l'alignement avec l'outil bwa, il est nécessaire d'indexer ce génome. On fera de même avec l'outil samtools qui nous servira par la suite :

bwa index wuhan.fasta
samtools faidx wuhan.fasta

L'alignement est réalisé à l'aide de la commande ci-dessous qui nous créera un nouveau fichier SRR13182925.sam contenant les reads associés à leur position d'alignement sur le génome:

bwa mem wuhan.fasta SRR13182925_1.fastq.gz  SRR13182925_2.fastq.gz > SRR13182925.sam

Ce fichier SAM est un fichier texte. On lui préfère sa version binaire, le BAM plus légère et indexable. Faisant d'une pierre deux coups, je trie le fichier par position, le convertit au format BAM et l'indexe avec les commandes ci-dessous:

samtools sort -O bam SRR13182925.sam > SRR13182925.bam
samtools index SRR13182925.bam

Visualisation de l'alignement

Pour visualiser cet alignement, vous pouvez utiliser le logiciel IGV disponible à cette adresse. Une fois lancé, chargez d'abord le génome de Wuhan depuis le menu Genomes > Load Genome From Server en cherchant SARS-Cov-2. Puis chargez le fichier SRR13182925.bam précédemment créé via File > Load From File. Vous obtiendrez ainsi la vue suivante où j'ai zoomé sur le gène S pour visualiser une mutation.

Visualisation des reads alignés sur le génome de référence avec le logiciel IGV. La flèche montre une mutation située sur le gène S visible sur l'ensemble des reads

Appel des variants et annotation

Vous pourriez parcourir l'alignement visuellement et chercher toutes les mutations. Mais il est préférable de procéder de façon automatique grâce à un variant caller. Pour cela j'utilise freebayes, qui à partir du fichier BAM, crée un fichier VCF contenant l'ensemble des variants détectés. Avec SnpSift, on garde uniquement les variants de bonne qualité avec un score superieur à 30 et on compresse avec bgzip le fichier pour pouvoir l'indexer avec tabix:

freebayes -f wuhan.fasta -p1 -C10 SRR13182925.bam|SnpSift filter "QUAL > 30" - > SRR13182925.vcf 
bgzip SRR13182925.vcf
tabix -p vcf SRR13182925.vcf.gz

Le fichier VCF obtenu contient uniquement les positions et les bases mutées. Pour avoir plus d'information, j'annote ce fichier avec SnpEff qui me donnera entre autres le nom de la mutation en nomenclature HGVS ainsi que le gène où il se situe:

snpEff -Xmx10G -v NC_045512.2 SRR13182925.vcf.gz > SRR13182925.ann.vcf

Il me suffit maintenant d'extraire de ce fichier les informations pertinantes. Pour cela, j'utilise SnpSift filter associé à SnpSift extracFields pour afficher les mutations dans un tableau à deux colonnes avec le nom de la mutation et le nom du gène ou elle se situe:

SnpSift filter "(exists ANN[0].HGVS_P)" > SRR13182925.ann.vcf
|SnpSift extractFields - "ANN[0].HGVS_P" "ANN[0].GENE"

ANN[0].HGVS_P   ANN[0].GENE
p.Phe924Phe     ORF1ab
p.Thr1665Thr    ORF1ab
p.Pro4715Leu    ORF1ab
p.Thr95Asn      S
p.Asp614Gly     S
p.Ser68Phe      E
p.Asp72Asp      E

Vous pouvez également ouvrir le fichier SRR13182925.ann.vcf via l'interface graphique de Cutevariant. C'est un logiciel de mon cru en version bêta! Donc, soyez indulgent.

Création du génome consensus

Pour reconstruire la séquence du génome de l'échantillon à partir du fichier VCF, nous pouvons utiliser bcftools qui nous génère un fichier Fasta:

bcftools consensus SRR13182910.vcf.gz  -f genome/whuan.fasta --sample unknown > SRR13182910.fa

Nous pouvons alors utiliser l'outil pangolin pour asigner le nom de la ligné à ce génome. La nomenclature est défini dans ce papier:

pangolin SRR13182910.fa

Nous obtenons alors l'identifiant B.1.1.119 dont vous pouvez trouver la déscription sur cette page. Et comme nous pouvions s'y attendre, elle est trouvé en grande partie chez des nord-américains.

Analyse des 245 génomes

Distribution des variants

J'ai d'abord téléchargés tous les fichiers Fastq du projet via la commande suivante :

enaGroupGet -f fastq PRJNA673096

Puis j'ai réalisé un pipeline avec Snakemake disponible ici. Il reprend les mêmes étapes vues plus haut à la seule différence que l'ensemble des variants détectés est colligé dans un même fichier VCF.
Après quelques heures de calcul, j'ai finalement obtenu ce fichier VCF qui m'a permis d'analyser la fréquence des variants le long du génome que j'ai reporté dans le graphique suivant.
Au total, j'ai trouvé environ 630 variants répartis le long du génome dont 4 mutations particulièrement fréquentes.

Repartition des variants trouvés parmi les 245 génomes avec leurs fréquences

Ces 4 mutations sont probablement la conséquence d'un processus de sélection.
En googlant, je trouve ce papier présentant les mutations Thr265Ile and Gln57His comme exclusif à la population Nord-Américaines. Ce qui colle bien avec l'origine de nos données.
Le variant Pro4715Leu est également dominant et affecte la polymérase RNA-dependent (RdRp) catalysant la réplication de l'ARN. Peut-être que cette mutation modifie la fidélité de la réplication impactant ainsi son taux de mutation et donc son evolvabilité, c'est-à-dire sa capacité à évoluer.
Plus intéressant, est le variant Asp614Gly situé sur le gène (S) de la protéine Spike, là même ou se situe le variant anglais en permettant au virus de pénétrer plus facilement les cellules humaines. Cette mutation Asp614Gly serait apparue en Europe début 2020 et serait maintenant la forme majoritaire (source).

Distribution des lignées

J'ai également reconstruit chaque génome que j'ai assigné à sa ligné avec l'outil pangolin. J'obtient la distribution suivant:

Distribution des lignées de virus

Nous pouvons voir ici la présence de ligné B.1.2 en grand nombre. D'après le site cov-lineages, elle est exclusivement Nord-américaine est descend de la ligné B.1 apparu précocement et que l'on trouve partout dans le monde. Quand à la ligné B.1.369, elle a d'abord été vu en Océanie puis aux Etats-Unis à partir de Juin 2020.
Bref, tout qui colle avec l'origine nord-américaine de mes données!

Conclusion

Un très bon exercice rapide qui en intéressera certainement plus d'un. En tout cas, je me suis bien amusé ce week-end à apprendre un tas de chose interessante sur ce maudit virus.
N'hésitez donc pas à reprendre mon pipeline si vous en avez besoin. J'aimerai maintenant apprendre à reconstruire un arbre phylogénétique à la fois dans le temps et dans l'espace. Ce qu'ils ont fait sur le site nextrain, est vraiment trop stylé! Cela permet de tracer l'évolution de ce virus qui, on ne le rappellera jamais assez, est expliquée par la théorie de l'évolution de Darwin.

Créer votre propre langage avec textX en Python

2020-11-08T15:32:40+01:00

Un DSL ( Domain Specific Language ) est un langage de programmation créé pour une tâche spécifique à l'inverse des langages de programmation usuels comme Python. On peut s'en servir par exemple pour créer des petits langages maison utilisés au sein d'une application.
Dans ce billet, je vais vous montrer en Python, comment créer un langage pour contrôler le mouvement d'un robot fictif grâce à la librarie textX.

Définition de notre grammaire

Notre langage doit pouvoir permettre de contrôler le déplacement d'un robot sur un échiquier dans les 4 directions ( up, down, left, right).
Par exemple :

move up     # Bouge d'une case vers le haut      
move up 3   # Bouge de 3 case vers le haut
move left 3 # Bouge de 3 cause vers la gauche

L'idée est de parser ces instructions afin de récupérer les variables pour les consommer dans notre application.
Nous pourrions très bien résoudre ce problème en parsant les instructions à coup d'expression régulière. Mais dès que le langage deviendra plus complexe, l'utilisation d'un outil comme textX vous facilitera grandement la tâche.

TextX: Un métalangage pour définir notre langage

La librairie textX en Python dispose d'un métalangage permettant de décrire la grammaire du langage que nous voulons créer (d'ou le prefix méta). Ce métamodèle est alors utilisé par textX pour construire l'arbre syntaxique nécessaire pour parser les instructions données à notre robot. Je vous conseille de lire le code et de tester pour comprendre.

Installation

J'utilise Python 3.7, et la version 2.3 de textX :

pip install textX

Le métamodèle décrivant la grammaire

Commençons par créer un fichier robo.tx afin de décrire notre grammaire en utilisant différents symboles.
- Direction est un symbole décrivant les 4 directions possibles. C'est un symbole terminal, car il ne peut pas être décomposé en sous-symbole contrairement à MoveCommand.
- MoveCommand est un symbole non terminal décrit à l'aide du symbole Direction et du symbole NUMBER. Ce dernier est un symbole fourni par défaut par textX pour décrire un nombre. La liste des autres types est disponible ici..

// robo.tx
MoveCommand:         
    'move' Direction NUMBER
;
Direction:
    'up'|'down'|'left'|'right'
;

Utiliser cette commande pour vérifier que le modèle est valide:

textx check robot.tx

Nous pouvons maintenant affecter les différentes valeurs de l'instruction à des variables qui seront accessibles depuis Python. Par la même occasion, je rends l'option step optionnelle grâce à l'opérateur "?". Pour cela, je modifie le code de la façon suivante:

MoveCommand:
    action='move' direction=Direction (step=NUMBER)?
;

Direction:
    'up'|'down'|'left'|'right'     
;

Maintenant, pour utiliser cette grammaire en Python, et parser par exemple l'instruction "move up 4", il faut charger le métamodèle et parser l'instruction à l'aide de la méthode model_from_str. Nous obtenons alors l'instance d'une classe MoveCommand contenant les 3 variables: action, direction et step.

from textx import metamodel_from_file

metamodel = metamodel_from_file("robot.tx") 
cmd = metamodel.model_from_str("move up 4")

print(type(cmd)) # MoveCommand instance class
print(cmd.action) # "move"
print(cmd.direction) # "up" 
print(cmd.step) # 4

Allez un peu plus loin

La classe MoveCommand peut être personnalisée en amont, pour pouvoir jouer finement sur les variables du modèle. Nous allons modifier la classe afin que le paramètre step soit égal à 1 par défaut lorsque celui-ci n'est pas renseigné.

from textx import metamodel_from_file

class MoveCommand:
    def __init__(self, *args, **kwargs):

        self.action = kwargs.get("action")
        self.direction = kwargs.get("direction")
        self.step = kwargs.get("step")

        if self.step is None or self.step == 0:
            self.step = 1.0


metamodel = metamodel_from_file("robot.tx", classes=[MoveCommand]) 
model = metamodel.model_from_str("move up")

print(model.step) # step = 1

Nous pouvons ajouter également à notre grammaire la possibilité de donner une suite d'instruction séparée par un point virgule. C'est là toute la magie de textX. Car il suffit d'ajouter le nouveau symbole Command que textX interprétera comme une liste de MoveCommand séparés par des points-virgules.

Command:
    commands += MoveCommand[";"]
;
MoveCommand:
    action='move' direction=Direction (step=NUMBER)?
;

Direction:
    'up'|'down'|'left'|'right'
;

metamodel = metamodel_from_file("robot.tx", classes=[MoveCommand])
model = metamodel.model_from_str("move up; move left 3; move right")

for cmd in model.commands:
    print(cmd.step)

Visualiser votre modèle

Pour finir, vous pouvez visualiser votre modèle à l'aide de la commande suivante et du fichier robot.txt contenant la suite d'instruction à tester :

# Fichier robot.txt
move up; move left 3; move right

textx visualize robot.tx robot.txt
dot -Tpng -O robot.txt.dot
display robot.txt.dot.png

Arbre syntaxique des 3 commandes du fichier robot.txt

Conclusion

Dans ce billet, j'ai présenté un cas très simple à visée pédagogique. Mais vous pouvez aller plus loin en créant des parseurs aussi complexes que des parseurs SQL ou JSON. Après, attention, n'utilisez pas ce genre d'outil pour réinventer la roue. Il existe déjà des langages (comme Python) qui font très bien les choses. Personnellement, j'ai créée un DSL dans mon logiciel cutevariant pour pouvoir facilement créer des filtres en ligne de commande sans avoir à passer par les contrôleurs d'une interface graphique. Vous pouvez jeter un oeil sur ma grammaire ici.
Je vous invite à aussi regarder les exemples sur le site officiel dont je me suis largement inspiré.

Référence

TextX

Merci à @Aluriak pour m'avoir présenté cette techno !

Explorer des données cartographiques avec osmium

2020-11-01T19:30:31+01:00

Récemment j'ai été amené à devoir extraire toutes les cités en France ( que ce soit des villes, des villages ou des hameaux). j'ai d'abord cherché sur internet un dataset prémâché, mais j'ai vite constaté que ces données étaient souvent incomplètes par rapport aux cartes d'OpenStreetMap. J'ai donc voulu directement récupérer les données utilisées par ce site et c'est là que je découvert osmium-tools. Un outil en ligne de commande pour manipuler les fichiers OSM d'Open Street Map.

Les fichiers OSM et PBF

Les fichiers OSM sont des fichiers au format XML contenant la description d'une carte avec 3 éléments notables ( les noeuds, les chemins et les relations).
Les noeuds décrivent une position fixe dans l'espace , comme une ville. Les chemins décrivent un segment ou un polygone, comme le contour d'un pays. Tandis que les relations sont simplement des groupes d'éléments. Chaque élément est décrit par différents attributs XML et des tags permettant d'associer des informations à l'élément sous forme de clef-valeur. L'exemple suivant décrit par exemple la ville de Caen sous forme d'un noeud avec sa latitude et sa longitude comme attributs ainsi qu'une liste de tags.

 <node id="1831881213" version="1" changeset="12370172" lat="49.182863" lon="-0.370679" user="lafkor" uid="75625" visible="true" timestamp="2012-07-20T09:43:19Z">
  <tag k="name" v="Caen"/>
  <tag k="place" v="city"/>
  <tag k="addr:postcode" v="14000"/>

 </node>

Le format OSM n'est pas utilisé directement. On lui préfère le format PBF, un format indexé plus léger et plus rapide. Tous les fichiers d'openstreetmap sont ainsi disponibles au format PBF sur le site Geofabrik. Par exemple, la France et ses régions sont disponibles à cette adresse.

Osmium-Tool: la boite à outils des fichiers OSM/PBF

Osmium-tool est un outil en ligne de commande écrit en C++ permettant de manipuler les fichiers OSM/PBF. Vous allez pouvoir extraire des données incluses dans un polygone défini, faire des conversions de format, filtrer les données par tag et bien plus.... Je vous propose dans ce billet de juste extraire l'ensemble des commune d'Alsace.

Installation

osmium-tool est disponible dans les dépots d'ubuntu:

sudo apt-get install osmium-tools

Télécharger la région Alsace

wget https://download.geofabrik.de/europe/france/alsace-latest.osm.pbf

Résumer un fichier pbf

La commande osmium fileinfo vous donnera des informations générales sur le fichier avec notamment le nombre de noeuds et de chemins:

osmium fileinfo -e alsace-latest.osm.pbf 

File:
  Name: alsace-latest.osm.pbf
  Format: PBF
  Compression: none
  Size: 106931186
Header:
  Bounding boxes:
    (6.83892,47.3845,8.24393,49.0802)
  With history: no
  Options:
    generator=osmium/1.8.0
    osmosis_replication_base_url=http://download.geofabrik.de/europe/france/alsace-updates
    osmosis_replication_sequence_number=2772
    osmosis_replication_timestamp=2020-10-27T21:42:03Z
    pbf_dense_nodes=true
    timestamp=2020-10-27T21:42:03Z
[======================================================================] 100% 
Data:
  Bounding box: (6.11539,47.3342,9.60379,49.7883)
  Timestamps:
    First: 2006-01-11T15:31:39Z
    Last: 2020-10-27T21:29:47Z
  Objects ordered (by type and id): yes
  Multiple versions of same object: no
  CRC32: 6bc2d1a1
  Number of changesets: 0
  Number of nodes: 10880224
  Number of ways: 1751889
  Number of relations: 36547
  Largest changeset ID: 0
  Largest node ID: 8053541452
  Largest way ID: 864360376
  Largest relation ID: 11801460

Filtrer par tags

La documentation officielle nous indique que les cités sont définies par le tag place avec 4 valeurs possibles:

place=city
place=town
place=village
place=hamlet

Pour garder uniquement ces noeuds taggés dans un nouveau fichier place.pbf, nous pouvons utiliser la commande osmium tag-filter en prefixant par "n/":

osmium tags-filter alsace-latest.osm.pbf  n/place=city,town,village,hamlet -o place.pbf

Exporter vers un fichier geojson

Nous pouvons ensuite convertir le fichier PBF en GEOJSON (un format JSON facile à lire) utilisez pour cela osmium export :

osmium export place.pbf -f geojson > place.geojson

"FeatureCollection"
[
  {
    "type": "Feature",
    "geometry": {
      "type": "Point",
      "coordinates": [
        8.0056049,
        48.7521656
      ]
    },
    "properties": {
      "name": "Greffern",
      "place": "village",
      "population": "1943"
    }
  },
  {
    "type": "Feature",
    "geometry": {
      "type": "Point",
      "coordinates": [
        7.9445109,
        49.0365935
      ]
    },
    "properties": {
      "name": "Wissembourg",
      "place": "town",
...

Personnellement, j'utilise le formidable outil jq pour pouvoir parser du json en ligne de commande. En plus, nous pouvons directement convertir du JSON en CSV pour avoir une liste propre que l'on pourra consommer avec des outils comme sed ou awk.

cat place.geojson |jq -r '.features[]| [.properties.name, .properties.place,.geometry.coordinates[0],.geometry.coordinates[1]]|@csv'

# "Greffern","village",8.0056049,48.7521656
# "Wissembourg","town",7.9445109,49.0365935
# "Strasbourg","city",7.7507127,48.584614
# "Mulhouse","city",7.3389275,47.7467
# "Saverne","town",7.3625953,48.7419909
# "Wittelsheim","town",7.2402432,47.8091086
# "Kingersheim","town",7.3386856,47.7923002
# "Ostwald","town",7.7102193,48.5425109
# "Cernay","town",7.1787669,47.8086824
# "Wittenheim","town",7.3373681,47.8080799

Conclusion

Je n'ai pas l'habitude de manipuler ce genre de données et je pense que l'on peut faire bien plus avec. J'ai vu aussi qu'il y a d'autre outil comme Osmosis en java. Si cela vous intéresse, j'ai mis ici un fichier contenant l'ensemble des cités par départements français ainsi que la procédure pour le fabriquer.

L'analyse en composante principale

2020-09-20T18:34:56+02:00

L'analyse en composante principale ou PCA (Principal component analysis) est une méthode de réduction de dimension, largement utilisée en statistique descriptive, pour visualiser sur un graphique à 2 ou 3 dimensions des données décrites sur plus de dimensions. Dans ce billet, nous chercherons d'abord à comprendre le principe général avec l'exemple simple d'un passage de 2 dimensions à 1 dimension. Puis nous détaillerons les bases mathématiques sous-jacentes et comment réaliser cette transformation en Python.

Tout commence avec un tableau

Chaque fois que je suis amené à analyser des données, mon premier réflexe et d'identifier un tableau ou chaque ligne représente une observation et chaque colonne une variable décrivant l'observation. Par exemple le tableau suivant, représente la taille et le poids chez 6 individus:

Tableau de données avec 6 observations et deux variables.

D'un point de vue géométrique, nous pouvons représenter chacune de ces 6 observations par un point (ou vecteur) dans un espace à 2 dimensions correspondant aux deux variables. Ce graphique nous montre alors la proximité entre les observations. Par exemple sur le graphique ci-dessous, les individus 1,2,3 et les individus 4,5,6 forment respectivement deux groupes.

Représentation dans un espace à deux dimensions du tableau de données. Chaque observation est représentée par un point ou vecteur. De façon générale, les M observations d'un tableau de données peuvent être vu comme les M vecteurs dans un espace à N dimensions. L'ensemble formant une matrice de dimension NxM.

En ajoutant une nouvelle variable dans ce tableau, par exemple l'âge d'un individu, nous pouvons représenter les observations par un graphique à 3 dimensions. Mais avec plus de variables, et donc plus de dimensions cela devient problématique.
La solution à ce problème est la réduction de dimension en transformant par exemple un tableau à 10 variables vers un tableau à 2 variables facilement représentable sur un graphique.
Pour comprendre comment cette transformation fonctionne, partons d'un cas simple: La réduction d'un tableau à 2 dimensions vers un tableau à 1 dimension. Il suffira ensuite de généraliser cette méthode à N dimensions.

Passage de 2 dimensions à 1 dimension

Pour faire cette transformation, il faut s'imaginer un axe passant au mieux par tous les points. Puis faire la projection de chaque point sur cet axe. Cet axe ou composante principale est une nouvelle dimension fictive qui nous permet de représenter les observations sur 1 dimension. Et comme vous pouvez le constater sur le graphique ci-dessous, les deux groupes identifiables dans l'espace bidimensionnel l'est toujours dans ce nouvelle espace unidimensionnel.

Réduction de dimensions d'un espace à 2 dimensions vers in espace à 1 dimension. Les deux groupes d'individus sont toujours identifiables.

Il faut cependant garder en tête qu'il y a une perte d'information lorsque l'on réalise cette transformation. Des données différentes avant transformation peuvent aboutir aux mêmes résultats. Plus les points sont corrélés entre eux, et plus l'information récupérée après la réduction de dimension sera grande. Une réduction de dimension par PCA doit donc TOUJOURS s'accompagner de la quantité d'information récupérée pour être interprétable.

Réduction de dimensions d'un espace à 2 dimensions vers un espace à 1 dimensions. Dans les 3 exemples, la réduction de dimensions amène aux mêmes résultats. La différence est liée à la quantité d'information récupérée par la composante principale. Le premier graphique récupère que 40% de l'information tandisque la dernière récupère 90% de l'information.

Comprendre le calcul

Nous allons maintenant voir comment trouver ces axes par le calcul, pour ensuite généraliser la méthode à N dimensions. Pour cela, quelque prérequis d'algèbre linéaire sont nécessaires.

Transformation linéaire

En multipliant un vecteur $\vec{v}$ (un point) par une matrice $M$ on obtient un nouveau vecteur $\vec{v_t}$. Autrement dit, on déplace le point vers un autre endroit grâce à une matrice de transformation.

$$ \vec{v_t} = M \vec{v} $$

Par exemple, en infographie, on utilise ces matrices pour réaliser différente transformation d'objet comme des rotations, des déformations, des agrandissements etc ...
Dans l'exemple ci-dessous, les 3 vecteurs (bleu, vert, rouge) définissent un carré. En faisant le produit de chaque vecteur par une matrice de transformation, on obtient 3 nouveaux vecteurs représentant le carré transformé. Essayer ce site pour tester.

Différente matrice de transformation sur un un objet à 3 vecteurs Source

Vecteur propre et valeur propre

Les vecteurs propres (eigen vector) d'une matrice de transformation sont les vecteurs qui ne changent pas de direction après transformation. Chacun de ces vecteurs est associé à une valeur propre $\lambda$ (eigen value) indiquant le degré d'élongation.

Transformation d'un vecteur propre v par une matrice de transformation. Le vecteur transformé vt conserve sa direction. La valeur propre est de 2.

Calcul du vecteur et de la valeur propre

Pour trouver les vecteurs et valeurs propres d'une matrice A:

$$ A = \begin{bmatrix} a & b \ c & d \end{bmatrix} $$

Il faut donc résoudre l'équation suivante.

$$A\vec{v} = \lambda \vec{v}$$

Ce qui revient à résoudre :

$$(A-\lambda I) \vec{v} = \vec{0}$$

Cette équation admet des solution(s) $\lambda$ si :

$$det(A-\lambda I) = 0 $$

C'est à dire : $$ det (\begin{bmatrix} a - \lambda & b \ c & d - \lambda \end{bmatrix}) = 0 $$

Pour trouver $\lambda$ il suffit donc de résoudre :

$$ (a - \lambda)(c - \lambda) - bc = 0 $$

En remplaçant lambda dans l'équation d'origine, nous trouvons alors les vecteurs propres associés.
Avant de comprendre en quoi les vecteurs propres sont utiles pour notre réduction de dimension, il nous faut encore définir une chose: la matrice de covariance.

Matrice de covariance

La variance d'une variable x, informe de la dispersion des données autour de la moyenne. C'est la moyenne de tous les écarts à la moyenne au carré. Elle s'écrit :

$$var(x) = \frac{1}{N} \sum_{i=0}^{n} (x-\bar{x})^{2}$$

Dans notre tableau, la variance de la taille et du poids sont respectivement de 328.5 et 238.

La covariance entre deux variables indique la variance d'une variable x par rapport à une variable y. Elle indique le degré de corrélation entre deux variables. Elle s'écrit :

$$cov(x,y) = \frac{1}{N} \sum_{i=0}^{n} (x_i - \bar{x})(y_i - \bar{y})$$

Plus les variables x et y sont corrélé, plus la valeur absolue de la covariance est grande :

La matrice de covariance est une matrice carrée contenant l'ensemble des covariances entre variables prises 2 à 2.

$$M = \begin{bmatrix} cov(x,x) & cov(x,y) \ cov(y,x) & cov(y,y) \end{bmatrix}$$

Trouver les axes principaux

Vous avez maintenant tous les ingrédients pour comprendre comment trouver les axes passant aux mieux par vos données. Car voilà... Les axes d'une analyse en composante principale correspondent aux vecteurs propres de la matrice de covariance de vos données. Et la quantité d'information récupérée par chaque axe correspond aux valeurs propres de leurs vecteurs associés.

Les vecteurs propres de la matrice de covariance correspondent aux deux axes passant aux mieux par les données. Ici l'axe 1 récupère davantage d'information que l'axe 2. Les vecteurs propres sont toujours orthogonaux entre eux.

En généralisant, pour réduire un espace à N dimensions vers un espace à K dimensions, il suffit de faire la projection des points de l'espace de départ sur les K premiers vecteurs propres qui récupère le maximum d'information. C'est à dire ceux qui ont les valeurs propres les plus grande. Passons à la pratique pour voir, en réalisant toutes ces opérations en Python.

Analyse en composante principale en Python

Nous allons utiliser le jeux de données iris contenant 50 observations de fleurs et 4 variables (ou 4 dimensions) et les réduire sur une espace à deux dimensions.

import numpy as np 
import pandas as pd
import altair as alt
from numpy import linalg as LA
from sklearn import datasets
from sklearn.decomposition import PCA

# Téléchargement du jeux de données iris 

data, species = datasets.load_iris(return_X_y=True)

data = pd.DataFrame(data)
species = pd.DataFrame(species)

# Calcul de la matrice de covariance 
cov_matrix = data.cov()

# Calcul des vecteurs et valeurs propres de la matrice de covariance 
eigen_values, eigen_vectors = LA.eig(cov_matrix)

# Calcul de l'information récupéré en pourcentage sur les 2 premiers axes
info = (eigen_values / sum(eigen_values) * 100).round(2)
axe1_info = info[0]
axe2_info = info[1]

# Projection des points sur les deux premiers vecteurs 
projection_matrix = eigen_vectors.T[:][:2].T
data_t = data.dot(projection_matrix)

# Affichage des nouvelles données à 2 dimensions
data_t.columns = ["axe1", "axe2"]
data_t["species"] = species

alt.Chart(data_t).mark_point().encode(
    x=alt.X("axe1", title=f"axe 1 {axe1_info}%"), 
    y=alt.Y("axe2", title=f"axe 2 {axe2_info}%"), 
    color="species:N")

Réduction d'un espace à 4 dimensions vers un espace à 2 dimensions.

Ce graphique représente donc la projection d'observation d'un espace à 4 dimensions vers un espace à deux dimensions. Ces 2 axes sont accompagnés du pourcentage d'information récupéré grâce aux valeurs propres. Le premier axe récupère 92,46% de l'information puis le second récupère 5.31%. Au total, les 2 premiers axes ont récupéré plus de 97% de l'information. Et comme les couleurs nous le montre, nous constatons que les fleurs de la même espèce sont à proximité dans cette espace bidimensionnel.

Conclusion

Nous avons vu dans ce billet, comment réaliser une analyse en composante principale pas à pas. Bien entendu, il existe des librairies permettant de réaliser cette transformation en une ligne, comme ici avec sklearn. Mais, c'est toujours bien de comprendre comment ça marche ! Par ailleurs, l'analyse en composante principale est une méthode parmi d'autres, de réduction de dimension. Il en existe d'autres avec chacune leurs avantages. Notamment des méthodes non linéaires comme t-SNE ou UMAP. Sachez aussi que la PCA a d'autres applications en informatique, notamment dans le traitement d'image, la compression et la réduction du bruit. En effet si vous faites une PCA sur une image, vous récupérer le maximum d'information utile sans le bruit. En faisant l'inverse d'une PCA, vous reconstituerez alors une image débruitée.

Réferences

Programmation par contrainte

2020-05-23T15:16:33+02:00

On dit souvent qu'être fainéant est gage de qualité chez un programmeur. Dans le sens où il cherchera à résoudre un problème en tapant un minimum de ligne de code et en déléguant au maximum à sa machine. C'est encore plus vrai avec la programmation par contrainte. Contrairement à la programmation classique dite impérative, où vous devez décrire comment résoudre un problème, la programmation par contrainte est un autre paradigme qui vous demande de décrire le problème de façon formelle et c'est un solveur qui se débrouillera de le résoudre pour vous. Dans ce billet nous allons aborder la programmation par contrainte en solvant un problème combinatoire en génétique: l'inférence haplotyique. Pour cela, nous utiliserons la libraire OR-tools fournie par Google, simple d'utilisation et disposant d'une API en python.

Constraint programming represents one of the closest approaches computer science has yet made to the Holy Grail of programming: theuser states the problem, the computer solves it. Eugene C. Freude

Un simple problème pour comprendre

Les problèmes de satisfaction de contraintes ou problème SAT sont des problèmes qui cherchent à trouver toutes les solutions satisfaisant un liste de contraintes booléennes.
Prenons par exemple 2 dés et lançons-les. Quelles sont les valeurs possibles des 2 dés tels que la somme soit égale à 7 ?
De façon générale, pour modéliser ce problème, Il faut d'abord définir les variables et leurs domaines, c'est-à-dire les valeurs qu'elles sont autorisées à prendre. Dans notre cas, nous avons 2 dés dont les valeurs vont de 1 à 6. Ensuite, il faut définir leurs contraintes par des expressions booléennes. Ici, la somme des 2 dés est égale à 7. Et c'est tout.... Le solveur se chargera du reste.
la librarie OR-tools va nous permettre de modéliser ce problème et le résoudre via son solveur SAT.
Regardons le code:

Après avoir installer OR-tools:

python -m pip install --upgrade --user ortools

Exécuter le code suivant:

# Import de la libraire 
# Ortools tools dispose de différents solveurs, notamment un solveur SAT. 
from ortools.sat.python import cp_model

# Création du modèle = Notre problème
model = cp_model.CpModel()

# Création de deux variables : Le dé x et le dé y avec un domaine de valeur entre 1 et 6 
x = model.NewIntVar(1, 6, "Premier dé ")
y = model.NewIntVar(1, 6, "Deuxième dé")

# Création d'une contrainte 
model.Add(x+y == 7)

# Création du solveur pour résoudre le problème
solver = cp_model.CpSolver()
status = solver.Solve(model)

# Le solveur peut nous dire si le modèle admet des solutions ou non 
if status == cp_model.FEASIBLE:
    # Afficher toutes les solutions 
    solver.SearchForAllSolutions(model, cp_model.VarArraySolutionPrinter([x,y]))

Vous devriez alors obtenir toutes les solutions possibles comme montré ci-dessous.

Solution 0, time = 0.00 s
  Premier dé  = 1   Deuxième dé = 6 
Solution 1, time = 0.00 s
  Premier dé  = 2   Deuxième dé = 5 
Solution 2, time = 0.00 s
  Premier dé  = 3   Deuxième dé = 4 
Solution 3, time = 0.00 s
  Premier dé  = 4   Deuxième dé = 3 
Solution 4, time = 0.00 s
  Premier dé  = 5   Deuxième dé = 2 
Solution 5, time = 0.00 s
  Premier dé  = 6   Deuxième dé = 1

Essayez de votre coté de retirer les contraintes. Vous devriez alors obtenir toutes les combinaisons de dé possible. Et si vous voulez éviter d'avoir une symétrie des résultats, vous pouvez rajouter la contrainte suivante : model.Add(x > y) pour obtenir une liste réduite.

  Premier dé  = 4   Deuxième dé = 3 
Solution 1, time = 0.00 s
  Premier dé  = 6   Deuxième dé = 1 
Solution 2, time = 0.00 s
  Premier dé  = 5   Deuxième dé = 2

C'était facile non ? Et vous pouvez résoudre ce problème avec autant de dé que vous voulez aussi facilement. En réalité ce problème est tellement simple qu'il peut se résoudre plus efficace en programmation impérative. @Natir m'a gentillement proposé le one-liner suivant :

import itertools
[d for d in itertools.combinations_with_replacement(list(range(1, 7)), 2) if sum(d) == 7]

Mais pour d'autres problèmes combinatoires plus complexes, cela sera beaucoup plus facile en le modélisant comme un problème de satisfaction de contrainte comme celui que nous allons voir.

Inférence haplotypique

Qu'est-ce qu'un haplotype ?

Nous sommes des organismes diploïdes. C'est-à-dire que nos chromosomes vont par paire. Nous avons par exemple deux chromosomes 3 homologues, l'un provenant du père et l'autre de la mère. Si vous héritez d'une mutation génétique présente sur le chromosome 3 de votre père, alors vous héritez aussi des autres mutations sur ce même chromosome. On dit alors que ces mutations sont en déséquilibre de liaison et forme un haplotype. En réalité, il y a des recombinaisons plus ou moins grandes au sein des chromosomes qui brisent cette liaison. Je préfère alors définir un haplotype comme un ensemble de variation génétique qui voyage ensemble à travers les générations.

Qu'est-ce qu'un génotype ?

Lorsque l'on séquence l'ADN d'un individu, nous lisons les mutations génétiques sans savoir si elles sont portées sur le chromosome paternel ou maternel. Pour une mutation donnée, nous pouvons juste dire si le patient est homozygote (même mutation sur les deux chromosomes homologues ) ou hétérozygote (mutation différente).
Tout le problème est de pouvoir inférer les haplotypes à partir du génotype.

A gauche: Génotype obtenu à partir des deux haplotypes parentaux. A droite: Illustration d'un problème d'inférence haplotypique.

Modélisation du problème

Supposons que nous connaissons l'existence de m haplotypes pour n variations . Posons H, une matrice binaire m x n définissant la présence ou non de chaque variation sur chaque haplotype. Posons G, un vecteur de taille n définit sur {0,1,2} pour representer le génotype d'un individu avec 0 pour homozygote non muté, 1 pour hétérozygote et 2 pour homozygote muté .

Modélisation du problème d'inférence haplotypique. A partir d'un Matrix de 4 haplotypes connus sur 3 variations. L'objectif est de trouver les deux haplotypes pouvant expliquer le génotype.

Le problème revient à trouver deux haplotypes (2 numéros de lignes de H) dont la somme de chaque colonne est égale à la valeur du génotype correspondant. Pour ce faire nous définissons dans notre modèle chaque élément de H comme une constante. Puis deux variables correspondant aux numéros de ligne de H dont le domaine varie entre 0 et m-1. Enfin, nous posons nos contraintes pour que la somme des haplotypes choisis corresponde au génotype.

from ortools.sat.python import cp_model
import numpy as np 

# Creation d'une modèle
model = cp_model.CpModel()

# Matrice H  
haplotype_input = np.array([
[0,0,1], # haplotype 0
[0,1,0], # haplotype 1
[0,1,0], # haplotype 2
[0,1,1], # haplotype 3
])

#Vecteur G 
genotype_input = [0,1,2]  # genotype input to test 

# Dimensions de la matrice H
len_haplotype, len_snp = haplotype_input.shape

# Création de d'une constante dans notre modèle pour chaque élement de H
haplotypes = [[model.NewConstant(int(v)) for v in line] for line in haplotype_input]

# Création de deux variables correspondant au lignes des haplotypes choisis
index_a = model.NewIntVar(0, len_haplotype-1, "haplotype index")
index_b = model.NewIntVar(0, len_haplotype-1, "haplotype index")

# Valeurs de l'halpotype A choisi 
a_values = [model.NewIntVar(0,1,f"value_a_{i}") for i in range(len_snp)]

# Valeurs de l'halpotype B choisi 
b_values = [model.NewIntVar(0,1,f"value_b_{i}") for i in range(len_snp)]

# On transpose la matrix pour utiliser la contrainte AddElement
haplotype_transpose = list(map(list, zip(*haplotypes)))

# La contrainte AddElement(index,variable,target) correspond à variable[index] == target
# Pour chaque variation, ajouter la contraintes d'addition  
for i in range(len_snp):
    model.AddElement(index_a, haplotype_transpose[i], a_values[i]) 
    model.AddElement(index_b, haplotype_transpose[i], b_values[i]) 
    model.Add(a_values[i] + b_values[i] == genotype_input[i])

# Suppression de la symétrie des résultats 
model.Add(index_a < index_b)

solver = cp_model.CpSolver()

status = solver.Solve(model)

if status == cp_model.FEASIBLE:
    solver.SearchForAllSolutions(model, cp_model.VarArraySolutionPrinter([index_a,index_b]))
else:
    print("pas de solution ")

Nous obtenons comme solution au génotype G=[0,1,2], l'haplotype 1 [0,0,1] et l'haplotype 2 [0,1,1].

Solution 0, time = 0.00 s
  haplotype index = 0   haplotype index = 3

Conclusion

La programmation par contrainte est particulièrement efficace lorsqu'il s'agit d'un problème combinatoire NP difficile comme résoudre un sudoku ou colorier les régions d'une carte de France tel que deux régions voisines soient coloriées de différentes couleurs. Je vous invite à regarder leurs codes sources . Il existe bien sûr d'autres types de solveur et d'autre langage comme Prolog ou ASP. Je vous invite d'ailleur à consulter un rare tutorial en français sur l'Answer Set Programming fait par @Aluriak.

Équation différentielle et python

2020-04-12T14:45:57+02:00

Dans ce billet nous allons définir et apprendre à résoudre des équations différentielles ordinaires à l'aide du langage Python. Nous traiterons ensuite un cas pratique en modélisant une épidémie avec un modèle SIR pour faire écho à la situation actuelle.
PS: Je ne suis pas mathématicien, donc désolé pour mon vocabulaire et mon absence de rigueur.

À quoi sert une équation différentielle ?

À l'instar d'une équation usuelle, comme $x+2=3$, où il faut trouver la valeur de $x$, une équation différentielle a pour inconnue une fonction. Plus exactement, il s'agit d'une équation mettant en relation la fonction inconnue et ses dérivées. En effet, il est souvent plus simple de modéliser un problème en définissant les variations d'une fonction (sa dérivée) plutôt que la fonction elle-même. Par exemple, pour connaître la position d'une voiture en fonction du temps lors d'un trajet, vous pourriez par exemple, attacher un mètre ruban derrière la voiture et regarder au temps t, combien de mètres vous avez parcourus. Je ne pense pas devoir vous convaincre en disant que cette méthode est difficile à réaliser. Il est effectivement plus simple de lire la vitesse sur votre compteur à intervalle de temps régulier et de calculer à partir de celle-ci votre position. Car la vitesse n'est autre que la dérivé de la position par rapport au temps. Si par exemple, vous avez une vitesse constante de $f'(t) = 50 km/h$, alors vous pouvez déduire que l'équation donnant la position en fonction du temps est $f(t) = 50 \times t$. Au bout de 2h de route, vous avez parcouru 100 km.

Calculer le nombre de bactéries en fonction du temps

Essayons par exemple de trouver la fonction $N(t)$ décrivant l'évolution du nombre de bactéries en fonction du temps. Supposons pour l'exemple que nous avons au temps zéro $N_0=100$ bactéries et que le nombre de bactéries au temps $t+1$ augmente de façon proportionnelle à $N(t)$. C'est-à-dire qu'à $t+1$ nous avons:

$$ N(t+1) = N(t) + N(t) \times k \[5mm] N(t+1) - N(t) = N(t) \times k \[5mm] Soit \[5mm] \Delta N = N(t) \times k $$

Cette équation exprime la quantité de nouvelles bactéries à rajouter à chaque génération.
Essayons à présent en Python, avec 3 méthodes différentes, d'utiliser cette formule pour calculer le nombre de bactéries en fonction du temps.

Méthode algorithmique naïve

Une façon triviale de résoudre ce problème en Python est de calculer itérativement à partir de N(t), la prochaine valeur de N(t+1). Nous obtenons alors une croissance exponentielle.

import numpy as np 
import matplotlib.pyplot as plt

N_0 = 100  # Population initial
k = 0.2    # coef
times = np.arange(0,100,1) # Temps 
y  = []
N = N_0
# iteration et calcul de N(t+1)
for x in times:
  y.append(N)
  N  = N + N * k

plt.figure(figsize= (15,5))
plt.plot(times, y, "bo", color="#01a698")
plt.xlabel("temps")
plt.ylabel("Nombre de bactérie")

Méthode algorithmique avec scipy

L'équation précédente définie sur des intervalles de temps discret peut être réinterprétée dans le domaine continu à l'aide de l'équation différentielle ci-dessous:

$$ \frac{dN}{\delta t} = N \times K \[5mm] Soit \[5mm] \frac{dN}{\delta t} = N \times ln(k + 1)
$$

Attention: La valeur de grand K dans le domaine continu pour un $\delta t$ infinitésimal n'est pas le même que petit k dans le domaine discret pour un $\Delta t=1$. La relation entre K et k s'écrit $K = ln(k + 1)$. Merci à @Paljasn pour l'explication !

En python, la fonction ode du module integrate de scipy permet de résoudre cette équation différentielle. Il faut d'abord définir la dérivée de l'équation différentielle avec comme premier argument la fonction inconnue (N) puis sa variable (t) et autant de paramètres que nécessaire (k):

import numpy as np 
import matplotlib.pyplot as plt
from scipy.integrate import ode

def deriv(N, t, K):
    """ Dérivé de N par rapport au temps t et du coef K """
  dNdt = K * N 
  return dNdt

N_0 = 100
k = 0.2
K = np.log(k + 1)
t = np.arange(0, 100, 1)

# Résolution de l'équation différentielle avec ode 
ret = odeint(deriv, N, t, args = (K,) )

plt.figure(figsize= (15,5))
plt.xlabel("temps")
plt.ylabel("Nombre de bactérie")
plt.plot(t, y, "bo", color="#a81b22")

Méthode analytique

La méthode précédente permet de tracer la fonction $N(t)$. En revanche, elle ne nous donne pas son équation. Dans la plupart des cas, on ne pourra pas faire autrement. Il faudra alors utiliser des méthodes similaires aux précédentes. Cependant, dans notre exemple, il existe une solution analytique en isolant $dN$ et en calculant son intégrale. Le nombre de bactéries en fonction du temps s'écrit alors :

$$ \begin{array}{lc} \frac{dN}{dt} = N \times k \[0.2cm] \frac{dN}{dt} \times dt = N \times k \times dt \[0.2cm] dN = N \times k \times dt \[0.2cm] \frac{1}{N}dN= k \times dt \[0.2cm] \int\frac{1}{N}dN= \int k \times dt \[0.2cm] ln(N) + c_1 = kt + c_2 \[0.2cm] ln(N) = kt + C \[0.2cm] N = N_0 \times e^{kt} \end{array} $$

import numpy as np 
import matplotlib.pyplot as plt

N_0 = 100
k = 0.2
K = np.log(k + 1)

times = np.arange(0, 100)
#  Calcul de N via la fonction analytique 
N =  N_0 * np.exp(K * times)

plt.figure(figsize= (15,5))
plt.xlabel("temps")
plt.ylabel("Nombre de bactérie")
plt.plot(t, y, "bo", color="#a81b22")

Modélisation d'une épidémie

Le modèle SIR est une modélisation compartimentale décrivant l'évolution au cours du temps du nombre d'individus Sains (S), Infectés (I) et Rétablis (R). Dans ce modèle à trois compartiments, la population est constante. Le nombre de nouveaux patients infectés dépend du nombre d'individus sains et du nombre d'individus infecté pondéré par un facteur β. C'est-à-dire qu'à chaque instant t, il faut retirer des sains et ajouter aux infectés le nombre $-\beta \times I(t) \times S(t)$. De même, le nombre de patients rétabli dépend du nombre d'infecté et d'un paramètre γ. À chaque instant t, le nombre de patients rétablis augmente donc de $\gamma \times I(t)$.

Modèle à trois compartiments avec deux constantes de transfert décrivant l'évolution de la population durant une épidémie.

L'évolution du nombre d'individus dans ces 3 compartiments peut alors être décrite à l'aide de 3 équations différentielles et des deux constantes de transfert β et γ.

$$ \begin{array}{lc} \frac{dS(t)}{dt} = -\beta \times I(t) \times S(t) \ \frac{dI(t)}{dt} = \beta \times I(t) \times S - \gamma \times I(t) \ \frac{dR(t)}{dt} = \gamma \times I(t)\ \end{array} $$

Nous pouvons alors traduire ces 3 équations différentielles et les résoudre avec le module ode.

def deriv(y, t, beta, gamma):
    """
    y : liste contenant les 3 fonctions inconnus 
    t : le temps 
    beta, gamma : les deux facteurs du modèle
    """
  S,I,R = y 

  # Description des 3 equations differentielles 
  dSdt = -S * I  * beta 
  dIdt = S * I  * beta  - gamma * I 
  dRdt = gamma * I 

  return dSdt, dIdt, dRdt 


# Au temps t0,  70% sains, 30% infécté, 0 guéri 
y0 = 0.7, 0.3, 0

# Evolution sur 28 jours 
t = np.linspace(0, 28)

# Paramètres du modèle 
beta = 0.5
gamma =  0.1

# Resolution des équations differentielles 
ret = odeint(deriv, y0, t, args = ( beta, gamma))
S,I,R = ret.T

plt.figure(figsize=(20,10))
plt.plot(t, S, label="Sains")
plt.plot(t, I,label="Inféctés")
plt.plot(t, R, label="Rétablis")

plt.xlabel("temps")
plt.ylabel("nombre d'individu")
plt.legend()
plt.title(f"Proportion des individus durant une épidémie modélisé par MIR avec β = {beta} et γ = {gamma}")

Evolution en pourcentage des 3 populations (saines, infectées, guéries) au cours du temps à l'aide d'un modèle SIR paramétré par β=0.5 et γ=0.1

Je vous invite à jouer avec les paramètres de ce modèle afin de voir l'impact qu'ils ont sur l'épidémie. Vous pouvez le faire directement en ligne sur la page suivante.. Par ailleurs, le notebook de ce billet est disponible ici

Référence

Inférence bayésienne et python

2020-03-27T19:40:47+01:00

Cela fait un moment que j'avais envie de publier sur l'inférence bayésienne. Mon intérêt pour ce sujet a été éveillé par la lecture du livre La formule du savoir par Nguyên Hoang Lê. En deux mots, l'inférence bayésienne est une méthode qui permet de donner une crédibilité à nos croyances en s'appuyant sur nos observations et nos a priori. Dans ce billet je définirai, à partir d'exemples intuitifs, l'inférence bayésienne et son vocabulaire. Puis, j'implémenterai la méthode avec un script rédigé en python seul et avec la librairie de programmation probabiliste PyMC3.

La probabilité des causes

Selon le principe de causalité, la connaissance des causes, permet de prédire, ses effets. La mécanique newtonienne permet, par exemple, de prédire la trajectoire d'un javelot lancé par un athlète.
On peut, cependant, être tenter de faire l'inverse. C'est à dire d'inférer les causes à partir des effets observés. En observant des traces de pas, nous pouvons par exemple supposer avec une probabilité plus ou moins forte que le tueur était sur la scène du crime.
En général, les observations peuvent être suffisemment décrites et mesurées alors que la connaissance des causes ou des théories sous-jacentes est la plupart du temps hors de portée. Grâce à l'inférence bayésienne il devient possible de mesurer, à partir de l'observation et d'un a priori, la crédibilité d'une cause.
Dans la suite de ce billet, j'utiliserai les mots hypothèses et donnée que vous pouvez à tout moment remplacer par cause est effets.

Qui est dans la boite ?

Imaginez une boite dans laquelle se cache une personne inconnue. Quelle probabilité peut-on accorder aux deux hypothèses suivantes :

la personne est un homme
la personne est une femme

A priori, sans autre information, la probabilité est 50-50, 'est-à-dire qu'il y a autant de chance que ce soit une femme qu'un homme. Appelons cette probabilité, probabilité a-priori notée p(hypothèse), soit dans notre exemple p(homme) = p(femme) = 0.5. Notons que la somme des probabilités de l'ensemble des hypothèses doit être égale à 1 (la personne inconnue ne peut être autre chose qu'un homme ou une femme). Si maintenant, nous disposons d'une donnée supplémentaire, à savoir que la personne inconnue a les cheveux longs, la probabilité que l'inconnu soit un homme ou une femme change en augmentant p(femme) et en diminuant d'autant p(homme). En effet, intuitivement, nous savons qu'il y a plus de femmes aux cheveux longs que d'hommes aux cheveux longs.
Cette nouvelle grandeur est appelée, en statistique, vraisemblance des données : c'est la probabilité d'observer des données en supposant une hypothèse vrai. Elle est notée p(donnée|hypothèse). Admettons, par exemple, que parmi toutes les femmes, 70% ont les cheveux longs et parmi tous les hommes, 10% ont les cheveux longs. Dans ce cas p(cheveux_longs|femme) = 70% et p(cheveux_longs|Homme) = 10%.
Mais ce que nous cherchons est différents. Nous voulons connaître la probabilité que la personne dans la boîte soit une femme, sachant qu'elle porte les cheveux long. Nous appelons cette probabilité, probabilité a-posteriori notée p(hypothèse|donnée). (Attention de ne pas confondre cette dernière probabilité avec la vraisemblance des données: la probabilité d'être argentin sachant qu'on est le pape n'est pas la même chose que la probabilité d'être le pape sachant qu'on est argentin.)
La probabilité a-posteriori est égale, selon la formule de Bayes, au produit de la probabilité a-priori et de la vraisemblance des données, le tout normalisé par la somme des probabilités a-posteriori de toutes les autres hypothèses :

$$ \begin{array}{lc} p(H|D) &=& \frac{p(H) \times p(D|H)}{\sum_{i} p(H_i) \times p(D|H_i) }\[0.5cm] \end{array}\[0.5cm] \text{$H$ : hypothèse et $D$ : données} $$ Calculons, dans notre exemple, la probabilité a-posteriori pour chaque hypothèse :

$$ \begin{array}{lcc} p(\text{homme}) \times p(\text{cheveux_longs}|\text{homme}) = 0,5 \times 0,1 = 0,05 \[0.5cm] p(\text{femme}) \times p(\text{cheveux_longs}|\text{femme}) =0,5 \times 0,7 = 0,35 \end{array} $$ et donc :

$$ \begin{array}{ccl} p(\text{homme}|\text{cheveux_longs}) = \frac{0.05} {(0.35 + 0.05)} = 12,5\% \[0.5cm] p(\text{femme}|\text{cheveux_longs}) = \frac{0.35} {(0.35 + 0.05)} = 87,5\% \end{array} $$

La personne dans cette boite, a donc 87,5% de chance d'être une femme et 12.5% de chance d'être un homme.

Cependant, le bayésiens préfèrent raisonner en termes de paris plutôt qu'en termes de probabilités. En effet, le dénominateur de la formule de Bayes est une constante parfois très compliqué à calculer. Il s'annule lorsque l'on fait le rapport entre les deux hypothèses. Dans notre cas : $$ \frac{p(\text{femme}|\text{cheveux_longs})}{p(\text{homme}|\text{cheveux_longs})} = \frac{0.35}{0.05} = 7$$

Je peux ainsi parier à 7 contre 1 que la personne dans la boite est une femme. Remarquez que le bayésien évalue toujours une hypothèse par rapport à toutes les autres. Les probabilités perdent leurs caractères absolus pour devenir relatives.

Ainsi, si il y avait une seul formule à retenir, ce serait la relation de proportionnalité suivante:

$$ posteriori \sim priori \times vraisemblance $$

En résumé, l'inférence bayésienne consiste à évaluer une probabilité a-postiori à partir d'une probabilité a-priori corrigée par la vraisemblance des données observées. La probabilité ainsi obtenue peut à son tour servir d'un a-priori que l'on corrigera si de nouvelles données sont disponibles. En procédant ainsi de façon itérative, la probabilité des hypothèses convergera vers «la vérité» ...
Je vous soumets à votre réflexion un exercice dans le contexte de la pandémie du Covid-19, de quoi occuper votre temps de confinement. Si je me mets à tousser, quel pari faites-vous sur le fait que je sois contaminé ou non ? C'est marrant, mais vous auriez certainement pas dit la même chose quelque mois plutôt. Pourquoi à votre avis ? A cause de vos a-priori que vous ne devez jamais ignorer !

Bayes pour les distributions continues

Dans l'exemple précédent de la personne câchée dans une boite, la distribution des probabilités des deux hypothèses, femme ou homme, peut être représentée par une distribution discrète à deux événements. Nous pouvons généraliser le problème en augmentant le nombre d'hypothèses. Par exemple, chercher la probabilité que la personne dans la boite soit blond(e), brun(e), roux, châtain ou , pour allez encore plus loin, des hypothèses sur la taille. Dans ce cas, il y a une infinité d'hypothèses et la distribution discrète tend vers une densité de probabilité d'une variable aléatoire continue.

Pour calculer la probabilité d'une variable (ou hypothèse) $x$ connaissant les probabilités des données, la formule de Bayes s'applique de la même façon, sauf que la somme au dénominateur devient une intégrale :

$$p(x|\text{donnée}) = \frac{p(x) \times p(\text{donnée}|x) }{\int p(x)p(\text{donnée}|x) dx}$$

Parier sur les paramètres d'une loi de probabilité

Une loi de probabilité est une fonction mathématique décrivant la distribution d'une variable aléatoire. Elle est définie, par exemple, par la moyenne (µ) et l'écart type (σ) pour une loi normale, le paramètre lambda (λ) pour une loi de poisson ou encore les paramètres (n,p) pour une loi binomiale. En statistique bayésienne, on fera des paris sur ces paramètres après avoir observé des données. Supposons, par exemple, que la distribution des tailles de la population suit une loi normale de moyenne µ. En observant les tailles de plusieurs individus dans un échantillon, nous pouvons essayer de deviner la valeur de µ. Plus exactement, nous allons chercher la distribution de probabilités des valeurs possible de µ.
Dit autrement, le paramètre θ d'une loi de probabilité A décrivant une variable aléatoire $x$ peut lui même être décrit comme une variable aléatoire suivant une autre loi de probabilité B. C'est compliqué, je sais.. Allez, un exemple concrêt pour mieux comprendre.

Comment savoir si une pièce est truquée ?

Considérons le jeu de pile-ou-face avec une pièce de monnaie et appelons thêta (θ) la probabilité que la pièce tombe sur face. Si la pièce n'est pas truquée alors la probabilité θ est 0,5. Dans le cas contraire, θ peut prendre n'importe quelle valeur comprise entre 0 et 1. Statistiquement parlant nous dirons que la variable aléatoire $x$ (pile ou face) suit une loi discrète de Bernouilli paramétrée par θ.

$$x \sim \text{Bern}(p=\theta)$$

Malheureusement je n'ai aucune idée de la valeur de θ. Pour l'estimer, il faut expérimenter en lançant plusieurs fois la pièce et comptabiliser les fois où elle tombe sur face (1) et les fois où elle tombe sur pile (0). Voici par exemple ce que j'obtiens après 10 lancers :

Observation = [1,0,0,1,1,0,1,1,0,1]

À partir de ces données, comment faites-vous pour estimer θ ?
Et bien, grâce à l'inférence bayésienne, nous pouvons calculer la distribution des valeurs possible de θ au regard de notre observation:

$$p(\theta|\text{observation}) \sim p(\theta) \times p(\text{observation}|\theta)$$

Il nous faut donc un a-priori et une vraisemblance.

Calcul de l'a-priori

θ est une probabilité. Sa valeur est comprise entre 0 et 1. Ils nous faut donc une loi définie sur cet intervalle. Nous pourrions, par exemple, choisir la loi uniforme sur [0-1], c'est-à-dire associer à chaque valeur possible de θ la même probabilité. Ça marcherait, mais dans ce cas, l'a-priori ne nous apporterait aucune information. Personnellement, j'aurais tendance à dire qu'une pièce truquée est peu probable, car après tout.... je n’en ai jamais vu !
Nous allons donc choisir une loi bêta, très souvent utilisée en inférence bayésienne pour définir l'a-priori :

$$\theta \sim \text{Beta}(a, b)$$

La forme de cette loi bêta dépend de deux paramètres $a$ et $b$, comme cela est illustré dans la figure ci-dessous.

différentes formes de la loi bêta selon les paramètres a et b

Je vous propose d'utiliser la loi symétrique de paramètres $a = 5$, et $b = 5$, dont la probabilité est maximum pour $θ = 0.5$ et tend vers zéro lorsque $θ$ tend vers 0 ou 1.
A l'aide du module stats de la librarie scipy, nous pouvons implémenter cette fonction en langage python :

def prior(theta):
    prior = stats.beta(5,5).pdf(theta)
    return prior

Calcul de la vraisemblance

La vraisemblance est la probabilité d'observer des données en supposant vrai la loi de Bernoulli sous une valeur spécifique de θ. Etant donné qu'il y a plusieurs observations indépendantes ($x1, x2, x3, \cdots$) nous pouvons écrire :

$$p(x_1,x_2,\cdots, x_n | \theta ) = p(x_1|\theta) \times p(x_2|\theta) \times \cdots \times p(x_n|\theta) $$

Ce qui peut être implémenter en python comme suit :

def vraissemblance(observations, theta):
    L = []
    loi =  stats.bernoulli(theta)
    for x in observations:
        y =  loi.pmf(x)
        L.append(y)
    return np.prod(L)

En réalité, nous aurions pu utiliser la loi binomiale... Mais nous n'allons pas nous encombrer d'une autre loi.

Calcul de l' a-posteriori

Il suffit maintenant d'appliquer la formule de Bayes pour avoir la forme de la distribution des probabilités a-posteriori de θ et l'afficher avec matplotlib:

def posteriori(theta, observations):
    prior = prior(theta)
    likelihood = vraissemblance(observations, theta)
    return  likelihood * prior

# 100 observations  
#observations = [0, 0, 1, 1, 0, 1, 1, 0, 1, 1, .... ] 

# Calculer les probabilités pour plusieurs valeurs de θ 
x = np.linspace(0.1,1, 100)
y = [posteriori(theta, data[:100]) for theta in x]
plt.plot(x,y)

Distribution a-posteriori de θ avec un maximum autour de θ = 0,8. L'axe des absisses correspond aux valeurs possible de θ, l'axe des ordonnées à leurs probabilités

Pour mieux comprendre ce graphique, j'ai calculé l' a-posteriori avec un nombre croissant d'observations :

Distribution des probabilités θ en augmentantle nombre d'observations. Plus les données s'accumulent, plus le maximum de la distribution se stabilise autour de θ = 0,8.

Sans observation, le maximum de la distribution des probabilités est en θ = 0,5. Il s'agit là de notre a-priori. Ensuite, avec l'accumulation progressive des observations, le maximum de la distribution se rapproche de 0,8 et la variance de la distribution diminue.
Ainsi nous pouvons conclure, grâce à l'inférence bayésienne, que les observations sont en faveur d'une pièce truquée avec un θ probablement de 0,76. Effectivement, j'ai généré automatiquement les observations avec une loi de Bernouilli paramétré par 0,8 et je vous ai caché volontairement le code pour éviter les confusions! Notons dans l'exemple, que l'a-priori très faible pour la valeur de 0,8 nous empèche d'être parfaitement centré sur 0,8. Il nous faudrait pour cela plus de donnée. L'adage suivant illustre bien cette situation: « Une affirmation extraordinaire nécessite une preuve plus qu’ordinaire ».

Utilisation de PyMC3

Pour finir, voici le même algorithme, mais implémenté cette fois en utilisant la librairie PyMC3. Il s'agit d'une librairie puissante et très simple permettant de faire de la programmation probabiliste. La librarie fonctionne à l'aide d'echantillonneur MCMC. Pour faire simple, les échantillonneurs vont générer aléatoirement des valeurs de θ suivant la distribution a-posteriori recherchée. Cela permet d'éviter le calcul fastidieux de l'intégrale vu plus haut, et construire des modèles bien plus complexes avec de nombreux paramètres.

import pymc3 as pm
import arviz as az

#observations = [0, 0, 1, 1, 0, 1, 1, 0, 1, 1, .... ] 

with pm.Model() as model:
    # Definition d'un a priori suivant une loi bêta paramétrée par alpha et bêta 
    theta = pm.Beta("theta", alpha=5, beta=5) 

    # Définition de la vraisemblance des données sous l'hypothèse thêta 
    y = pm.Bernoulli("y", p=theta, observed = data)

    # Échantillonnage de 1000 valeurs de thêta
    trace = pm.sample(1000, random_seed=123)


# Visualisation des résultats avec la librarie arviz
az.plot_trace(trace)

Distribution des probabilités de θ avec l'interval de crédibilité appelé HPD.

Voilà pour ce billet qui est déjà assez long ! Je vous invite fortement à regarder les références ci-dessous. L'ensemble du code ayant servi à illustrer ce billet est disponible et éditable sur google colab.
Il y a également ce billet pour anglophone dans le contexte du Covid-19 qui fait des prédictions bayésienne sur la cinétique de l'épidémie.

Référence

Les chaînes de Markov

2019-12-24T12:44:30+01:00

Les chaînes de Markov sont très populaires en bioinformatique, en particulier lorsque l'on travaille avec des séquences biologiques. J'aime bien me les représenter comme des machines générant des symboles aléatoires (ou processus stochastique) dont la probabilité d'apparition de chacun dépend du précédent.
Dans ce billet, nous allons les définir et voir comment nous pouvons les utiliser en pratique.

Un dé à 4 faces

Imaginez un dé à 4 faces sur lequel sont représentées les quatre bases A,C,G,T de l'ADN. Lancez ce dé plusieurs fois en notant chaque résultat. Par exemple, le premier lancé vous donne un A, le deuxième un T, le troisième un A et ainsi de suite jusqu'à générer une longue séquence. Si le dé n'est pas truqué, à chaque lancée, vous avez exactement une chance sur 4 d'obtenir chacune des quatre bases.
Une façon de représenter ce tirage aléatoire est d'utiliser un graphe, appelé diagramme de transition, ou chaque nœud représente les bases ou états et les arrêtes les probabilités de transitions. Dans la figure ci-dessous, il y a 4 états (A,C,G,T) et 16 transitions avec leurs probabilités toutes égales à 1/4. Par exemple, la probabilité d'obtenir un C après en A est de 1/4 et de même pour les autres transitions. Pour générer une séquence aléatoire, choisissiez un nœud au hasard, puis faite une marche dans ce graphe en suivant les probabilités de transition. Notez la valeur de chaque nœud traversé. Bravo, vous venez de générer une séquence à l'aide une chaîne de Markov.

Génération d'une séquence avec une chaîne de Markov.
Il y a 4 états (A,C,G,T) et 4x4=16 transitions possibles toutes avec une probabilité de 1/4

Définition d'une chaîne de Markov

Une chaîne de Markov se définit donc par un vecteur d'état E et une matrice de transition T.
Dans notre cas, il y a 4 états possibles soit:

$$E = {A,C,G,T}$$

Et 16 probabilités de transition, noté $p(N_{t+1}|N)$ , que l'on représente par une matrice carrée avec dans l'ordre A,C,G,T pour les lignes et les colonnes. Par exemple la transition p(A|A) (A précédé de A) se lis dans la matrice aux coordonnées (0,0). La transition p(A|C) ( A précédé de C), aux coordonnées (0,1) .

$$ T = \begin{bmatrix} 1/4 & 1/4 & 1/4 & 1/4 \ 1/4 & 1/4 & 1/4 & 1/4\ 1/4 & 1/4 & 1/4 & 1/4\ 1/4 & 1/4 & 1/4 & 1/4 \ \end{bmatrix} $$

En changeant les probabilités de transition, nous pouvons alors paramétrer notre générateur pour qu'il produise des séquences avec des profils particuliers. Dans la figure suivante, j'ai donné une probabilité de 0.7 aux transitions p(G|C) et p(C|G). Avec cette nouvelle table de transition, je peux alors générer des séquences riches en GC comme l'illustre l'animation suivante.

Les probabilités de transitons ont changé en faveur de G->C et C->G.
La séquence générée est riche en GC

Distribution stationnaire

En faisant tourner votre générateur assez longtemps et en comptant la fréquence d'apparition de chaque base, vous obtiendrez une distribution stationnaire au bout d'un certain temps. C'est-à-dire que peut importe la longueur de la séquence, la probabilité d'avoir une certaine base dans la séquence sera toujours la même. Les histogrammes ci-dessous montrent la fréquence des bases obtenues parmi les N premiers nucléotides générées par une chaîne de Markov en utilisant la matrice de transition du dé à 4 faces équiprobables. Comme on peut s'y attendre, cette distribution converge pour devenir uniforme.

Distributions des bases sur un génération de N bases.
La distribution converge pour devenir uniforme

Ces distributions se calculent en faisant un peu d'algèbre linéaire. On choisi de représenter la distribution des 4 bases par un vecteur $\pi_{t} = [pA, pC, pG, pT]$ à un temps donné t . Par exemple, si nous choisissons une séquence commençant par un A, alors la distribution au temps $t0$ est = [1,0,0,0]. On peut alors calculer la distribution au temps t+1 en faisant le produit du vecteur par la matrice de transition T:

$$ \pi_{t+1} = \pi_{t} T $$

De façon générale, on peut calculer la distribution au temps n par :

$$ \pi_{n} = \pi_{0}T^n $$

Trouver la distribution stationnaire, c'est chercher celle qui ne change pas entre deux temps. C'est-à-dire résoudre l'équation suivante :

$$ \pi = \pi T $$

Sachant cela, vous allez pouvoir construire des chaînes de Markov avec la distribution stationnaire de votre choix.
De façon beaucoup plus générale, utiliser les chaînes de Markov comme générateurs aléatoires d'une distribution particulière est à la base des algorithmes MCMC. Principalement en inférence bayésienne pour calculer une distribution a posteriori. Mais ça, c'est une autre histoire !

Un modèle d'apprentissage

Si maintenant, au lieu de générer des séquences à partir d'une chaîne de Markov nous faisions l'inverse. C'est-à-dire construire une chaîne de Markov après avoir observé une famille de séquence. Par exemple, les séquences de différents promoteurs. Cette chaîne servirait alors de modèle pour représenter cette famille. Pour cela il suffit de comptabiliser toutes les transitions existantes dans un jeu de séquence pour déduire les probabilités de la matrice de transition.
Parmi les séquences suivantes, il y a 5 transitions T->A sur 32 transitions possibles. On note alors dans la matrice de transition que la probabilité p(A|T) est de 5/32. On fait de même pour les autres transitions pour obtenir une matrice complète.

 TACGC 

CCTTA 

GCCGC 

AGTAG 

AGCGC 

CTATA 

GTGCA

CGCCA

Dans cette série, il y a 32 transitions. Parmi elles, 5 sont des transitions T->A. La probabilité est donc de 5/32

Une fois la chaîne de Markov définie, il est alors possible d'utiliser ses probabilités pour générer une nouvelle séquence semblable à celles utilisées dans la construction du modèle. C'est de cette façon que les générateurs de texte aléatoires fonctionnent. Par exemple, ce site qui génère des Tweets de Donald Trump.
En génétique, on va plutôt tester si une nouvelle séquence a le même profil que les séquences du modèle. Par exemple quelle est la probabilité que la séquence ATTCG soit une séquence du modèle $\theta$ ? Étant donné que la probabilité d'apparition d'une base dépend uniquement de la précédemment, la probabilité de ATTCG peut s'écrire comme le produit de chaque transition:

$$ p(ATTCG|\theta) = p(A) * p(T|A) * p(T|T) * p(C|T) * p(G|C) $$

Ou plus généralement :

$$ P(S|\theta) = \prod_{0}^{n} p(S_{n}|S_{n-1}) $$

Et comme les additions c'est mieux que les multiplications, on calcule la vraisemblance via le logarithme:

$$ L_{\theta}(S) = \sum_{0}^{n} log(p(S_{n}|S_{n-1})) $$

En lisant les probabilités de la table de transition, on peut alors calculer cette vraisemblance pour évaluer le degré d'appartenance d'une séquence à sa famille. Ce genre d'algorithme s'utilise par exemple pour identifier des familles de protéines. L'algorithme HMMER fonctionne de la même façon, mais en utilisant des chaînes de Markov plus complexe, appelé chaîne de Markov caché que je vais décrire rapidement.

Les chaînes de Markov cachées

Une chaîne de Markov cachée ou HMM ( Hidden Markov Model) est simplement une chaîne de Markov dont certains des états sont cachés. Plus précisément ce sont des états qui ne font pas partie de la séquence générée. Reprenons notre dé et appelons le X. Ajoutons un deuxième dé truqué appelé Y contenant uniquement des G sur ces 4 faces. On lance toujours un seul dé pour générer une séquence. Sauf que cette fois, à chaque lancée, il y a une chance sur 2 que nous changions de dé en cachette. On dit que X et Y sont les états cachés avec 4 probabilités d’émissions chacun. Cette chaîne de Markov peut être représentée par le graphe suivant:

Chaîne de Markov caché avec 2 états cachés X et Y et 4 émissions

Ces 2 états cachés peuvent représenter par exemple les introns et les exons. Les probabilités d’émissions seront différentes selon l'état caché en cours. Il est peut être plus rare par exemple d'avoir du GC dans un exon que dans un intron. On utilise également les chaînes de Markov caché pour modéliser les insertions et les délétions. Le graphe ci-dessous vous montre une chaîne de Markov particulière prenant en compte les positions comme états cachés avec leurs 4 émissions possibles A,C,G,T. En lisant de gauche à droite, ce générateur est capable de produire la séquence ACAATC ou ACACCCCCATC grâce à plusieurs insertions en position 3.

Dans cette chaîne de Markov, les positions sont prises en compte. En position 3, il y a 60% de chance d'avoir une insertion

Comme vu plus haut, il est possible de construire une chaîne de Markov caché en apprenant depuis un corpus de séquence. Mais cette fois, les probabilités de transitions cachées sont beaucoup plus difficiles à calculer, car on ne les observe pas. On peut les estimer en cherchant les valeurs les plus vraisemblance avec par exemple l'algorithme de Baum-Welch. Il s'agit d'un algorithme d'espérance maximisation que nous avons déjà vue dans un autre billet. Notez aussi l'algorithme de Viterbi qui permet d'identifier le chemin le plus probable, lorsqu'on désire aligner une séquence sur un profil HMM.

En bref

Les chaînes de Markov sont des processus stochastiques dont l'état futur dépend uniquement du présent. Elles peuvent être utilisées en génétique pour générer des séquences, mais surtout comme modèle d'apprentissage comme les profils HMM. Elles sont à la base des algorithmes MCMC faisant partie des plus beaux algorithmes du XXe siècle, rien que ça!

Référence

Ce que peut révéler un test génétique sur Internet

2019-04-08T20:07:20+02:00

MyHeritage, 23andMe, Ancestry… Vous en avez sûrement entendu parler. Bien qu'interdits en France (article 16-10), ces tests génétiques en libre accès bénéficient pourtant d'une bonne publicité. Depuis peu, elle se fait par l'intermédiaire de YouTube. Amixem, Squeezie et plus récemment Dr Nozman ont fait ces tests, puis ont partagé leurs résultats en vidéo. Devant cet engouement, j'ai voulu savoir quelles informations étaient rendues à l'utilisateur et si des diagnostics médicaux pouvait être établis d'après les résultats.

Promotion 23andMe pour la fête des pères. « Des liens qui unissent vraiment. »

La génétique à deux vitesses

Avant tout, j'aimerais vous montrer le paradoxe de ces tests génétiques, qu'ils soient réalisés dans un cadre médical ou directement sur Internet. En médecine, ces tests sont très probablement les analyses les plus contrôlées de toutes les analyses de biologie médicale. Ils sont sous l'égide de l'Agence de la biomédecine et sont prescrits uniquement par des médecins généticiens ou par des médecins non généticiens, mais travaillant en relation avec une équipe de génétique clinique. Un consentement (exemple) est obligatoirement demandé aux patients. En oncogénétique, les analyses sont souvent réalisées deux fois pour éviter une erreur sur l'identité. Pour signer des résultats, même après mon doctorat de médecine, j'ai dû attendre d'avoir les agréments de l'Agence de la biomédecine… Et en même temps, il n'a jamais été aussi facile de faire un test génétique sur Internet. Le fait de ne pas avoir besoin de faire une prise de sang les rend même plus faciles et plus accessibles qu'un examen classique de biochimie ou d'hématologie. On clique sur un bouton, on reçoit un kit salivaire par la poste et le tour est joué.
Mais alors, pourquoi un tel contrôle en médecine ? D'abord, à cause du caractère de la génétique à pouvoir prédire des maladies chez des personnes en bonne santé. Contrairement à un examen classique qui teste des patients malades, les examens de génétique concernent souvent des individus sains. C'est une médecine aussi bien de diagnostic (identifier une maladie chez un patient) que de prédiction (identifier une maladie susceptible de se déclarer). Par exemple, retirer les seins d'une femme en bonne santé parce qu'elle est porteuse d'une mutation prédisposant au cancer reste une décision délicate à prendre.
Ensuite, il y a l'hérédité. Vos gènes ne vous appartiennent pas, vous les partagez avec votre famille. Faire votre propre diagnostic implique aussi de le faire chez les membres de votre famille. Et donc si vous réalisez ce type de test génétique, les résultats peuvent vous déclarer porteur d'une mutation, et indirectement suggérer que vos parents, vos frères, vos sœurs, vos enfants partagent également cette mutation. Cela n'impliquera donc pas que vous.

Un test de généalogie qui en dit plus ?

La plupart de ces tests sont vendus comme une analyse sur vos origines ethniques. La société MyHeritage utilise pour cela une puce à ADN permettant d'identifier environ 700 000 variations génétiques appelées SNV (Single Nucleotide Variant) absentes ou présentes de votre génome, qu'elle compare à des populations de référence. Une des méthodes est d'identifier des groupes de SNV (haplogroupes) permettant d'associer un individu à sa population d'origine. Mais alors, qu'est-ce que ces SNV et que peuvent-ils dire de plus ?

Single Nucleotide Variant (SNV)

Un génome humain est constitué de 3 milliards de bases, représentées par les lettres A, C, G et T. Elles sont réparties sur 46 chromosomes différents (22 paires de chromosomes de 1 à 21 + 1 paire XX ou XY selon que vous êtes une femme ou un homme, respectivement). Chacune de vos cellules est constituée de 2 versions de ce génome, héritées de votre mère et de votre père. Un SNV est une modification d'une lettre d'un génome (le vôtre par exemple) par rapport à un génome de référence (séquence d'ADN assemblée par les scientifiques, représentative d'une espèce — ici l'humain – réalisée à partir de plusieurs personnes). Si par exemple, à la position 101594229 du chromosome 9 on vous identifie un A, mais sur le génome de référence il y a un G, alors vous avez un SNV qui peut s'écrire : chr9:101594229G>A. Une partie de ces variations observées sont référencées dans des bases de données de variations génétiques, comme la base de données dbSNP qui attribue à des SNV fréquents un identifiant unique (rs145236923).
Quant au génotype d'un SNV, il indique si vous portez la variation sur un seul ou sur les deux chromosomes hérités de vos parents. Pour une variation donnée, il y a trois génotypes possibles : homozygote sauvage, hétérozygote (sauvage et muté) et homozygote muté.

GG : vous n'êtes pas porteur du SNV (sur aucun chromosome), vous êtes homozygote sauvage ;
AG : vous portez le SNV à l'état hétérozygote (sur un seul chromosome) ;
AA : vous portez le SNV à l'état homozygote (sur deux chromosomes), vous êtes homozygote muté.

Source : Wikipedia, Zygosity

Les puces à ADN permettent d'identifier les génotypes de milliers de SNV préalablement choisis. Le fichier de résultat brut fourni par MyHeritage donne l'identifiant du SNV, sa localisation (chromosome, position) et le génotype pour le p̶a̶t̶i̶e̶n̶t̶ client :

# Exemple de fichier brut 
rs28678693  1   838665  CC  
rs4475691   1   846808  CT
rs72631889  1   851390  TT

Comment interpréter ces SNV ?

Sur les 3 milliards de bases du génome, il y a chez un individu environs 1 SNV toutes les 1000 bases qui le distingue d'un autre individu. La majorité d'entre elles sont bénignes, mais certains peuvent être pathogènes. En génétique médicale, on classe ces variations en 5 classes différentes :

Classe 1 : variation bénigne (benign)
Classe 2 : variation probablement bénigne (likely benign)
Classe 3 : variation de signification indéterminée (unknown significance)
Classe 4 : variation probablement pathogène (likely pathogenic)
Classe 5 : variation pathogène (pathogenic)

Cette classification se fait à l'aide d'arguments scientifiques plus ou moins forts, résumés dans ce qu'on appelle les recommandations de l'ACMG. Par exemple, on peut se poser certaines questions.

La variation est-elle déjà décrite dans la littérature (déjà connue) ?
La variation est-elle rare ou fréquente dans la population (beaucoup d'autres personnes l'ont aussi) ?
Est-elle située dans un gène ou non (située dans les régions codantes du génome) ?
Si oui, impacte-t'elle la protéine codée par ce gène ?
Entraîne-t-elle l'apparition d'un codon stop dans la séquence protéique (protéine tronquée par exemple) ?
…

Être porteur d'une variation classée pathogène ne suffit pas pour prédire ou diagnostiquer une maladie. Par exemple, dans le cas des maladies récessives (mucoviscidose, drépnaocytose…), il faut que les deux copies du gène soient touchées pour être malade. Dans le cas des maladies à pénétrance incomplète (hémochromatose), vous pouvez être porteur de la mutation sans présenter un seul signe de la maladie.

Y a-t-il des variations pathogènes dans ces tests ?

Pour répondre à cette question, j'ai récupéré depuis la base de données ClinVar les variations pathogènes connues de classe 5 et j'ai fait l'intersection avec les 700 000 SNV de la puce illumina OmniExpress 24 utilisée par MyHeritage. Un notebook Python est disponible ici. Il en ressort une centaine de SNV classés pathogènes :

Pathologie	rsid

Parmi ces maladies génétiques, je me contenterai de commenter deux d'entre elles.

La mucoviscidose

22 SNV présents sont identifiés sur cette puce comme pathogènes pour la mucoviscidose. Il s'agit d'une maladie récessive très fréquente impliquant le gène CFTR situé sur le chromosome 7. Cela signifie que les deux copies du gène doivent êtres touchées pour entraîner la maladie. Une personne hétérozygote est porteuse saine et a un risque d'1 sur 2 de transmettre la variation à son enfant. On trouve dans la liste la variation rs75961395 ou VG07S29458, correspondant à la mutation c.254G>A Gly85Glu décrite dans la base de donnée CFTR-France. Elle fait partie des 30 mutations les plus fréquentes que l'on recherche systématiquement en routine (lors du diagnostic). Mais elle représente moins de 1 % des mutations chez les patients, loin derrière la mutation DF508, la plus connue et la plus fréquente.

La G85E represence 0,6 % des causes de mucoviscidoses.
Source: Cystic Fibrosis Foundation Patient Registry 2014.

Prédisposition au cancer

S’il y a bien des tests génétiques extrêmement contrôlés, ce sont les tests d'oncogénétique indiquant la prédisposition au cancer avec une forte pénétrance. En étant porteur de ce type de variation pathogène, il y a une forte probabilité de développer un cancer. La liste de ces gènes est détaillée sur la page de l'INCa que je vous conseille de lire.
On y trouve le syndrome héréditaire de prédisposition au cancer du sein et de l'ovaire, médiatisé par l'actrice Angelina Jolie, probablement porteuse d'une mutation dans le gène BRCA1 et qui a eu recours à la chirurgie prophylactique. Sur la puce, j'ai trouvé la variation rs28897743 ou i5009343 située sur le gène BRCA2. Cette variation est identifiée comme probablement pathogène. Je n'ai pas trouvé de papier sur cette mutation. Il y a également d'autres variations dans les exons mais non classées.
Pour les hommes, il y a aussi la variation rs721048, associée au cancer de la prostate qui, d'après ce papier, est fortement impliquée.

En conclusion

Parmi ces 700 000 SNV testés, très peu sont répertoriés dans ClinVar comme étant pathogènes. Pour certains syndromes à transmission dominante, vous seriez déjà au courrant si vous étiez atteint. Cependant, gardez en tête que les bases de données génétiques sont très loin d'être exhaustives. Chaque jour, de nouvelles variations sont découvertes comme pouvant être impliquées dans une maladie. C'est d'ailleurs pour cela que ces puces sont très utiles à la recherche. Vous n'êtes donc pas à l'abri que, dans 10 ans, ces données révèlent une information importante sur votre santé. Je pense en particulier au score de risque polygénique associant la présence de plusieurs SNV à une maladie. On trouve déjà sur Internet ce genre de test pour la maladie d'Alzheimer par exemple. Bref, tous ces tests sont, à mon sens, éthiquement borderline. Surtout quand de la publicité est faite sur YouTube sachant que sa dirigeante Susan Wojcicki est la sœur de Anne Wojcicki, elle-même dirigeante de… 23andMe.
Je vous conseille donc de réfléchir à deux fois avant de faire ce genre de test, de bien lire le consentement et de le faire de façon anonyme. Il faut par ailleurs garder en tête qu'il n'y a pas plus identifiant que notre propre génome et que cet anonymat est relatif. Je n'en ai pas parlé, mais vous n'êtes pas l'abri que ces données arriveront un jour entre de mauvaises mains. L'argument c'est ultra sécurisé on l'a déjà entendu avec tous les services web qui se sont ensuite fait pirater.
Je tiens enfin à recommander à toutes celles et ceux qui ont réalisé le test d'éviter de s'essayer à l'autodiagnostic. Si vous avez la moindre inquiétude quant à vos résultats, consultez un médecin généticien en demandant à votre médecin généraliste.

Références

Merci pour la relecture

Charlotte Andrieu
@Oodnadatta

L'entropie et la théorie de l'information

2019-02-08T22:24:08+01:00

L'entropie, et plus généralement la théorie de l'information, est un concept essentiel en informatique. Publié par Claude Shannon en 1948 dans "A mathematical theory of communication", cette théorie a permis l'essor des communications modernes en passant par la téléphonie jusqu'aux transmissions des données massives par internet. On trouve également cette théorie dans les algorithmes de compression, les statistiques ou encore en intelligence artificielle. Sans oublier bien-sûr la bio-informatique avec l'analyse de notre support d'information préféré : l'ADN. Ce billet a pour objectif de vous faire comprendre ce qu'est l'entropie au sens de Shannon.

Une mesure de l'incertitude

L'entropie peut être vue comme une mesure de l'incertitude d'un événement en fonction de la connaissance que nous avons. Par exemple depuis que je suis petit, le soleil se lève tous les jours. Je suis donc certain qu'il se lèvera demain. En revanche, il est incertain que je croise aujourd'hui un chat noir dans la rue. Cela m'est déjà arrivé plusieurs fois, mais rien ne garantit que cela arrive aujourd'hui. Pour lever cette incertitude, je dois récupérer une certaine quantité d'information...

Vous ne pouvez recevoir qu'une réponse par oui ou par non. Utiliser votre carnet pour poser le minimum de question

L'entropie est une valeur qui quantifie cette incertitude. Pour comprendre, faisons une expérience de pensée:
Imaginez que vous êtes sur la plage d'une île déserte avec un téléphone qui vous permet de contacter le gardien d'un phare en face de vous. Tous les matins depuis un 1 mois, vous lui demandez la prévision météo du jour que vous notez précieusement dans un carnet. Un jour, le micro du gardien casse et impossible pour lui de vous répondre vocalement. Cependant il peut toujours vous entendre. Il choisit alors de répondre à vos questions par oui ou par non en utilisant le signal lumineux de son phare. Lumière verte pour Oui, lumière rouge pour non. Combien de questions au minimum allez-vous poser au gardien du phare pour lever l'incertitude sur la météo du jour ?

Cas n°1

En regardant votre carnet, vous constatez qu'il y a eu de la pluie 50% du temps et du soleil 50% du temps.

Il y a donc 1 chance sur 2 pour qu'il pleuve aujourd'hui. Pour connaître la réponse, vous appelez le phare et lui posez une seule et unique question:

Est ce qu'il va pleuvoir aujourd'hui ?

Il vous répond oui ou non en utilisant 1 seul signal lumineux. Plus précisément, le phare vous a envoyé 1 bit de donnée et cela a suffi à lever votre incertitude. Autrement dit, votre incertitude de 1 chance sur 2 a été divisée par 2.

Cas n°2

Imaginez cette fois avoir noté dans votre carnet : Pluie : 100% du temps , Soleil : 0%, Orage : 0% , Neige : 0%.

Dans ce cas, vous ne poserez aucune question au phare. Vous êtes certain qu'il va pleuvoir. Le phare vous transmet donc 0 bit d'information. L'incertitude est nulle.

Cas n°3

Cette fois vous avez 4 prévisions différentes notées dans votre carnet. Pluie 25% du temps, Soleil 25% du temps, Neige 25% du temps, Orage 25% du temps. C'est-à-dire 1 chance sur 4 pour chaque prévision.

En réflechissant, vous trouverez qu'il faut suivre un arbre décisionnel en posant 2 questions au minimum pour lever votre incertitude.

Le phare vous envoie par exemple 2 signaux rouges ( non et non ). Vous en concluez qu'il y aura un orage aujourd'hui. Vous avez donc reçu 2 bits d'information ce qui divise votre incertitude par 4.
Une autre façon de faire est de demander au gardien quel temps fera-t-il aujourd'hui et de lire sa réponse en fonction du code suivant:

vert-vert   (11)  = pluie
vert-rouge  (10)  = neige
rouge-vert  (01)  = soleil
rouge-rouge (00)  = orage

Ce code est défini sur 2 bits pour représenter uniquement les N=4 prévisions possibles. De façon générale, le nombre de bits nécessaire pour représenter N prévisions se calcule comme suite. Gardez cette formule en tête pour la suite.

$$2^{bits} = N$$ Soit $$bits = log_2(N) $$ Ou encore $$bits = -log_2(1/N) $$ Dans notre cas $$bits = -log_2(1/4) = 2 $$

Cas n°4

Imaginez maintenant que les prévisions de votre carnet ne soient pas équiprobables.
50% de pluie, 25% de soleil, 12.5% neige et 12.5% orage.

Pour économiser l'énergie du phare à long terme, il vous faut poser vos questions de façon stratégique. En effet, si vous lui posez comme question "Va-t-il pleuvoir aujourd'hui?", il y a 1 chance sur 2 qu'il réponde par oui. Et vous n'aurez plus à lui poser d'autre question. Super économique. En revanche, si il répond non, il faudra peut-être poser 2 questions supplémentaires, soit 3 questions en tout pour lever l'incertitude. Ce qui est plus que nos 2 bits vu précédemment. Mais en raisonnant sur plusieurs jours, l'économie est évidente. Dans 50% des cas il faudra poser 1 question, dans 25% des cas 2 questions et 3 questions dans le dernier quart. Donc en moyenne, l'arbre décisionnel suivant est le plus économique sur le temps:

Le code suivant peut être alors utilisé par le phare pour vous transmettre la météo de façon optimale:

vert              (1)   = pluie
rouge-vert        (10)  = soleil
rouge-rouge-vert  (001) = neige
rouge-rouge-rouge (000) = orange

Vous utiliserez 1 bits dans 50% des cas, 2 bits dans 25% des cas, 3 bits dans 25% (12.5% * 2) des cas. Ce qui donne en moyenne 1.75 bits (1x0.5 + 2x0.25 + 3x0.125 + 3x0.125) . Cette valeur que nous venons de calculer, c'est l'entropie de Shannon notée H.
Son équation s'écrit comme ceci avec $p_i$ la probabilité de l'événement i pour la distribution P.

$$H(P) = -\sum_i p_i \log_2(p_i)$$

Si vous appliquez cette formule sur les 4 distributions des cas vus précédements, vous devriez retrouver le nombre de question à poser (1 bits, 0 bits, 2 bits et 1.75 bits). L'entropie est donc une mesure de l'incertitude calculée en bits. C'est la plus petite quantité d'information nécessaire pour lever votre incertitude. On ne pourra jamais faire moins, c'est la théorie qui le dit! Elle est d'autant plus grande que l'incertitude est grande. Plus exactement, l'entropie est maximale lorsque tous les événements possibles inscrits dans votre carnet ( pluie, neige ...) sont équiprobables.
L'entropie est ainsi une mesure permettant de caractériser une distribution statistique.

Entropie croisée et divergence de Kullback-Leibler

L'entropie croisée (cross entropy) permet de quantifier la dissimilarité entre deux distributions en comparant leurs entropies. Par exemple pour comparer une distribution observée P à une distribution théorique Q. En reprenant l'exemple précédant, imaginez que vous êtes sur une îles P avec un carnet P mais que vous posez vos questions au phare de l'îles Q qui avait donné d'autre prédictions inscrites sur le carnet Q. Combien de question supplémentaire allez vous poser au phare Q avec votre carnet P ?
Ce nombre s'obtient en calculant la divergence de Kullback-Leibler (ou divergence K-L ou entropie relative):

$$D_{KL}(P||Q) = -\sum_i p_i \log_2(p_i / q_i)$$

Lorsque les deux distributions sont identiques, alors la divergence est de 0. Vous pouvez aussi calculer ce qu'on appelle l'entropie croisé ( ou cross entropy) qui se calcule de cette façon:

$$H(P,Q) = H(p) + D_{KL}(P||Q) $$ ce qui revient à $$H(P,Q) = -\sum_i p_i \log_2(q_i)$$

L'entropie croisée est très utilisée en intelligence artificielle, dans les méthodes de classifications suppervisées. En effet, elle sert de fonction objective à minimiser. Par exemple, pendant la phase d'entrainement d'un réseau de neurones artificiels, l'objectif est de minimiser l'entropie croisée afin que la distribution prédite soit le plus proche possible de la distribution réelle observée.

Conclusion

L'entropie mesure la quantité d'information minimum nécessaire pour vous transmettre un message. Ce n'est donc pas étonnant qu'on retrouve ce concept dans les algorithmes de compression comme le codage de Huffman ou en cryptographie.
Il y a aussi le principe d'entropie maximale qui consiste à choisir pour des données, le meilleur modèle qui maximise l'entropie. Ou encore la décomposition par minimisation de l'entropie, bien illustré sur cette image. J'essaierai de discuter tous ces concepts dans des billets dédiés.
Je n'oublie quand même pas de conclure avec l'ADN, dont la séquence peut être vue comme une suite de 4 événements aléatoires (A,C,G,T) à l'instar de nos prévisions météorologiques. Par exemple, nous pouvons aligner plusieurs séquences d'ADN et calculer la fréquence des 4 nucléotides puis l'entropie sur chaque position. Vous pouvez alors quantifier une certitude (2-entropie) sur la présence d'un nucléotide dans un motif particulier. C'est ce qui est illustré dans le logo-plot ci-dessous. Regardez la légende sur l'axe des ordonnées qui vous donne une echelle en bits sur la certitude (2 - entropie ) quand à la présence d'un nucléotide dans le motif.

Référence

Merci

@andhena

L'algorithme de Newton-Raphson

2018-10-28T12:00:35+01:00

La méthode de Newton-Raphson est une méthode algorithmique pour trouver la racine d'une fonction. C'est-à-dire trouver x tel que f(x) = 0. Cette méthode est d'une simplicité déconcertante que je vais détailler dans ce billet de façon géométrique puis algorithmique.

Trouver la racine d'une fonction cubique

Prenons une fonction cubique, par exemple $f(x) = x^3 +3$ et traçons la courbe sur un repère cartésien.

La fonction cubique coupe l'axe des abscisses au point rouge. Nous voulons trouver les coordonnées de ce point par une méthode algorithmique

La méthode de Newton-Raphson nous permet de trouver le point x de la courbe tel que f(x) = 0. C'est-à-dire le point de la courbe qui coupe l'axe des abscisses. Bien sûr, nous pourrions simplement résoudre l'équation et trouver x. Mais parfois, les fonctions sont plus complexes et il n'existe aucune solution analytique. La méthode de Newton-Raphson nous permet d'y remédier par un algorithme itératif décrit ci-dessous:

Représentation géométrique

Choisissons un point au hasard A sur l'axe des abscisses. Par exemple A=(2.5, 0).

Prenons un point au hasard A

Puis trouvons le point A' l'image de A par la fonction cubique. C'est-à-dire le point A'=(2.5, f(2.5)).

Le point A' est l'image de A par f

Enfin, traçons la tangente de la courbe au point A'. Cette tangente est une droite qui couple l'axe des abscisses au point B.

La tangente de la courbe au point A' coupe l'axe des abscisses au point B

À partir du point B, il suffit de recommencer les mêmes étapes qu'avec le point A. Chercher B', tracer la tangente en B' puis trouver le point C et ainsi de suite... Vous verrez alors rapidement qu'en 7 itérations, les points convergent vers la racine (autour de -1.44) comme illustrée dans l'animation ci-dessous:

La fonction cubique coupe l'axe des abscisses en point que nous cherchons à trouver par une méthode algorithmique

Représentation algébrique

Maintenant que vous visualisez comment trouver la racine d'une fonction en utilisant la méthode de Newton-Raphson, voyons comme la calculer. Quelques notions de math vues au lycée suffiront:

Équation de la tangente au point A'

La tangente en un point d'une fonction f(x) ayant pour dérivée f'(x) est une droite d'équation $y=f'(a)(x-a) + f(a)$ avec «a» les coordonnées de A sur l'axe des abscisses. Dans notre cas, l'équation de la tangente au point A' se calcule comme ceci:

Notre fonction cubique a pour équation: $$f(x) = x^3 + 3$$ Sa derivé est donc: $$f'(x) = 3x^2$$ La tagente au point A' (a=2.5) a donc pour equation: $$ y=f'(a)(x-a) + f(a)\ y=3a^2(x-a) + a^3 + 3\ $$ En remplaçant «a» par 2.5: $$ y=18,75x - 28,25\ $$

Coordonnée du point B en fonction du point A

connaissant l'équation, les coordonnées du point B ou la tangente coupe l'axe des abscisses se calcul en résolvant l'équation linéaire $18,75x - 28,25=0$. Soit $x=28,25/18,75≈1,506$. Les coordonnées du point B sont donc (1.506,0).

D'une manière générale, nous pouvons calculer le point B(b,0) en fonction du point A(a,0). En effet, résoudre l'équation linéaire revient à faire:

$$f'(a)(b-a) + f(a) = 0\$$ $$f'(a)(b-a) = -f(a)\$$ $$(b-a) = \frac{-f(a)}{f'(a)}\$$ $$b=a - \frac{f(a)}{f'(a)}$$

En résumé, le point $x_{k+1}$ en fonction du point $x_{k}$ s'exprime par la suite: $$x_{k+1} = x - \frac{f(x)}{f'(x)}\$$

Représentation algorithmique en python

En implémentant la méthode de Newton-Raphson en python, cela donne :

# Fonction cubique
def f(x):
    return x**3 + 3

# Dérivé de la fonction cubique
def df(x):
    return 3*x**2

a = 2.5 # On part d'un point aléatoire
# On applique la formule sur plusieurs itérations... Disons 10
for i in range(10):
    a = a - f(a)/df(a)
    print(a)

# 1.5066666666666668
# 0.5639244350466844
# -2.7685979807840897
# -1.9761928373643123
# -1.5735216658126505
# -1.4528964881677187
# -1.4423274010169043
# -1.4422495745072248
# -1.4422495703074085
# -1.4422495703074083

En résumé

La méthode de Newton-Raphson permet de trouver rapidement la racine d'une fonction et a beaucoup d'usage en informatique.
La méthode de Newton permet de trouver les extrêmes (minimum et maximum) d'une fonction. En effet, trouver le minimum ou le maximum d'une fonction c'est trouver où la dérivée s'annule. Par exemple dans le billet précédent sur la descente en gradient vous pouvez calculer le minimum de la fonction objective en connaissant sa dérivée et sa dérivée seconde. Vous verrez que pour une régression linéaire il suffit d'une seule itération pour trouver le minimum.
La méthode de Newton permet de trouver la solution à f(x)=c où «c» est une constante. Il suffit de trouver une fonction g(x)=f(x)-c de telle sorte que la racine de g résout l'équation qui nous intéresse.
S’il y a plusieurs racines, on ne peut pas prédire vers quelle racine l'algorithme va converger.
La méthode de Newton marche assez bien sûr des fonctions monotones mais peut ne pas converger avec d'autre fonction.
On ne peut pas garantir la convergence si la fonction n'est pas deux fois dérivable à dérivée seconde continue.
On doit bien partir d'un point. Même si, dans les bonnes conditions, le choix de ce point n'a pas grande importance, il peut en avoir avec les fonctions non monotones.
Si les conditions sont respectées, cet algorithme est beaucoup plus performant que la dichotomie.
La méthode de Newton est utilisée dans les modèles linéaires généralisés (MLG)
La méthode de Newton a été utilisée pour calculer rapidement l'inverse d'une racine carrée dans Quake3.

Référence

Remerciements

Metaentropy
O.Dameron

L'algorithme de descente en gradient

2018-10-17T20:43:30+02:00

Si vous vous êtes déjà pencher sur l'intelligence artificielle, vous avez certainement du entendre parler de la méthode de descente en gradient. Il s'agit d'un algorithme permettant de trouver rapidement le minimum d'une fonction mathématique. Pour faire simple, trouver x tel que f(x) soit le plus petit possible. Cette méthode est très utilisée en IA avec les réseaux de neurones artificiels. Mais avant d'en arriver là, nous allons tenter de comprendre cet algorithme en estimant le paramètre «a» d'une simple régression linéaire d'équation y=ax.

Une modèle linéaire

J'ai généré pour ce billet 100 points aléatoires (figure ci-dessous). Disons que ces points représentent la taille en fonction du poids. Nous voulons trouver l'équation de la droite passant au mieux par tous les points. Simple vous me direz ? Effectivement il existe une méthode analytique, c'est-à-dire une formule magique, permettant de trouver directement le paramètre «a» de l'équation y = ax. Il s'agit de la méthode des moindres carrée détaillé ici pour les plus curieux.
Sauf que pour l'exemple et parce que la majorité des modèles statistiques ne disposent pas de solution analytique, nous allons estimer ce paramètre par une méthode algorithmique: La descente en gradient.

Taille en fonction du poids pour 100 observations

Une erreur à minimiser

La première étape consiste à définir une fonction objectif que l'on cherchera à minimiser. C'est à dire une fonction qui prend en paramètre «a» et qui retourne une erreur. Dans notre cas, l'écart entre les points et la droite de regression sera notre fonction objective.
Cette fonction objective se définit comme étant la moyenne de la somme des écarts au carré entre les valeurs observés (y_i) et les valeurs calculées par la droite d'équation y=ax. Le tout Cette fonction s'écrit de la façon suivante:

«a», le paramètre à estimer de la droite de régression y=ax
y_i , la valeur observée au point i
ax_i la valeur prédite par la droite au point i
n le nombre de points

$$ f(a) = \frac{1}{n}\sum_{i=0}^{n}(y_{i}-ax_{i})^{2} \ $$

Traduit en python, cela donne :

X = np.array([....]) // poids
Y = np.array([....]) // taille

def error(a):
    y_pred      = X * a 
    y_observed  = Y 
    size        = len(X)

    diff = sum((y_pred - y_observed)**2)/size
    return diff

De façon naïve, nous pouvons tester toutes les valeurs du paramètre «a» et tracer la fonction objective. Visuellement cela donne une parabole dont le minimum correspond à la meilleur valeur «a».

Fonction objective: L'erreur en fonction du paramètre «a». L'erreur minimum se situe aux alentours de 3

Dans la vraie vie, on ne va pas pouvoir s'amuser à tester toutes les valeurs des paramètres possibles. Si vous êtes par exemple avec un modèle à 20 paramètres, il y aurait beaucoup, beaucoup trop de combinaison à tester. C'est là qu'intervient la méthode de descente de gradient en faisant varier les paramètres d'un modèle de façon graduelle.

À petit pas jusqu'à l'arrivée

La méthode de descente en gradient consiste à prendre une valeur de «a» au hasard et la faire varier plus ou moins fortement par rapport à la pente de la fonction objective. Au lieu de tester toutes les valeurs de «a», vous faites varier sa valeur avec des pas variables qui deviennent de plus en plus petits au fur et à mesure que l'on se rapproche du minimum.
En cherchant dans vos souvenirs du lycée, cette pente c'est la dérivée encore appelé dérivée partielle si vous travaillez sur plusieurs paramètres. Elle se calcule comme suite:

$$f(a) = \frac{1}{n}\sum_{i=0}^{n}(y_{i}-ax_{i})^{2} $$

Se développe en :

$$ f(a) = \frac{1}{n}\sum_{i=0}^{n}(y_{i}^{2}-2y_{i}ax_{i} + (ax_{i})^{2} ) $$

Soit

$$ f(a) = \frac{1}{n}\sum_{i=0}^{n}(-2y_{i}ax_{i} + a^{2}x_{i}^{2} ) $$

En dérivant par rapport à «a» nous obtenons :

$$ f'(a) = \frac{-2}{n}\sum_{i=0}^{n}(x_{i}(y_{i} - ax_{i}) $$

En reprenant cette équation et en la traduisant en python, nous obtenons:

def derror(a):
    size = len(X)
    return -2/size * sum(X * (Y - a * X))

La figure ci-dessous montre les valeurs des pentes pour différentes valeurs de «a» allant de -10 à 10. Comme vous pouvez le constater, plus nous nous rapprochons du minimum et plus la pente diminue. Elle est négative à gauche et positive à droite. Pour trouver la bonne valeur de «a», il suffit de faire varier «a» proportionnellement à ce gradient. Si la pente diminue, on augmente «a», si elle augmente on diminue «a».

différente pente pour différente valeur de a

L'implémentation en python est alors triviale (ci-dessous). En partant de a=-20, je fais une boucle qui incrémente «a» d'une certaine valeur «g» égale au gradient divisé par la variable «taux». Cette variable, appelé taux d'apprentissage, permet d'ajuster la taille du pas. Si le taux d'apprentissage est grand, alors les pas seront plus petits, la précision du résultat sera bonne, mais mettra plus de temps à être atteint. À l'inverse, un taux d'apprentissage petit sera moins précis, mais plus rapide.
Lorsque le minimum est atteint, c'est à dire lorsque le gradient est nul ( ici entre -0.5 et 0.5), je sort de la boucle et je récupère la valeur finale de «a».

def descent_gradient(a=-20, taux = 400000):

    grad = 100.0 
    while True:

        grad = derror(a) 
        g = grad/ taux

        if -0.5 <= grad <= 0.5:
            return a

        a += -g

L'animation ci-dessous illustre cette descente en gradient et montre qu'elle s'équilibre autour de a=3.8.
Nous pouvons alors conclure, grâce à notre algorithme, qule notre modèle linéaire est défini par l'équation:
Taille = Poid * 3.8.

Your browser does not support the video tag.

Conclusion

Nous avons vu un exemple de descente en gradient pour évaluer un seul paramètre dans un modèle de régression linéaire. Dans d'autre modèle à plusieurs paramètres comme «a» et «b» de l'équation y = ax + b, la fonction d'erreur est une équation multiparamètrique de la forme f(a,b). Visuellement, il s'agit d'un surface en 3D ou vous allez faire varier les paramètres à l'aide de leurs dérivées partielles pour trouver le minimum. Il s'agit souvent d'un minimum local et différentes solutions existent pour pallier à ce problème (Algorithme de gradient stochastique). Un bonne vidéo Youtube par Science4All explique cette méthode.

Descent en gradient pour 2 paramètres θ₁ et θ₂. J(θ₁,θ₂) est la fonction objective

Dans les réseaux neuronaux, les modèles sont constitués d'autant de paramètres qu'il y a de neurones. Et pour faire ces descentes de gradient, des libraries comment TensorFlow ou Pytorch ont vu le jour pour optimiser les calculs en les parallisants à l'aide de matrix appelées Tenseur.

En esperant vous avoir éclairé ... ++

Référence

Le notebook contenant l'ensemble du code est disponible ici

Remerciements

@Max @Natir

L'énigme du Rusty Lake Hostel

2018-09-30T23:52:18+02:00

Cela fait plusieurs jours que je m'éclate sur un jeu android appelé « The rusty lake hostel ». Il s'agit d'une sorte d'escape game en point & click ou vous devez résoudre des énigmes. Parmi celles-ci, il y en a une qui m'a donné du fil à retordre et qui m'a contraint à écrire du code pour la résoudre. Il s'agit d'une énigme composée de 3 bouteilles de volumes différents : la première de 10 litres , la deuxième de 5 litres et la troisième de 6 litres. En début de partie, la première bouteille contient 10 litres d'eau sur les 10, la deuxième 1 litre sur les 5 et la troisième est vide.
Le but du jeu est de réussir à avoir 8 litres dans la première en vidant les bouteilles les unes dans les autres successivement.

Trois bouteilles.

En essayant à tâtons et en réfléchissant, vous trouverez surement la réponse en un temps raisonnable. Mais j'ai préféré écrire du code qui réfléchisse pour moi afin d'être plus systématique et parce que c'est plus rigolo. J'ai d'abord pensé à de la programmation logique avec Prolog ou Answer Set Programming. Mais n'étant pas à l'aise dans ces langages, j'ai demandé à un copain, Aluriak, qui s'est fait une joie de résoudre ce problème en ASP et dont les résultats sont dispo sur son blog.
De mon côté, j'ai choisi une approche algorithmique en construisant un graphe résumant tous les états possibles associés à leurs transitions. Le notebook est disponible ici .

Un graphe d'état

On peut résumer ce problème comme une succession d'états reliés par des transitions. Un état est défini par les 3 volumes dans chaque bouteille. Par exemple le premier état (10,1,0) correspond à la première bouteille remplie à 10 L, la deuxième à 1 L et la troisième à 0 L. À partir de cet état, il existe 3 transitions possibles.
Si vous videz la première bouteille dans la seconde vous obtenez l'état (6,5,1).
Si vous videz la deuxième bouteille dans la troisième, vous obtenez l'état (10,0,1).
Si vous videz la première bouteille dans la troisième vous obtenez l'état (4,1,6).
Il n'y a pas d'autre possibilité, comme illustré ci-dessous :

À partir de l'état (10,1,0) il y a trois façons différentes de transvaser l'eau.

Nous pouvons alors recommencer ce processus à partir de chacun des nouveaux états et construire successivement les autres états dans un graphe orienté.
Pour cela, j'ai utilisé Python et la librairie networkx en représentant chaque état par un tuple de dimension 3.
la fonction suivante permet de passer d'un état à un autre :

# Vider la bouteille x dans la bouteille y connaissant l'état (state) et

# le volume maximum pour chaque bouteille (vmax). Retourne None si impossible.
def change_state(x:int, y:int, state:tuple, vmax=(10,5,6)):

    new_state = list(state)

    # Calcul de e : le volume de liquide à déplacer

    e_in = (vmax[y] - new_state[y])
    e_out = state[x] 
    e = min(e_in, e_out)


    if e == 0 : 
        return None

    if new_state[x] - e < 0:
        return None

    if new_state[x] == 0:
        return None

    if new_state[y] + e > vmax[y]:
        return None

    new_state[x] -= e
    new_state[y] += e

    return tuple(new_state)

# Exemple 
print(change_state(0,1,(10,1,0)))

En partant de l'état (10,1,0), j'ai alors construit un graphe montrant tous les états successifs possibles en 7 mouvements. J'ai choisi 7 itérations, car empiriquement je savais que cela suffirait pour trouver la solution. Dans l'idéal, j'aurais fais une boucle infinie qui s'arrête des qu'elle trouve 8 litres dans la première bouteille. Mais là il est minuit et j'ai la flemme de changer le code...

# Création d'un graphe dirigé # Creat 
graph = nx.DiGraph()

# Liste de toutes les transitions possibles

# Bouteille 0 dans 1, bouteille 1 dans 2, etc.
choices = list(itertools.permutations([0,1,2],2))

# Création du premier noeud avec l'état 10,1,0
parent = (10,1,0)

graph.add_node(parent)

# Construction du graphe sur 7 itérations 
for depth in range(7):
    parents = list(graph.nodes())
    for parent in parents: 
        for choice in choices:
            child = change_state(*choice, parent)
            if child is not None:
                graph.add_node(child)
                graph.add_edges_from([(parent, child)], label=str(i))

nx.draw(graph, with_labels=True)

Voilà ce qu'on obtient comme graphe. Et comme vous pouvez l'observer en jaune, il y a l'état (8,0,3) avec les 8 litres dans la première bouteille. C'est l'état que nous cherchons à atteindre.

Graphe de l'ensemble des états possibles avec 7 mouvements.

La solution

Il suffit alors de trouver dans le graphe le chemin le plus court partant de l'état initial (10,0,1) vers l'état final (8,0,3) en utilisant l'algorithme de Dijkstra. (Allez faire un tour sur la chaine YouTube « À la découverte des graphes » pour comprendre cet algorithme). Networkx nous fournit directement l'implémentation via la fonction shortest_path :

states = nx.shortest_path(graph,source=(10, 1, 0), target=(8, 0, 3))

#State 1 (10, 1, 0)
#State 2 (4, 1, 6)
#State 3 (4, 5, 2)
#State 4 (9, 0, 2)
#State 5 (9, 2, 0)
#State 6 (3, 2, 6)
#State 7 (3, 5, 3)
#State 8 (8, 0, 3)

Sept transitions sont donc nécessaires pour passer de l'état (10,1,0) à l'état (8,0,1). La solution de l'énigme est donc la suivante:

State (10,1,0)
- Vider la première bouteille dans la troisième.
State (4,1,6)
- Vider la troisième bouteille dans la deuxième.
State (4,5,2)
- Vider la deuxième bouteille dans la première.
State (9,0,2)
- Vider la troisième bouteille dans la deuxième.
State (9,2,0)
- Vider la première bouteille dans la troisième.
State (3,2,6)
- Vider la troisième bouteille dans la deuxième.
State (3,5,3)
- Vider la deuxième bouteille dans la première.
State (8,0,3)

Un mot pour la fin

Un bon samedi matin gaché à coder mais des nuits d'insomnies évitées à me ruiner les méninges sur ce problème. Vous me direz qu'il suffisait d'aller voir la solution en vidéo ci-dessous... Mais ça, c'est tricher avec beacoup, beaucoup moins de classe !

Remerciements

Algorithme d'Espérance-Maximisation

2018-08-06T18:13:58+02:00

Nous allons voir dans ce billet l'algorithme d'espérance-maximisation ou algorithme EM (Expectation-maximisation) qui va nous permettre d'identifier les paramètres de deux lois normales depuis une seule distribution mixte ou mélange gaussien ou GMM (Gaussian Mixture model). Comme d'habitude, je vais faire au plus simple. Ce billet fait directement suite à celui sur le maximum de vraisemblance mais vous n'êtes pas obligé de le lire.

Mélange de Gaussienne

Nous allons étudier la distribution des tailles chez 1000 hommes et 1000 femmes. La taille des hommes suit une loi normale de moyenne μ=190 cm et d'écart-type σ=10. Celle des femmes, une moyenne μ=160cm et d'écart type σ=5. Nous pouvons générer et representer visuellement ces données en python avec numpy et seaborn:

import numpy as np
import seaborn as sns

hommes = np.random.normal(190, 10, 1000)
# hommes = [171,171,173,180,190,159 ...]
femmes = np.random.normal(160,5, 1000)
# femmes = [145,170,145,161,139,150 ...]

sns.distplot(femmes, label="Femmes")
sns.distplot(hommes, label="Hommes")

Distribution des tailles chez les femmes (roses) et les hommes (bleus)

Imaginez maintenant que vous avez seulement une liste . Cette nouvelle distribution est la concaténation des deux distributions précédentes :

X  = np.concatenate((femmes,hommes))
sns.distplot(X, label="mixture", color="green")
plt.legend()

Distribution des Tailles sans connaissance du sexe.

Le but du jeu à présent, est de retrouver les paramètres des deux gaussiennes paramétrées par (μA,σA) ** et (μB,σB) uniquement à partir de cette distribution que nous appellerons X**.

Algorithme EM

L'Algorithme EM ( Expectation-Maximisation ) va nous permettre de trouver les paramètres de ces deux gaussiennes en partant de valeurs aléatoires et en les ajustant au fur et mesure jusqu'à ce que la vraisemblance de ces modèles soient maximales. Les étapes sont les suivantes :

Initialiser deux lois normales A et B en choisissant des valeurs aléatoires pour (μA /σA et μB / σB)
Pour chaque valeur de X, calculer sa probabilité sous l'hypothèse A (pA) puis B (pB)
Pour chaque valeur de X, calculer le poids wA = pA/(pA+pB) et wB=pB/(pA+pB)
Calculer des nouveaux paramètres (μA,σA) et (μB,σB) en ajustant X à partir des poids wA et wB.
Recommencer ...

En Python cela donne :

    # Distribution des tailles X.. (voir plus haut )
    # X      = [159,158, 159, 179, 189 ....]

    # Générer un modèle aléatoire A 
    A_mean = np.random.randint(100,300)
    A_sd   = np.random.randint(10,30)

    # Générer un modèle aléatoire B   
    B_mean = np.random.randint(100,300)
    B_sd   = np.random.randint(10,30)

    # Faite 50 itérations... ( ca suffira)
    for i in range(50):

        # Pour chaque valeur de X, calculer la probabilité 
        # sous l'hypothèse A et B
        p_A = scipy.stats.norm(loc=A_mean, scale=A_sd).pdf(X)
        p_B = scipy.stats.norm(loc=B_mean, scale=B_sd).pdf(X)

        # Calculer pour chaque valeur de X, un poids correspondant 
        # à son degrès d'appartenance à la loi A ou B.

        p_total  = p_A + p_B 
        weight_A = p_A / p_total
        weight_B = p_B / p_total

        # Exemple : Si la taille de 189cm appartient à la lois B 
        # alors weight_B(189) sera grand et weight_A(189) sera petit.

        #Ajustement des paramètres (μA,σA) et (μB,σB) en fonction du poids.

        A_mean = np.sum(X * weight_A )/ np.sum(weight_A)
        B_mean = np.sum(X * weight_B )/ np.sum(weight_B)

        A_sd   = np.sqrt(np.sum(weight_A * (X - A_mean)**2) / np.sum(weight_A))
        B_sd   = np.sqrt(np.sum(weight_B * (X - B_mean)**2) / np.sum(weight_B))

        # On recommence jusqu'à convergence. Non testé ici, je m'arrête à 50 iterations.

Et voilà ce que l'on obtient en animant le tout à chaque itération:

Ajustement de deux lois normales (orange et bleu) à la distribution X (vert) selon l'algorithme EM

Loi normale multivariée

Dans cet exemple, nous avons étudié la distribution d'une seule variable (la taille) en utilisant une loi normale paramétrée par μ et σ. Mais nous pouvons faire encore mieux en étudier la distribution de plusieurs variables simultanément (Par exemple la taille et le poids). On utilise pour cela une généralisation de la loi normale que l'on appelle loi normale multidimensionnelle paramètré par un vecteur μ et une matrice de covariance σ.
En prenant 2 variables comme la Taille et le Poid, μ correspond à la liste des moyennes [μTaille, μPoid] et σ correspond à une matrice symétrique 2x2 contenant les covariances et variances de la taille et du poids.
Vous pouvez vous représenter une loi normale à deux variables comme un Sombrero aplati et vu de haut ou chaque point est representé dans le plan par ses coordonnées (x=Taille et y=Poids).

Exemple d'une distribution normale bivariée. Imaginez que la courbe rouge représente la taille et la bleu le poid

Representation en 3 dimensions d'une loi normale bivariée. La projection sur le plan des variables (Taille,Poids) permet d'identifier une région de densité de probabilité.
Source

Et comme nous l'avons fait précédement avec une variable, nous pouvons identifier plusieurs gaussiennes multivariées dans un espace à plusieurs variables (figure ci-dessous).
En d'autres termes, identifier à quelle distribution appartient un point dans un espace à N dimension, c'est faire de la clusterisation.

Exemple: Gauche: Distribution de deux variables et identification de 2 clusters. Droite: Modèle normal bivarié montrant la densité sur son 3ème axe.
Source

Hard et Soft clustering

Il existe d'autres algorithmes pour détecter des clusters, notamment l'algorithme k-means ou encore les k-plus proches voisins. Ces méthodes de clustering sont dites "Hard clustering" car ils atégorisent de façon précise un point (Soit c'est un homme, soit c'est une Femme). Au contraire, avec l'algorithme EM et les mixtures gaussiennes, nous pouvons faire du soft clustering. Au lieu de dire que tel point appartient soit au groupe A soit au groupe B, on lui donne une probabilité d'appartenance à chacun de ces groupes. (90% de chance que ce soit un homme, 1% que ce soit une femme). C'est ce qu'on appelle la logique floue.

Différence entre le soft et du hard clustering en utilisant un gradient de couleur. En rouge les femmes, en bleu les hommes

Conclusion

L'algorithme EM fait partie de la grande famille du machine learning et de l'apprentissage non supervisé. C'est un avant goût des méthodes bayesiennes utilisées en intelligence artificielle. Si vous voulez approfondir le sujet, allez voir du côté de la libraire scikit-learn.

Références

Remerciements

Merci à André pour la relecture

Euler et l'assemblage des génomes

2018-07-18T18:45:20+02:00

Imaginez une pile de journaux identiques que vous faites sauter avec des pétards pour en faire une pluie de fragments de texte aléatoire. Comment feriez-vous, à partir de ces milliers de morceaux de papier, pour reconstruire un exemplaire complet du journal ? La même question se pose lorsque l'on désire reconstruire le génome d'un organisme à partir des milliards de courtes séquences générées par un séquenceur haut débit. Si vous pensez qu'il suffit de tester toutes les combinaisons en comparant les fragments deux à deux, sachez que même avec un ordinateur très puissant, cela prendrait beaucoup de temps. Nous allons donc voir dans ce billet, comment les programmes d'assemblages classiques fonctionnent et comment un gars du nom de Euler, en s'amusant à compter les ponts de la ville de Königsberg, nous permet aujourd'hui de faire de l'assemblage de génomes de façon efficace.

Les k-mers

Les k-mers sont l'ensemble des mots de k lettres que l'on peut lire dans une séquence. Par exemple, la séquence suivante TAATGCCATGGGATGT peut se décomposer (avec des pétards ou non) en 14 mots de 3 lettres appelés 3-mers :

TAATGCCATGGGATGT
TAA
 AAT
  ATG
   TGC
    GCC
     CCA
      CAT
       ATG
        TGG
         GGG
          GGA
           GAT
            ATG
             TGT

Ce que nous allons tenter dans la suite de ce billet, c'est de reconstruire la séquence d'origine à partir de ces 14 mots de 3 lettres rangés dans un ordre arbitraire :

AAT,ATG,ATG,ATG,CAT,CCA,GAT,GCC,GGA,GGG,TAA,TGC,TGG,TGT

Attention, notez bien dans cette liste que le mot ATG est présent 3 fois. Il s'agit de l'abondance du k-mer qu'il faut prendre en compte en raisonnant bien avec 3 mots ATG et non un seul.

Construction d'un graphe

À partir de cette liste de 3-mers, nous allons construire un graphe orienté. C'est-à-dire un ensemble de nœuds reliés par des flèches. Pour cela, deux méthodes s'offrent à nous.

Les k-mers sont des nœuds

Si nous représentons chaque k-mer par un nœud, alors deux nœuds consécutifs dans la séquence partagent le même suffixe et préfixe. Par exemple le k-mer TGC précède le k-mer GCC car le suffixe du premier (-GC) correspond au préfixe du second (GC-). Cette relation se représente avec deux nœuds et une flèche :

Relation entre deux k-mers dans un graphe. Le suffixe (k-1) du premier correspond au préfixe (k-1) du second

Nous pouvons alors construire un graphe en reliant tous nos k-mers via leurs suffixes/préfixes et obtenir la figure suivante :

Graphe représentant chaque k-mer par un nœud. Saurez-vous trouver le chemin passant par tous les nœuds une seule fois ?

Pour reconstruire la séquence d'origine, il suffit de trouver un chemin passant par tous les nœuds une fois et une seule. On appelle ce chemin un parcours Hamiltonien. Essayez de le trouver par vous même avant de regarder l'animation ci-dessous :

Parcours Hamiltonien dans le graphe. Chaque nœud est traversé une fois et une seule

Cette méthode est simple, mais il y a un hic. La recherche du parcours Hamiltonien dans un graphe est un problème mathématique dit NP-complet. Pour faire simple, il n'existe pas d'algorithme informatique rapide pour trouver ce chemin. Le temps de calcul augmente exponentiellement avec la taille du graphe. Par exemple, pour un graphe plus complexe, tel que celui utilisé pour reconstruire la séquence d'un génome, il vous faudra toujours énormément de temps de calcul, même avec les plus super des super calculateurs. Il nous faut une meilleure méthode…

Les k-mers sont des flèches

Nous allons cette fois construire un graphe en représentant les k-mers par des flèches. Les nœuds contiendront le préfixe et le suffixe du k-mer. Par exemple si une flèches représente le k-mer TGC alors les deux nœuds autour de la flèche sont TG et GC.

Représentation d'un k-mer par une flèches. Les nœuds contiennent les suffixes et préfixes des k-mers

Nous pouvons alors construire le graphe suivant :

Graphe représentant chaque k-mer par une flèches. Les nœuds sont les préfixes/suffixes. Certain nœuds en couleur sont présent plusieurs fois et peuvent être fusionnés

Cette fois, au lieu de chercher un chemin passant par tous les nœuds une seule fois, nous allons chercher un chemin passant par toutes les flèches une fois et une seule. En le recherchant, vous verrez tout de suite qu'un tel parcours n'existe pas dans ce dernier graphe. Par exemple, on ne peut pas traverser tous les chemins AT->TG sans être bloqué. Pour remédier à ce problème, nous allons fusionner tous les nœuds identiques. Visualisez par exemple les 3 nœuds violets AT et imaginez-les se rapprocher pour former un seul nœud sans jamais toucher aux flèches. Vous obtenez alors un unique nœud AT relié par 3 flèches au nœud TG. Faites la même chose pour les autres nœuds identiques et vous obtiendrez le fameux graphe de de Bruijn.

Graphe de de Bruijn

Vous pouvez maintenant chercher le chemin passant par toutes les flèches une fois et une seule. C'est ce qu'on appelle un parcours Eulérien. Essayer de le trouver par vous même, ce n'est pas très difficile.

Parcours Eulérien dans un graphe de de Bruijn

Contrairement au parcours Hamiltonien, le parcours Eulérien, si il existe, peut être trouvé rapidement par un algorithme informatique. La complexité de cet algorithme est dite « en O(n) ». C'est à dire que le temps de calcul est proportionnel à la taille du graphe. Voyons maintenant la théorie mathématique derrière ce parcours que l'on doit à Leonhard Euler et à la ville de Königsberg en Pologne.

Les ponts de Königsberg

Le théorème de Euler

En 1873, un mathématicien du nom de Leonhard Euler s'est posé la question de savoir si il existait une promenade dans la ville de Königsberg passant par tous les ponts une fois et une seule. C'est le problème des 7 ponts de Königsberg qui peut être modélisé sous la forme d'un graphe :

Gauche : Pont de Königsberg Droite : représentation des ponts par un graphe. Les chiffres indiquent le nombres d'arêtes relié au nœud. Existe-t-il un chemin passant par tous les ponts ?

Euler démontre qu'un parcours Eulérien (passant par toutes les arêtes une fois et une seule) existe dans un graphe si et seulement chaque nœud est relié à un nombre pair d'arêtes. En effet, si l'on doit entrer dans un nœud par 1 arête, il faut forcément ressortir par 1 autre arête. Dans le cas des ponts de Königsberg, un tel chemin n'existe pas, car le nombre d'arêtes par nœud est respectivement de 5,3,3,3 (voir image ci-dessus). Dans un graphe orienté comme le notre, c'est à dire lorsque les arrêtes sont des flèches, un chemin Eulérien existe si le nombre de flèches à l'entrée d'un nœud est le même qu'à la sortie.

Avons-nous un chemin eulérien dans notre graphe de de Bruijn ?

Pour que les conditions du théorème de Euler s'appliquent à notre graphe de de Bruijn, nous devons tricher en ajoutant une flèche entre le dernier nœud TA et le premier nœud GT et former ainsi un cycle. Vous constaterez alors, que pour chaque nœud, il y a autant de flèches d'entrée que de flèches de sortie. Nous pouvons alors conclure, sans même le connaître, qu'un chemin Eulérien existe.

Graphe de de Bruijn modifié pour pouvoir avoir un cycle de Euler. En rouge le nombre de flèches à l'entré d'un nœud, en vert le nombre de flèches à la sortie d'un nœud. Le [degré](https://fr.wikipedia.org/wiki/Degr%C3%A9_(th%C3%A9orie_des_graphes)) d'entré et de sortie pour chaque nœud sont identique. D'après le théorème, il existe donc un chemin Eulérien passant par toutes les flèches une fois et une seule

L'algorithme de Euler

Il existe une algorithme rapide pour pouvoir trouver le chemin Eulérien. Pour le comprendre (c'est très simple, je vous rassure), regardez juste cette courte vidéo sur la chaîne YouTube « à la découverte des graphes ». Personnellement, je trouve que c'est la meilleure chaîne de vulgarisation sur la théorie des graphes. A garder en favoris.

Conclusion

Nous avons vu deux méthodes pour reconstruire une séquence à partir de ses k-mers. Nous pouvons soit chercher un parcours Hamiltonien dans un graphe de k-mer ou alors chercher un parcours Eulérien dans un graphe de de Bruijn. Cette dernière méthode est préférée, car il existe un algorithme efficace. Dans ce billet, je me suis grandement inspiré du livre Bioinformatics Algorithms que je vous conseille fortement. C'est le même exemple détaillé sur plus de 20 pages. Sinon, dans la réalité, la reconstruction d'un génome est plus complexe et fait intervenir d'autres notions comme les contigs, les scaffolds, les bulles, la correction d'erreurs de séquençage ou encore le gap filling. Je ne suis absolument pas spécialiste de ce domaine, mais j'avais juste envie de vous partager ce que j'avais compris. Pour plus de précisions, voir avec @Natir, c'est un expert de l'assemblage. Enfin, tout les notions vues dans ce billet concernent l'assemblage d'un génome à partir de courtes séquences d'ADN ou short reads. Cette méthode est aujourd'hui devancée par les séquenceurs de 3e génération capable de séquencer des longs fragments d'ADN rendant toutes les notions abordées dans ce billet… complètement obsolètes !

Références

Remerciements

Merci à @Natir pour m'avoir fait comprendre que je ne comprend toujours rien !

Le théorème de Bayes en image

2018-06-26T23:18:50+02:00

J'ai longtemps galéré avec les probabilités...
C'est assez tard que j'ai compris qu'il s'agissait juste d'un problème de dénombrement. Par exemple, si vous cherchez à savoir la probabilité pour que la somme de deux dés lancés soit égale 8, il suffit de dessiner un tableau 6x6 contenant toutes les combinaisons possibles et compter les cases contenant un 8. J'étais assez satisfait de cette conception des probabilités qu'on appelle fréquentiste. Sauf que voilà, il y a une autre vision des probabilités très tendance en informatique que l'on trouve en intelligence artificielle, dans la reconstruction des arbres phylogénétique, dans l'analyse naturelle du langage ou même dans la détection des mutations génétique sur des données de séquençage haut débit. Cette conception c'est le bayésianisme, un raisonnement basé sur le théorème de Bayes. Et en croire certain youtubeur (Monsieur Phi & Science4All) , cette vision des probabilités à l'effet pour le cerveau, d'un shoot de cocaïne accompagné d'un massage thaïlandais! Donc forcément, j'ai voulu comprendre. Et vous savez quoi ? Je n’ai rien compris en lisant les différentes démonstrations de la formule de Bayes. Étonnement, c'est seulement en reprenant ma casquette de fréquentiste et en faisant de jolis dessins que tout c'est éclairé. Et c'est ce que nous allons voir maintenant.

Des malades et un test biologique

Sur internet, les démonstrations de la formule s'aident souvent d'un exemple avec des patients et un test biologique. On va reprendre cet exemple en s'aidant d'un schéma et en utilisant les bons mots. Voici 10 patients dont 6 sont malades. Sont entourés les individus dont le test biologique est positif (par exemple un test grippal). Voyez ça comme si tous les gens testés positifs étaient confinés dans une zone de quarantaine.

En vert les patients sains, en rouge les patients malades.

Sensibilité et Spécificité

Commençons par un petit aparté sur l'efficacité d'un test qui s'évalue à l'aide de deux grandeurs. La sensibilité et la spécificité.

Sensibilité et spécificité d'un test biologique. Un test sensible détecte tous les malades. Un test spécifique ne se positive jamais chez des patients sains

Un test très sensible (droite de la figure) nous assure que tous les malades sont détectés quitte à avoir des faux positifs. Sa formule s'écrit:

Sensibilité = Vrai positif / Tous les malades 
Ou encore 
Sensibilité = Vrai positif / (Vrai positif + Faux négatif)

Un test très spécifique (gauche de la figure) nous assure qu'aucun patient sain n'est détecté quitte à avoir des faux négatifs. Sa formule s'écrit:

Specificité = Vrai négatif / Tous les sains 
Ou encore 
Spécificité = Vrai négatif / ( Vrai négatif + Faux positif)

L'idéal est d'avoir un test avec une sensibilité et une spécificité de 100%. Mais en pratique, c'est rarement le cas et le test est choisi en fonction de l'utilisation. Un test sensible est utilisé pour faire du dépistage sur une population (un test de grossesse sur les urines), tandis qu'un test spécifique est utilisé pour faire du diagnostic sur des patients ciblés (bêta-hCG sur une prise de sang ).
Gardons tout cela en tête, car cela servira pour la suite.

Savez-vous compter ?

Revenons à nos 10 individus et posons-nous les questions suivantes.

Combien avons-nous de malades ?

6 personnes sur 10 sont malades. Soit p(M) = 6/10

Combien de personnes ont un test positif?

5 personnes sur 10 ont un test postif. Soit p(T) = 5/10

Combien de personnes sont malades ET avec un test positif?

4 personnes sur 10 sont malade avec un test postif. Soit p(M et T) = 4/10

Maintenant, passons aux probabilités conditionnelles. Et pour cela, voici une subtilité du langage que je vous conseille d'utiliser. Ne dites pas « La probabilité de A sachant B » mais « La probabilité de A parmi B »

Combien avons-nous de malades parmi les patients testés positifs ?

Parmi les 5 tests positifs il y a 4 malades.
Soit p(M|T) = p(M et T) / p(T) = 4 / 5

Combien avons-nous de personnes testées positive parmi les malades?

Parmi les 6 malades, 4 ont un test positif.
Soit p(T|M) = p(M et T) / p(M) = 4 / 6. Cette dernière formule correspond à la sensibilité du test

Et la formule de Bayes surgit

Vous constaterez que dans les 2 formules précédentes, p(T|M) et p(M|T), il y a un terme en commun: p(M et T) qui correspond au nombre d'individus à la fois malades et testés positivement.
En remplaçant ce terme, nous pouvons alors exprimer p(M|T) en fonction de p(T|M).

On a :
p(T|M)    = p(M et T) / p(M)

et donc:
p(M et T) = p(M) * p(T|M)

en remplaçant :
p(M|T)    =  p(T|M) * p(M)  / p(T)

Et nous voilà alors, avec la fameuse formule de Bayes :

On peut tout de suite vérifier sur nos 10 individus que nous trouvons par le calcul la même chose que ce que nous observons.
Calculons p(M/T) et vérifions que c'est égal à 4/5:

p(M)    = 6/10
p(T)    = 5/10
p(T/M)  = 4/6 
p(M/T)  = ( p(M) * p(T/M) ) / p(T) = 6/10 * 4/6 / 5/10 = 4/5

La loi totale de Bayes

En pratique, on utilise le théorème de Bayes en médecine pour estimer le risque qu'un individu soit malade sachant que son test est positif. Malheureusement nous n'avons pas toutes les informations nécessaires pour appliquer la formule de Bayes aussi facilement que dans notre exemple.
Les seuls éléments que nous ayons à disposition sont la prévalence de la maladie dans la population p(M) et la sensibilité/spécificité du test correspondant respectivement à p(T|M) et p(nonT|nonM).
Il faut alors réussir à calculer p(T).

p(T) est la somme de A=p(M et T) et B=p(non M et T) sur les 10 individus

p(T) se calcul en sommant le nombre de patients malades ET testés positifs p(M et T) avec le nombre de patients sains ET testés positifs p(non M et T). Et comme vu précédemment, nous pouvons exprimer chacun de ces termes par :

p(M et T)     = p(M) * (T|M)
p(non M et T) = p(non M) * (T|non M)

On peut alors écrire la loi totale de Bayes :

Loi totale de Bayes

Un exemple avec la mucoviscidose

On s'intéresse ici au patient porteur d'une mutation dans le gène CFTR qui est impliqué dans la mucoviscidose. En France, 1 personne sur 34 [p(M)=1/34] est porteuse de la mutation , la plus fréquente étant la ΔF508. ( cela n'implique pas d'être malade, car il s'agit d'une maladie autosomique récessive). Il existe un test pouvant détecter ces mutations avec une sensibilité de 85% [p(T|M)=1/85] et une spécificité avoisinant les 100% [p(Tneg|non M)=1].
Après vous avoir fait le test qui s'est négativé, quelle est la probabilité que vous soyez tout de même porteur ?

Attention subtilité: Ici p(Tneg|M) est égal à 1-sensibilité.
La probabilité d'être porteur malgré la négativité du test est d'environ 1 chance sur 220

Conclusion

En résumé la probabilité conditionnelle p(A|B) c'est le nombre d'évènement A parmi un sous ensemble B. Et le théorème de Bayes est la formule mathématique qui permet d'exprimer p(A|B) en fonction de p(B|A).
J'espère donc que vous visualisez aussi bien que moi la formule de Bayes maintenant. Personnellement, en faisant les dessins sur papiers, je retrouve très facilement les formules. Donc inutile de les apprendre par coeur. J'espère maintenant devenir un vrai Bayesien pour pouvoir frimer en soirée et même changer ma façon de penser. En effet, je ne sais pas si vous connaissez le problème de Monty Hall. C'est une experience complétement contre intuitif et parait que seul des r̶e̶p̶t̶i̶l̶i̶e̶n̶s bayésiens ont le pouvoir de trouver ça logique.

Réferences

Le maximum de vraisemblance

2018-06-05T22:48:39+02:00

Je continue ma lancée avec ce billet traitant d'un sujet important aussi bien en statistique qu'en intelligence artificielle: Le maximum de vraisemblance. Je rappelle que je ne suis ni statisticien ni mathématicien et que j'essaie d'expliquer ces concepts avec un simple regard naïf de programmeur. (C'est à dire sans formule de math ;D).
Le maximum de vraisemblance est une méthode statistique permettant de trouver les paramètres d'un modèle de probabilité les plus "vraisemblables" pour expliquer des données observées. On peut comparer cela avec une régression linéaire où l'objectif est d'identifier les paramètres a et b de l'équation y = ax+b. Dans la suite de ce billet, ce ne sera pas les paramètres d'une droite, mais les paramètres d'une loi normale que nous essayerons de déterminer.

Nos données observées

Imaginons une série de valeurs, disons l'âge de 1000 étudiants pris au hasard dans une fac. En traçant l'histogramme de ces données, nous obtenons :

data  = np.random.normal(24, MYSTERE ,1000)

distribution des âges suivant une loi normale. Les données ont été générées avec np.random.normal. Le paramètre MYSTERE a volontairement été caché

On peut voir ici que la distribution des valeurs suit approximativement une loi normale avec une moyenne aux alentours de 24 et un écart-type difficile à évaluer au premier coup d'œil. Ce dernier est le paramètre MYSTERE que nous allons découvrir en cherchant l'équation de la loi normale qui s'ajuste au mieux aux données.

La fonction de la loi normale

La loi normale a une fonction de densité de probabilité p paramétrée par mu et sigma définissant respectivement le centre de la courbe (l'espérance) et sa largeur (la variance).

fonction définissant une loi normale

En python cette fonction est implémentée dans la librairie scipy. Pour tracer cette fonction, il suffit de faire :

import scipy 
import numpy as np
import matplotlib.pyplot as plt

def loi_normale(x,mu = 0 ,sigma = 1):
    return scipy.stats.norm.pdf(x,loc = mu, scale=sigma)

x = np.arange(-10,10,0.1)
y = loi_normale(x)
plt.plot(x,y)

Différentes lois normales d'espérance mu=0 et de variance sigma=2,3,4 et 5

En faisant varier mu et sigma, vous verrez différentes formes de cloche. Le but est donc de trouver quelles sont les meilleures valeurs de ces deux paramètres pouvant expliquer la distribution de nos données.

Calcul de la vraisemblance

Pour faire simple, nous allons uniquement évaluer le paramètre sigma et fixer mu à 24. Pour cela, on va d'abord attribuer à chaque valeur possible de sigma un indicateur appelé vraisemblance que l'on note L(sigma). Cette indicateur est la probabilité d'obtenir notre distribution des âges sous le paramètre sigma. Il s'obtient en faisant le produit de la fonction p(x) pour toute valeur x provenant de nos données observées.

L(sigma) = p(x1) * p(x2) * p(x3) * ....

Son implémentation en python est la suivante :

def vraisemblance(data, sigma):
    L = []
    for x in data:
        y =  loi_normale(x,mu = 24, sigma = sigma)
        L.append(y)
    return np.prod(L)

On préfère cependant utiliser le log pour remplacer les multiplications par des additions.

def log_vraissemblance(data, sigma):
    L = []
    for x in data:
        y =  loi_normale(x,mu = 24, sigma = sigma)
        L.append(np.log(y))
    return np.sum(L)

Le maximum de vraisemblance

En réfléchissant 2 minutes, vous comprendrez tout de suite que la valeur idéale de sigma est celle qui va maximiser la vraisemblance.
On peut tout de suite confirmer cette intuition en testant différentes valeurs de sigma et identifier celle dont la vraisemblance est maximale.

x = np.arange(1,5,0.1)
y = []
for sigma in x:
    y.append(log_vraissemblance(data,sigma))

plt.plot(x,y)

Vraisemblance en fonction de sigma

En recherchant la valeur de sigma qui donne la plus grande vraisemblance, on trouve sigma ~ 2,1

import pandas as pd
df=  pd.DataFrame({"x":x,"y":y})
# Liste des valeur x et y
# 1.0 -3110.531663
# 1.1 -2825.482705
# 1.2 -2623.199764
# 1.3 -2478.103466
# 1.4 -2373.570530
# 1.5 -2298.445032
# 1.6 -2245.033229
# 1.7 -2207.903507
# 1.8 -2183.142831
# 1.9 -2167.881929
# 2.0 -2159.983996
# 2.1 -2157.835771  <=
# 2.2 -2160.204391
# 2.3 -2166.137473
# 2.4 -2174.892189
# 2.5 -2185.884166

# Ou plus simplement avec idxmax
df.iloc[df["y"].idxmax()]
#x       2.1
#y   -2157.835771

On peut alors traçer sur la distribution des âges, une fonction normale d'esperance mu=24 et de variance prédis sigma=2.1. Vous constaterez alors que la courbe en cloche s'ajuste parfaitement aux données. Et voilà !

Modèle ajusté à nos données

Conclusion

L'utilisation dans ce billet d'un algorithme itératif, pour trouver sigma, n'a qu'un but pédagogique. En réalité, pour une loi normale, le maximum de vraisemblance se calcule de manière analytique. C'est à dire avec une formule mathématique. (Il suffit de calculer le point ou la dérivé de L(sigma) s'annule.) Vous trouverez une démonstration ici pour la loi normale et la loi exponentielle. En revanche pour des lois plus complexes, on peut être amené à utiliser l'algorithme d'espérance-maximisation qui permet par exemple d'extraire deux lois normales à partir d'un jeu de données mélangées. J'y reviendrai… Quand j'aurais bien compris !

Merci à @andré pour la relecture !

La distribution de χ2

2018-05-23T22:50:33+02:00

Si vous avez touché un tant soit peu les statistiques, vous connaissez certainement le test de χ². Et comme moi, vous avez certainement du jongler avec des formules ou des notions comme le "degré de liberté" sans vraiment comprendre d'où ça venait. Ce soir, par un élan de motivation sans précédent, je tente de démystifier la loi du χ², avec le regard du simple programmeur !

Une distribution aléatoire

Une distribution aléatoire, c'est juste une liste de nombres obtenus par une loi de probabilité. Il en existe plusieurs. Par exemple, si vous voulez générer 10000 nombres, vous pouvez lancer un même dé plusieurs fois. En python ça donnerait qqch de ce genre :

import random
x = []
for i in range(10000):
    x.append(random.randint(1,7))
#  [2, 1, 6, 3, 5, 6, 2, 3, 6, 3, 3, 1, 5, 1, 1, 5, 3, 4, 4, 1 ....]

Si vous comptez la fréquence de chaque chiffre, c'est à dire combien de fois il y a de 2, de 3 etc ... Vous obtiendrez approximativement 1/6 qui correspond à la probabilité du dé pour chaque chiffre. Cette distribution suit une loi de probabilité dite "uniforme". Graphiquement, ça ressemble à ça :

Distribution uniforme. L'axe des abscisses représente le chiffre et l'axe des ordonnées le nombre de fois que ce chiffre est obtenu

La distribution normale

On peut très bien imaginer une autre loi aléatoire ou certains nombres sont choisi préférentiellement à d'autres. La loi normale en est une. Elle est définie par 2 valeurs ( l'espérance et la variance ). Les nombres sont choisis préférentiellement autour de l'espérance et s'écarte plus ou moins fortement avec la variance.
Par exemple, pour générer une distribution de 10000 valeurs avec une espérance de 0 et une variance de 1, on obtiendrait ça:

import numpy as np
import seaborn as sns
x = np.random.normal(0,1,1000)
#0.26 -0.38 -1.15 -0.81 1.53 1.11 0.45 -1.09 -0.15 ....
sns.distplot(x)

Distribution normale. La majorité des valeurs tourne autour de 0

La distribution de χ2

La distribution de χ2 est obtenu en sommant les carrés de k nombres indépendants choisis au hasard dans une distribution normale d'espérance 0 et de variance 1. Par exemple, tirons aux hasards 2 nombres (xa et xb) depuis la distribution normale vu précédemment et calculons une nouvelle variable X1 comme étant la somme des carrés de xa et xb: Disons -1.15 et 1.53.

X1 = xa^2 + xb^2 = (-1.15)^2 + (1.53)^2 = 3.66

Recommençons, en calculant X2 avex deux nouveaux tirages

X2 = xa^2 + xb^2 = (0.45)^2 + (0.26)^2 = 0.27

Puis X3,X4 et ainsi de suite ....
Cette nouvelle distribution (X1,X2,X3...) suit une loi de χ2 et de degré de liberté k=2. Avec un degré de liberté supérieur, disons 5, nous aurions des tirages de 5 valeurs (xa, xb, xc, xd et xe). C'est simple non ?
Au niveau du code, on peut créer la fonction suivante :

def dist_ki2(ddl, size):
''' ddl  : degré de liberté 
    size : taille de la distribution à générée
'''
    X = []
    x = np.random.normal(0,1,size)
    for _ in range(size):
        X.append(sum([n*n for n in np.random.choice(x,ddl)]))
    return X

En testant avec différents degrés de liberté :

for ddl in range(1,10):
    sns.distplot(dist_ki2(ddl, 1000))

Différente distribution de ki2

Essayer pour voir avec un degré de liberté > 100. Vous constaterez qu'on se retrouve avec une distribution d'allure normale d'espérance k et de variance 2k.

Et donc ?

Et bien rien de plus ... En tout cas pour le moment. Je voulais surtout comprendre d’où venait cette loi.
Le test de χ2 utilise cette distribution pour tester la différence entre des données catégorielles. Je n'ai pas eu le temps de me pencher sur la démonstration mathématique, car ça demande un peu plus de temps. Mais si j'ai la motivation, je compléterai ce billet.

Convertir HPO en base de données Sqlite

2018-05-08T14:00:45+02:00

Pour mon projet cutevariant, j'ai été amené à devoir convertir l'ontologie HPO (disponible au format obo) en base de données SQLite. Pour ceux qui ne connaissent pas, HPO (Human Phenotype Ontology) est une ontologie décrivant des signes cliniques. C'est-à-dire un vocabulaire standardisé et hiérarchisé afin d'aider les ordinateurs à comprendre le charabia des médecins. Si je vous donne par exemple le mot céphalée (maux de tête) il y a un terme anglais Headache associé à l'identifiant HPO:0002315. Ce terme est enfant du terme Abnormality of nervous system physiology, lui même enfant de Abnormality of the nervous system, lui même enfant de Organ abnormality qui est la racine de l'ontologie. Jeter un oeil sur phenomizer pour explorer cette ontologie.
Afin de réaliser cette transformation (en l'occurrence un fichier hpo.obo en fichier hpo.sqlite), je me suis vu écrire plein de ligne de code et faire du parsing dans tous les sens. Lorsque j'ai réussi à réaliser cette transformation en 10 lignes à peine à l'aide de networkx, c'est à ce moment que j'ai eu la révélation.... Les graphes c'est vraiment GÉNIAL !!!!!!!!

Imbrication d'ensemble

Les données dans HPO ressemblent à un arbre. Je me suis alors rappelé d'une méthode pour représenter des données hiérarchisées dans une base de données relationnelle qu'on appelle l'imbrication d'ensemble.
Naïvement, pour sauvegarder un arbre dans une base de donnée SQL on ferait un truc simple de ce genre:

Table Node
- id        (primary key)
- name      (string)
- parent    (foreign key)

Mais dans ce cas, certaines requêtes peuvent être complexes. Par exemple si vous demandez tous les enfants d'un noeud particulier, cela nécessitera d'écrire une requête récursive gourmande.
La méthode d'imbrication consiste à associer à chaque noeud des bornes droites et gauches correspondant aux indices d'un parcours d'arbre en profondeur.

Table Node
- id        (primary key)
- name      (string)
- left      (integer)
- right     (integer)

Par exemple dans l'arbre suivant, on part de la borne gauche (1) de la racine Food et on descend l'arbre jusqu'aux feuilles et ainsi de suite, jusqu'à revenir sur la borne droite (18) de la racine.

Grâce à ça, en une seul requête il est facile d'obtenir tous les enfants d'un noeud. Par exemple pour sélectionner tous les enfants de fruit, il suffit de sélectionner tous les noeuds avec une borne gauche > 2 et une borne droite < 11. Facile non ?

SELECT name FROM node WHERE left > 2 AND right < 11

Convertion d'un DAG en arbre

Le problème c'est que l'ontologie HPO n'est pas un arbre. C'est un graphe orienté acyclique (DAG). C'est-à-dire que certains noeuds peuvent avoir plusieurs parents. Par chance, la lib networkx en python permet de convertir un DAG en arbre en dupliquant les noeuds qui pose problème.
Prenons un graphe simple avec le noeud D ayant deux parents B et C.

import networkx as nx
g = nx.DiGraph()
g.add_nodes_from(["A","B","C","D"])
g.add_edge("A","B")
g.add_edge("A","C")
g.add_edge("B","D")
g.add_edge("C","D")
nx.draw_networkx(g)

On peut alors transformer ce DAG en arbre avec :

tree  = nx.dag_to_branching(g)
nx.draw_networkx(tree)

Tous les noeuds ont été renommés avec un identifiant unique et le noeud D a été dupliqué.
Pour savoir à quels noeuds ces identifiants correspondent :

for node in tree.nodes(data="source"):
    print(node)
('3b62eb6b-52c0-11e8-87d5-10bf48bcfa69', 'A')
('3b62eb6c-52c0-11e8-87d5-10bf48bcfa69', 'B')
('3b62eb6d-52c0-11e8-87d5-10bf48bcfa69', 'D')
('3b62eb6e-52c0-11e8-87d5-10bf48bcfa69', 'C')
('3b62eb6f-52c0-11e8-87d5-10bf48bcfa69', 'D')

Parcours de l'arbre en profondeur

Pour sauvegarder cet arbre dans une base de donnée SQL, il faut dans un premier temps parcourir l'arbre en profondeur, et associer à chaque noeud les bornes gauche et droite. Pour cela, rien de plus simple avec les algorithmes de parcours en profondeur de networkx (dfs):

index = 0
for i in nx.dfs_labeled_edges(tree):
    node_name_1   = i[0]
    node_name_2   = i[1] 
    sens          = i[2]
    if sens == "forward":
        tree.node[node_name_2].update({"left": index})
    if sens == "reverse":
        tree.node[node_name_2].update({"right": index})
    index+=1

Au final, il suffit de reparcourir l'arbre et faire des INSERT SQL pour chaque noeud.
Étant donné qu'il y a des noeuds dupliqués, il est plus intéressant de créer 2 tables. L'une contenant les noeuds réels (Nodes) et l'autre contenant les noeuds dupliqués (Trees). On peut également rajouter comme information la profondeur du noeud dans l'arbre ainsi que son noeud parent.

Table Nodes
- id        (primary key)
- name      (string)

Table Trees 
- id        (primary key)
- node_id   (foreign key)
- left      (int)
- right     (int)
- depth     (int)
- parent_id (foreign_key)

Hpo2Sqlite sur github

Le code source pour convertir hpo.obo en hpo.sqlite, ainsi que la base de données sqlite sont dispo à ces adresses:

Cette méthode est compatible avec l'ontologie HPO parce que toutes les relations sont de type "is_a". Donc en théorie, pour n'importe quelle autre ontologie du même type, cet algorithme peut fonctionner.

PS: Merci à mes profs Olivier Dameron (ontologie) et Emmanuelle Becker (Graphe) de m'avoir appris toutes ces notions!

Les TADs et l'organisation spatiale du génome

2018-05-08T11:12:11+02:00

Lors de la mitose, l'ADN des cellules eucaryotes s'organise en chromosomes condensés et bien délimités. C'est l'image que nous avons tous d'un chromosome. Mais le reste du temps, pendant l'interphase, ces chromosomes ressemblent davantage à une boule de spaghetti emmêlée dans tous les sens : ce que l'on appelle la chromatine.
Aujourd'hui, les technologies de Capture de Conformation des Chromosomes nous révèlent l'organisation spatiale de cette chromatine, qui en réalité semble loin de l'anarchie mais plutôt organisée de façon fonctionnelle. C'est ce que nous allons découvrir tout de suite avec les TADs (Topologically Associated Domain).

Analyser l'organisation spatiale de la chromatine

Il existe toute une famille de technologies permettant d'évaluer l'organisation spatiale des chromosomes au moment de l'interphase. C'est la Capture de Conformation des chromosomes (Chromosom Conformation Capture). Cette méthode se décline sous plusieurs formes que vous trouverez sous le nom de (3C,4C,5C,HiC,ChiA-PET). Elles reposent toutes sur le même principe qui est d'identifier sur la chromatine, des régions en contact physique. Imaginez la chromatine comme un long ruban d'ADN, formant plein de boucles en se repliant sur elle-même. Par ces technologies, vous allez pouvoir savoir qu'une région x de ce ruban est en contact physique avec une autre région y.

Figure 1. Haut. Vision linéaire du génome. Bas. Vision spatiale du génome et identification d'une zone de contact (orange)

Comment ça fonctionne ?

L'idée générale consiste à capturer les deux régions d'ADN en contact (x et y) et construire un fragment d'ADN hybride contenant le fragment x à une extrémité et le fragment y de l'autre (Figure 2). Ce fragment hybride est alors identifié par différents techniques de biologie moléculaire.
Tout d'abord, les régions de contact sont figées en créant des liaisons covalentes grâce à du formaldéhyde. C'est l'étape du cross-linking. L'ADN est ensuite digéré avec des enzymes de restriction pour ne garder que les régions de contact. Puis on réalise une ligation des extrémités du cross-link pour obtenir des fragments d'ADN hybrides. Ces fragments peuvent alors être identifiés par les différentes méthodes de biologie moléculaire. Par exemple, la méthode 3C est une simple PCR tandis que la méthode Hi-C est un séquençage haut débit de l' ensemble de fragments hybrides obtenus à partir d'un génome. C'est cette dernière que je vais détailler.

Figure 2. Fixation des régions de contact avec du formaldéhyde (cross-linking) puis digestion de l'ADN avec une enzyme de restriction. Grâce à une ligase, les deux extrémités du cross-link sont reliées. Après un reverse cross-linking, le fragment hybride est obtenu. Celui-ci va pouvoir être séquencé en paired-end sur de l'Illumina. Le read R1 correspondra à la région x et le read R2 à la région y.

Méthode Hi-C

À partir de la méthode décrite au-dessus, on va pouvoir créer une libraire de séquençage, c'est-à-dire générer un ensemble de fragments hybrides correspondant à l'ensemble des zones de contact de la chromatine. Cette librairie est lue sur un séquenceur Illumina qui a la particularité de faire du séquençage en paire (paired-end), c'est-à-dire pouvoir lire un fragment d'ADN dans les deux sens. Pour chaque fragment d'ADN lu, nous obtenons ainsi une paire de reads R1 et R2 qui correspondent aux deux régions de contact x et y (Figure 2). On aligne ces reads sur le génome de référence afin de leur attribuer des coordonnées génomiques. Connaissant les paires de reads, nous pouvons enfin savoir si une région x est en contact avec une région y.
Par exemple, si dans nos données, il existe un read R1 s'alignant sur le gène A et un read R2 s'alignant sur le gène B, nous pouvons "conclure" qu'il y a interaction entre le gène A et le gène B.

Visualiser les données Hi-C

Pour représenter l'ensemble des régions de contact provenant d'une expérience Hi-C, on utilise une carte de chaleur (heatmap). Cette carte est une matrice n x n montrant le nombre d'interactions entre deux positions données du même chromosome. La technologie ne permettant pas d'avoir une résolution à la base exacte, les positions sont des intervalles de taille fixe. La valeur de chaque cellule est le nombre de paires de reads entre deux positions données. Plus la couleur d'une cellule est rouge, plus il y a d'interaction entre les deux positions correspondant à cette cellule.
La figure 3 gauche, montre comment construire une heatmap pour un chromosome. La figure 3 droite, montre une heatmap sur des données réelles Hi-C pour le chromosome 14. La diagonale rouge vif signifie que les régions très proches dans la séquence, sont en contact physique, ce qui semble logique. Notons par ailleurs que la matrice est symétrique. En effet, "x" interagit avec "y", est équivalent à "y" interagit avec "x". Pour cette raison, on préfère représenter les données Hi-C par une demi heatmap, ce qui nous donne un triangle (figure 4).

Figure 3. Gauche : le chromosome est découpé en intervalles de taille fixe. Après alignement, chaque read est associé à un intervalle. On comptabilise alors le nombre de paires existantes pour deux intervalles donnés. Sur la figure de gauche, il y a 2 paires entre les deux extrémités "p" et une paire entre l'extrémité "p" et "q". Droite : données réelles Hi-C sur le chromosome 14. Notez la symétrie de la matrice autour de la diagonale ainsi qu'une allure en damier. source

Les TADs

En observant la heatmap de plus près (Figure 4), vous distinguerez des triangles rouges d'allure fractale qui ressortent clairement. Ces triangles correspondent à un ensemble de régions qui interagissent toutes ensemble mais qui sont isolées du reste. Ces domaines, ce sont nos fameux TAD. Imaginez-les comme des boules de noeud sur notre ruban D'ADN. Chaque noeud contient des régions qui interagissent avec les autres régions de ce même noeud mais jamais avec d'autres. Pour vous faire une idée, deux TADs sont magnifiquement illustrés par mes soins en bas de la figure 4.

Figure 4. Visualisation d'une région du chromosome 3. Les TADs sont des domaines qui interagissent et sont observés ici par des triangles rouges. Sur cette figure, la région x,y et z sont à egale distance les unes des autres. Cependant x et y appartiennent au même TAD tandis que z appartient à un autre différent. source

Fonction des TADs

Aujourd'hui, la fonction des TAD n'est pas totalement élucidée. Mais il est clair qu'ils jouent un rôle important dans la régulation de l'expression des gènes. Nous savons depuis longtemps que les gènes sont régulés par des séquences promotrices situées en amont des gènes. Mais il existe aussi des régions très éloignées du gène qui peuvent moduler la transcription. Ce sont les amplificateurs (enhancers) et les inactivateurs (silencers) qui respectivement activent ou répriment la transcription. Par exemple, en repliant l'ADN dans l'espace, l'enhancer et le promoteur vont pouvoir interagir et moduler la transcription (Figure 5).

Figure 5. Schéma de la régulation de la transcription via les amplificateurs. En se répliant, l'ADN met en contact l'amplificateur et le promoteur d'un gène.

Il est alors évident que pour agir, un amplificateur doit se situer dans le même TAD que ses gènes cibles. Plusieurs gènes au sein du même TAD peuvent ainsi être co-régulés par le même amplificateur.

Figure 6. Un amplificateur peut interagir avec les gènes de son TAD mais pas avec un autre.

Une autre région importante dans la régulation est l'isolateur (insulator) qui se situe entre deux TAD en empêchant leur fusion. Une étude a par exemple montré qu'une délétion dans un isolateur est responsable de la fusion de deux TADs en un seul. Les deux noeuds bien distincts ne forment plus qu'un seul gros noeuds. Les enhancers du premier TAD sont alors capables d'interagir avec un gène du deuxième TAD, entraînant une sur-expression délétère pour l'organisme.

Formation des TADs

La formation des TADs a été récemment mise en évidence en validant le modèle de Loop extrusion. Ce mécanisme fait intervenir la cohésine et les protéines CTCF qui reconnaissent des motifs autour des TADs, et font glisser la chromatine au travers d'anneaux. Les deux vidéos suivantes vous montrent clairement la formation de ces structures.

Simulation du modèle Loop extrusion

Visualisation de Loop extrusion temps-réel

Conclusion

La découverte d'une organisation spatiale de la chromatine a changé notre vision du génome. Les chromosomes étaient le support rigide de l'information génétique. Ils sont maintenant les acteurs d'une régulation fine contrôlé par l'épigénétique. L'exploration dans ce domaine nous permettra de mieux comprendre le fonctionnement du génome dans son intégralité, et justifiera certainement le séquençage complet des patients atteints de maladies génétiques.

Références

ADN et jeu du chaos

2017-12-17T21:30:00+01:00

Vous connaissez le jeu du chaos? Il s'agit d'une construction géométrique très simple permettant de faire apparaitre des fractales. La construction la plus connue est le triangle de Sierpinski que vous pouvez dessiner vous-même avec un papier et un crayon:

Dessiner un triangle en numérotant les trois sommets A,B,C.
Puis dessiner dedans un point P choisi au hasard .
Tirer alors un nombre aléatoire correspondant à A,B ou C.
Si par exemple vous tirez le A, dessiner le point correspondant au milieu du segment [PA].
Ce nouveau point appelez le P, puis répéter la procédure de façon itérative en partant du nouveau point.

Si tout se passe bien, et avec beaucoup de temps, vous devrez voir apparaitre le triangle de Sierpinski.

Le jeu du chaos appliqué à l'ADN

Au lieu d'utiliser un dé, nous pouvons utiliser une séquence d'ADN pour choisir les sommets avec cette fois un carré ou chaque sommet correspond aux nucléotides A,C,G,T. Pour chaque base lue dans la séquence, dessiner le point correspondant au centre du segment [P-nucléotide] puis continuer comme vu précédement jusqu'au dernier nucléotide.

Construction d'une CGR pour la séquence CGT. A partir du centre, trouver le point P2 centre du segment [P1-C]. Puis P3 centre du segment [P2-G] et enfin P4 centre de [P3-T].

Avec un programme informatique c'est plus rapide. On peut alors executer l'algorithme sur de très longues séquences comme des génomes entiers. Et ça donne de très jolies images:

Exemple de CGR obtenu à partir de plusieurs espèces. source

Pour comprendre ces graphiques appelés CGR (Chaos Game Representation), garder à l'esprit qu'à chaque point correspond une partie de la séquence lue. Par exemple il y a un point correspondant aux 4 premiers nucléotides et un autre point correspondant aux 20 premiers nucléotides. Si vous réfléchissez un peu, vous devinerez que toutes séquences commençant par un A dessine un point dans le quart inférieur gauche, celles commençant par un G dans le quart supérieur droit, ainsi de suite. Mais nous pouvons aller encore plus loin. Toutes les séquences commençant par CG, se trouvent dans le quart supérieur gauche du quart droit. Toutes les séquences commençant par TAG, dans le quart inférieur droit, du quart inférieur gauche, du quart supérieur droit. Cette dichotomie illustrée sur la figure ci-dessous permet d'associer à chaque séquence une coordonnée unique. Et si vous n'avez pas compris, allez faire un tour sur cette page et tapper n'importe quel séquence dans la barre de recherche.

Dichotomie de la CGR. Par exemple, toutes les séquences commencant par TAG se trouve dans une zone précise.

Une méthode pour compresser l'ADN

À part être jolie, à quoi ça sert ? Et bien plusieurs choses. Cette représentation apporte une information globale (sur toute la séquence) et une information locale (sur le contenu de la séquence). Par exemple, sur la figure suivante, vous pouvez voir un "trou" dans le quart G (supérieure droite). Ce motif se répète à plusieurs échelles ( dans les sous-quarts) et correspond à une dispersion des répétitions CG. ( Ce pattern serait observé uniquement chez les vertébrés ).

CGR d'une région contenant le gène de la beta globuline sur le chromosome 11. source

On peut s'en servir aussi comme une signature. Ou encore pour visualiser des réarrangements...
Mais ce que je préfère c'est l'utilisation de cet algorithme pour compresser une séquence d'ADN. En effet, plus haut je vous ai dit qu'à chaque séquence il y a un unique point. Par exemple avec la séquence ACGT, les coordonnées du dernier point sont unique à la séquence. Il n'y a que la séquence ACGT qui permet de produire ce point. On peut donc représenter n'importe quelle séquence par un couple de coordonnées (x,y) !
Avec l'algorithme que nous venons de voir et nos ordinateurs actuels nous pouvons compresser 32 nucléotides en utilisant un couple de nombres à virgule (x,y). C'est pas mal, mais il y a mieux. Un article récent montre qu'il est possible de compresser 1024 nucléotides avec un couple d'entiers (x,y) en modifiant la méthode de calcul. Au lieu de calculer le milieu d'un segment, la somme entre les deux points est calculé en utilisant une puissance de 2 dans l'équation.
N'importe quelle séquence de moins de 1024 nucléotides peut ainsi être écrite en utilisant 3 nombres : la longueur de la séquence, et les coordonnées x, y.
On pourrait alors très bien imaginer un algorithme, qui découpe une très longue séquence d'ADN en bloc de 1024 nucléotides et compresse chaque morceau avec l'ensemble mis bout à bout. Génial non ?

Ceci est une séquence de 3072 (1024*3) nucléotides écrit sur une ligne!!!  
(52332,12313)(5744,14)(1242,75575)

Source

Remerciements

Merci à @Natir pour cette découverte

Les algorithmes avec la STL

2017-12-11T17:16:31+01:00

J'utilise de plus en plus dans mon code C++, les algorithmes de la librairie standard. Couplés avec les lambdas expression, j'évite d'écrire des tas de boucles for, et mon code est plus lisible. Sans oublier que cette programmation générique est compatible avec les containers Qt. Donc forcément, j'adore.
Voici donc quelques fonctions que j'utilise à foison:

Copier un vecteur A dans un vecteur B

std::vector<int> a = {1,2,3,4,5,6};
std::vector<int> b;
std::copy(a.begin(), a.end(), std::back_inserter(b));
// b est égal à {1,2,3,4,5,6}

Insérer un vecteur B dans un vecteur A à la position 3

std::vector<int> a = {1,2,3,4,5,6};
std::vector<int> b = {0,0,0};
std::copy(b.begin(), b.end(), std::inserter(a, a.begin() + 3));
// a est égal à {1, 2, 3, 0, 0, 0, 4, 5, 6}

Calculer la dérivée d'une fonction

std::vector<double> a = {0,1,4,9,16,25,36};
std::vector<double> b;
std::adjacent_difference(a.begin(),a.end(),
                         std::back_inserter(b),
                         [](double a,double b){return (a-b)/2;});
// a est une parabole x^2 = {0,1,4,9,16,25,36};
// b est la dérivé de x^2, soit une droite = {0, 0.5, 1.5, 2.5, 3.5, 4.5, 5.5}

Supprimer toutes les valeurs superieurs à 4

std::vector<int> a = {0,1,4,9,16,25,36};
a.erase(std::remove_if(a.begin(),a.end(),[](int v){return v > 4;}), a.end());
// a = {0,1,4}

Elever les valeurs d'un vecteur à la puissance 2

std::vector<int> a = {1,2,3,4,5,6,7};
std::transform(a.begin(),a.end(), a.begin(), [](int v){return v*v;});
// a = {1, 4, 9, 16, 25, 36, 49}

Faire la somme d'un vecteur

std::vector<int> a = {1,1,1,1,1};
int result = std::accumulate(a.begin(),a.end(),0);
// result = 5

Toutes mes valeurs sont elles superieurs à 0 ?

std::vector<int> a = {1,2,3,4,5};
bool success = std::all_of(a.begin(), a.end(), [](int x){return x>0;});
// success = True

Changer l'humanité avec le « gene drive »

2017-11-19T23:50:00+01:00

C'est le 2 août 1939 qu'Albert Einstein publie une lettre au Président Roosevelt pour le prévenir du risque de voir apparaître une bombe atomique après la découverte de la réaction en chaîne. Six ans plus tard, quasiment jour pour jour, la bombe atomique tombe sur Hiroshima. Pourquoi je vous parle de ça ? Parce qu'aujourd'hui, une nouvelle technologie fait son apparition en biologie moléculaire. Elle est tout aussi fascinante qu'effarante, car elle permet de modifier génétiquement toute la population d'une espèce en quelques générations. Et ironie du sort, cette technologie s'appelle MCR : « Mutagenic Chain Reaction ».

Le principe

Nous et d'autres espèces sexuées sommes diploïdes. C'est-à-dire que nous possédons chacun de nos gènes en deux exemplaires. Une version (allèle) provient de la mère et l'autre provient du père. Lors de la formation des gamètes, le mécanisme de méiose choisit aléatoirement une version de ce gène pour fabriquer un spermatozoïde ou un ovocyte. Ainsi, lors de la fécondation, chaque allèle a une chance sur deux de se transmettre à la descendance.
La technologie de « forçage génétique » ou « gene drive » biaise ce mécanisme de l'hérédité en rendant le gène souhaité héritable à presque 100 %. En quelques générations seulement, un trait génétique peut alors se répandre dans toute la population.
Comment ça fonctionne ? Je vous le donne en mille. Encore un coup de ce CRISPR-Cas9...

À gauche : hérédité normale avec 50 % de chance de transmettre un allèle à la prochaine génération. À droite : hérédité biaisée avec 100 % de chance de transmettre l'allèle.
source de l'image

Un gène vraiment égoïste

L'idée est de créer un gène artificiel de sorte qu'il puisse détruire son allèle homologue sauvage et s'y copier à la place. Pour cela, on associe au gène d'intérêt une séquence codant pour l'endonucléase Cas9 ainsi que l'ARN guide qui cible le même gène à l'état sauvage grâce à des séquences homologues (H1, et H2 sur le schéma). Cet ensemble s'apelle une « cassette ». Si dans une cellule, l'allèle sauvage se trouve avec cette cassette, il est localisé et découpé par le complexe Cas9-ARN guide. Le trou béant qui en résulte est corrigé en prenant comme modèle la séquence homologue de l'allèle disparu qui n'est autre que la séquence de la cassette. On passe d'un état hétérozygote à une cassette à un état homozygote à deux cassettes. Lors de la fécondation, la probabilité de transférer ce nouveau gène passe ainsi de 50 % à 100 %.

À gauche : création d'un organisme modifié, par exemple, on peut, à l'aide d'un plasmide, modifier un embryon pour qu'il soit homozygote pour le gène artificiel. À droite : fécondation entre un organisme sauvage et l'organisme modifié. Sans intervention humaine, l'embryon passe de l'état hétérozygote à homozygote.
H1, H2 : site de reconnaissance de l'ARN guide. Payload gene : gène que l'on désire voir se propager. gRNA : ARN guide. Cas9 : endonucléase
source de l'image

Un moyen de lutte contre le paludisme

Une des premières applications de cette technologie serait de lutter contre la propagation du paludisme par les moustiques. Il suffirait d'introduire quelques moustiques disposant d'un gène les empêchant de transmettre le parasite. En quelques générations, ce nouveau trait génétique se répandrait dans toute la population. Et cela même si le gène n'apporte aucun avantage au moustique, voire même, si dans une moindre mesure, il est délétère. Il s'agit d'un face à face entre l'ingéniosité humaine et la sélection naturelle.

Le danger ?

Les applications de la technologie gene drive sont infinies et nombreux sont ceux qui vont vouloir jouer avec, que ce soit pour lutter contre des maladies ou pour l'amélioration de l'exploitation agricole. Et pourquoi pas plus tard, pour améliorer l'homme en le rendant plus fort et en meilleure santé ?
Derrière ces belles promesses, il y aura, je pense, inévitablement des effets de bord et toutes les précautions devront être prises. Qu'adviendrait-il par exemple si un mauvais gène était introduit lors d'un gene drive chez l'homme? Et si le gène passait d'une espèce à l'autre ? Quelles seraient les répercussions sur l'écosystème ? Que se passerait-il si une mutation apparaissait dans une cassette avec un effet non escompté ?
Bref, une technologie à mon sens imprédictible, dont le moratoire mondial a été rejeté lors de la réunion de la biodiversité de l'Organisation des Nations Unies en décembre 2016.

Références

Remerciements

@Oodnadatta
@Aluriak

La sélection génomique de la semaine #5

2017-09-25T11:17:50+02:00

Voici ma sélection de l'actualité en génétique/génomique de la semaine du 18/09/2017.

Des souris guéries de la sclérose en plaques par une immunothérapie "génétique"

La sclérose en plaques est une maladie auto-immune ou le système immunitaire s'attaque à la myéline du système nerveux central. Cette maladie se manifeste par différents signes neurologiques évoluant par poussée en s'aggravant suivant les formes.
Dans cette étude les chercheurs ont voulu rendre le système immunitaire plus tolérant à la myéline en augmentant le nombre de lymphocytes T régulateurs spécifiques à la myéline. Ces dernières ont la propriété d'inhiber la prolifération des lymphocytes T effecteurs responsables de la réaction auto-immune.
Pour cela, ils ont choisi d'injecter le gène de la myéline dans les cellules du foie d'une souris maladie par l'intermédiaire d'un vecteur viral. Ce nouveau gène ou transgène s'exprime alors dans les hépatocytes et engendre des lymphocytes T régulateurs tolérants à la myéline qui vont aller dans le système nerveux central pour diminuer la réaction auto-immune.
Les effets de cette thérapie tolérogène sont très encourageants comme vous pouvez le voir sur cette vidéo.

http://www.cell.com/molecular-therapy-family/molecular-therapy/fulltext/S1525-0016(17)30413-6

Your browser does not support the video tag.

SwissLipid

Vous connaissez peut-être SwissProt, la base de données des protéines. Maintenant vous avez SwissLipid, la base de données des lipides.

http://www.swisslipids.org/

CRISPR-Cas9 devient encore plus précis

Le problème avec CRISPR-Cas9, ce sont les effets off-target. C'est à dire des mutations involontaires qui surviennent sur des séquences ressemblant à la cible. En modifiant un acide aminé dans la protéine Cas9, le complexe CRISPR-Cas9 gagne en précision.

http://www.genengnews.com/gen-news-highlights/mutations-making-crispr-hyper-accurate-discovered/81254955

Le premier embryon humain knockout

En génétique, pour connaitre l'effet d'un gène, on le désactive pour voir ce que ça donne. C'est ce qu'on appelle du knockout. Ces expériences sont en général réalisées chez des organismes d'étude comme les rats ou les bactéries. Et bien pour la première fois, un embryon humain a été knockout pour un gène. En l'occurrence le gène OCT4 qui a montré son implication dans le développement du placenta.

https://www.sciencenews.org/article/first-human-embryos-edited-explore-gene-function

Pourquoi certaines mutations dynamiques ne sont pas stables ?

Les mutations dynamiques sont des séquences répétées du génome, qui augmente de taille au cours des générations. Elles sont responsables de différentes maladies. (Voir mon billet sur la maladie d'Huntington). Pourquoi certaine et pas d'autre? Probablement la conformation 3D de la chromatine d'après cette étude.

https://www.biorxiv.org/content/early/2017/09/20/191213

Des anticorps trispécifiques contre le VIH

Un anticorps trispécifique est un anticorps construit pour cibler 3 antigènes différents par ses trois extrémités. De tels anticorps ont été utilisés chez le macaque pour lutter contre le VIH. Les résultats sont plutôt concluants.

http://science.sciencemag.org/content/early/2017/09/19/science.aan8630/tab-pdf

Exemple d'un anticorps tri-specifique

La sélection génomique de la semaine #4

2017-09-17T12:22:09+02:00

Voici ma sélection de l'actualité en génétique/génomique de la semaine du 11/09/2017.

Craig Venter répond à la critique sur les portraits robots génomiques

Suite à l'article major flaws in: "Identification of individuals by trait prediction using whole-genome sequencing data"(voir la semaine dernière), Craig Venter répond par un autre article, intitulé tout simplement : No major flaws in "Identification of individuals by trait prediction using whole-genome sequencing data".
C'est pas très difficile de trouver un bon titre finalement ...

http://www.biorxiv.org/content/early/2017/09/11/187542.1

Le nouveau programme pour les internes de génétique médicale

Ce que doit savoir un généticien en médecine c'est ici, dans le nouveau programme.
http://cncem.fr/wikicncem/doku.php?id=cycle3:genetique

Une nouvelle version d'ENSEMBL

Pour rappel, Ensembl est une base de donnée contenant différents génomes annotés.
http://www.ensembl.info/blog/2017/09/12/ensembl-genomes-37-is-now-live/

Un serveur d'articles scientifiques médicaux en prépublication

Vous connaissez certainement biorxiv.org, un site web qui vous permet d'accéder aux articles en prépublication sans avoir été relus par les paires. Idéal pour partager ses articles rapidement à travers la communauté.
Et bien, une version dédiée aux publications médicales est bientôt disponible.

http://yoda.yale.edu/medarxiv

La première espèce dont tous les individus ont été séquencés

Il s'agit de Strigops kakapo, une drôle d'oiseau de nouvelle Zélande. Ce n'était pas très difficile, car l'espèce est en voie d'extinction et il ne reste plus que 125 individus.

https://www.geneticrescue.science/projects/genome-sequencing/kakapo

Encore une étude GWAS sur l'intelligence humaine

Je rappelle qu'une explication génétique ne veut pas forcément dire héréditaire. Beaucoup de nos traits sont multigéniques.

https://www.ncbi.nlm.nih.gov/pubmed/28530673

Des Nano-bras robot fait avec de l'ADN

SOURCE: PNAS

http://mobile.the-scientist.com/article/50325/cargo-sorting-dna-robots

Conférence sur l'évolution artificielle le 25-27 octobre à Paris

https://ea2017.inria.fr/

ProteinAtlas : Une base de données des Cancers

Une chouette base de données des cancers regroupant notamment de la protéomique et de la transcriptomique.

http://www.proteinatlas.org

Un extrait du livre : "Il était une fois le gène"

Ce livre, je vous en parlais la semaine la dernière. Il raconte toute l'histoire de la génétique de Mendel à CRISPR-Cas9. Il me reste 200 page sur 600 mais je peux déjà vous dire que ce livre est top. Sur twitter, vous trouverez plusieurs extraits et anecdotes qui m'ont marqués.

"Le racisme ne vient pas d'une déduction de la race à partir du génome, mais de déduire des caractéristiques à partir de la race"
— Sacha schutz (@dridk) 17 septembre 2017

Twitter

Pour plus de news ou me faire part des vôtres, suivez-moi sur twitter @dridk

La sélection génomique de la semaine #3

2017-09-11T12:22:09+02:00

Voici ma sélection de l'actualité en génétique/génomique de la semaine du 04/09/2017.

Craig Venter publie un article montrant comment reconstruire un portrait robot à partir d'un génome... Quelques heures après, le papier se prend une sévère critique.

SOURCE: PNAS

C'était l'ambiance sur twitter jeudi dernier, suite à la dernière publication de Craig Venter et de son équipe Human Longevity. Le papier sorti le 5 septembre dans PNAS propose de reconstruire numériquement le visage, la voix, la couleur de la peau, l'âge et la taille d'un individu simplement à partir de son ADN. Pour cela, ils ont entrainé un algorithme sur 1061 patients en recherchant une corrélation entre les SNPs de leurs génomes et leurs valeurs biométriques. Puis ils ont testé leur intelligence artificielle avec une série de génomes anonymisés pour reconstruire leurs visages avec 74% de réussite!
Quelques heures après, c'est un déluge de critique qui tombe sur twitter. Et notamment une review salée de Yaniv Erlich dans biorxiv publiée en des temps records. En résumé, les visages reconstruits ne sont pas assez précis pour reconnaitre un individu. À part si vous devez trouver un individu noir parmi 999 individus blancs.
Bref, ce n’est pas encore au point... Mais gardons quand même à l'esprit que la reconstruction d'un visage à partir d'un génome est en théorie possible vu que deux jumeaux se ressemblent comme deux gouttes d'eau.

http://www.pnas.org/content/early/2017/08/29/1711125114.abstract
http://www.biorxiv.org/content/early/2017/09/06/185330
http://www.nature.com/news/geneticists-pan-paper-that-claims-to-predict-a-person-s-face-from-their-dna-1.22580

Un algorithme de reconnaissance faciale qui reconnait l'homosexualité

Dans le même registre, cette news à la limite de l'éthique dont je me passerais de commentaires...

https://www.theguardian.com/technology/2017/sep/07/new-artificial-intelligence-can-tell-whether-youre-gay-or-straight-from-a-photograph

23andme vu par un célèbre youtubeur américain

@SmarterEveryDay, un youtubeur américain, très influençant dans la vulgarisation scientifique, fait la publicité de la société 23andMe en filmant toute la logistique de l'intérieur. Après avoir précisé qu'il avait la liberté de paroles, il en dépeint un joli portrait. Sauf que...
Voilà, le CEO de 23andMe (Anne Wojcicki) n'est autre que la soeur du CEO de YouTube (Susan Wojcicki). Il n' y aura pas à s'étonner de voir cette vidéo excessivement mise en avant sur YouTube...

Sortie du livre : « Il était une fois le gène »

Écrit par l'indien Siddhartha Mukherjee, médecin chercheur et gagnant du prix Pulitzer pour le livre « L'Empereur de toutes les maladies ».

http://editions.flammarion.com/Catalogue/hors-collection/sciences/il-etait-une-fois-le-gene

Personal Genom project

Je ne connaissais pas. Une plateforme pour partager et télécharger des génomes. http://www.personalgenomes.org/harvard

AddGene: De la biologie moléculaire bien expliquée

AddGene est une base de données de plasmide à but non lucratif. Mais le site contient surtout, pas mal de docs très claires sur des concepts clés en génétique moléculaire (CRISPR, plasmide, vecteur..) http://www.addgene.org/crispr/guide/

Single base editing avec CRISPR

Encore un autre variant de CRISPR-CAS9. En l'associant à la protéine APOBEC, on peut switcher une Cytosine en Uracile sans faire de coupure.

http://blog.addgene.org/single-base-editing-with-crispr

connaissez-vous les thérapies anti-sens ?

Les thérapies anti-sens permettent de traiter des maladies génétiques en injectant l'ARN anti-sens du gène muté. Par exemple le Nusinersen utilisé dans l'amyotrophie spinale.

https://en.m.wikipedia.org/wiki/Nausinersen

Twitter

Pour plus de news ou me faire part des vôtres, suivez-moi sur twitter @dridk

La thérapie cellulaire adoptive

2017-09-08T11:34:32+02:00

C'était la news de la semaine dernière. La première thérapie génique appelée Kymriah™ a été autorisée aux États-Unis par la FDA dans le traitement d'un cancer, en l'occurrence la leucémie aiguë lymphoblastique. Ce traitement est une immunothérapie et va plus loin que l'immunothérapie classique à base d'anticorps anti-CTLA4/anti-PD1 (voir la vidéo sur le cancer de @scienceEtonnante, il en parle dans sa conclusion).
Elle repose sur ce qu'on appelle un « transfert adoptif de cellules »:

on prend les cellules immunitaires du patient (lymphocyte T);
on les modifie génétiquement pour qu'ils ciblent les cellules cancéreuses;
puis on les réinjecte au patient;

Génial non ? Alors, voyons de plus près comment fonctionne cette thérapie étape par étape.

Schéma résumant les étapes de la thérapie. Chaque étape est décrite dans le texte
source de l'image

Étape 1 : Leucophérèse et récupération des lymphocytes T

La première étape consiste à extraire du sang, les lymphocytes T. On réalise pour cela une leucophérèse. C'est un peu comme une prise de sang, sauf qu'ici tous les globules blancs (leucocytes) sont filtrés et le reste (globule rouge, plaquettes ...) retourne directement dans la circulation sanguine.
De ces leucocytes, on récupère les lymphocytes T en utilisant différentes techniques de séparation comme la centrifugation ou encore des billes magnétiques couplées à des anticorps spécifiques.

Étape 2 : Culture cellulaire

À partir de là, on a besoin de mettre les cellules en culture pour qu'elles se divisent. Un prérequis pour la transfection virale qui fera suite.
À l'état normal, les cellules T se divisent après activation par des cellules présentatrices d'antigènes ou dendrocytes (voir les supers vidéos de @unPeuPointu). On pourrait en ajouter, mais le risque c'est qu'au moment de la réinjection au patient, ces cellules étrangères déclenchent un rejet immunitaire. On préfère alors utiliser des billes magnétiques recouvertes d'anticorps qui se font passer pour des dendrocytes artificielles. Après l'activation, il suffira de les enlever avec un aimant.

Étape 3 : Transfection virale et récepteurs chimériques

C'est maintenant que la manipulation génétique commence. Un virus ARN utilisé comme vecteur, va venir intégrer un gène dans le génome du lymphocyte T pour qu'il exprime à sa surface un récepteur chimérique appelé CAR (Chimeric antigen recepteur) capable de reconnaitre les cellules tumorales. C'est le même mécanisme qu'avec n'importe quel virus ARN comme le VIH.

Transfection virale de l'ADN du récepteur chimérique CAR
source de l'image

Les CAR ou CAR-T sont dits chimériques, car ils sont constitués artificiellement d'un domaine extramembranaire similaire à la portion variable des anticorps. Et d'une partie intracytoplasmique similaire aux récepteurs des cellules T permettant de déclencher le signal d'activation du lymphocyte (un motif ITAM pour les connaisseurs).

Representation d'un CAR (Chimeric antigen recepteur). En orange le domaine variable (scFC : single chain variable fragment) qui reconnait l'antigène tumoral. Et en bleu la partie intra-cellulaire qui déclenche l'activation du lymphocyte.
source de l'image

Il existe différents types de CAR-T
source de l'image

Dans le cas du Kymriah™, les CAR-T sont conçus pour qu'ils reconnaissent spécifiquement les antigènes CD-19 présents à la surface des cellules cancéreuses (mais aussi des lymphocytes B normaux). Lorsque ces nouveaux lymphocytes T génétiquement modifiés seront en contact avec les cellules cancéreuses, ils s'activeront et entraîneront une réponse immunitaire ciblée.

Étape 4 : Préparation du produit

Il ne reste plus qu'à préparer nos cellules pour l'injection. Les billes magnétiques sont retirées. Les microbes éliminés en utilisant des rayons UV. Etape critique, car on s'apprête à réinjecter un produit dans la circulation du patient.

Étape 5 : Adminstration au patient

Les lymphocytes T génétiquement modifiés sont administrés au patient. En général, le patient est préparé à recevoir le traitement avec une chimiothérapie lympho-déplétive. L'activation des cellules T est aussi soutenue par l'administration d'interleukine-2, une molécule stimulant les lymphocytes T.
Quant aux effets indésirables, ils existent. Le relargage excessif des cytokines par les lymphocytes T activés est responsable du syndrome de relargage des cytokines. Et n'oublions pas que ces CAR-T anti-CD19 ciblent également les lymphocytes B avec le risque d'un déficit de l'immunité.

Résumé général

Et l'efficacité du traitement ?

D'après cette étude, l'efficacité des CAR-T anti-CD19 est vraiment bonne avec 90% de rémission complète dans la leucémie lymphoïde aiguë.
D'autres chercheurs ont déjà essayé la thérapie cellulaire adoptive sur d'autres cancers, notamment les cancers solides. Des résultats concluants ont déjà été obtenus dans le mélanome métastatique. Dans ce cas, les lymphocytes expriment un récepteur reconnaissant des antigènes spécifiques du mélanome (MART-1).

Malheureusement la complexité technique de ces thérapies personnalisées rend inaccessible le traitement. Le Kymriah™ couterait environ 475 000 dollars!!! Avec ce nouveau traitement sur le marché, il y a de quoi creuser les inégalités dans la santé... surtout aux États-Unis.

Reference

Merci aux relecteurs
@Jnsll @HervePerdry

La sélection génomique de la semaine #2

2017-09-03T20:59:15+02:00

Voici ma sélection de l'actualité en génétique/génomique de la semaine du 28/08/2017.

Premiere thérapie génique approuvée sur le marché aux États-Unis

Certainement la news de la semaine. Un nouveau traitement "Kymriah" permet de traiter certaines leucémies aiguës lymphoblastiques B en modifiant génétiquement les lymphocytes T des patients pour qu'ils s'attaquent aux cellules cancéreuses.
Les lymphocytes T sont extraits du patient par leucaphérèse puis envoyés à Novartis pour être reprogrammés. Après manipulations, elles expriment de nouveaux récepteurs T chimériques (CAR-T) ciblant les cellules cancereuses.
Elles sont alors réinjectées chez les patients pour la modique somme de 475 000 dollars !

http://trustmyscience.com/nouveau-traitement-contre-le-cancer-approuve-par-la-fda/
https://www.multivu.com/players/English/8163751-novartis-kymriah-fda-approval/docs/kymriahfactsheet-1503105905473-697015272.pdf
http://labiotech.eu/car-t-approval-fda-novartis-kymriah/

cliquer pour agrandir

Un kit pour séquencer votre génome sur Amazon.fr

La société Dante Labs, propose depuis plusieurs mois déjà, un kit de prélèvement salivaire pour séquencer votre génome complet. Vous pouvez le commander tout de suite sur amazone pour 850 euros, sans passer pas un médecin ni un conseiller en génétique. La pratique est en principe illégale en France... pour le moment.
L'info est d'ailleurs passé au JT de 20h sur France 2.
https://www.amazon.fr/dp/B072BGP88H/ref=cm_sw_r_tw_dp_x_hx5Pzb9E0XREQ
https://www.france.tv/france-2/journal-20h00/233891-edition-du-samedi-2-septembre-2017.html

Remise en cause du papier sur l'edition d'embryon

Je vous en parlais dans un précédant l'article. Une équipe avait réussi à éditer le génome d'un embryon avec CRISPR-Cas9. Après le buzz médiatique, une autre équipe remet en cause ces résultats.
En résumé, leurs arguments sont :

Au moment de l'injection de CRISPR-Cas9, les nucleis mâles et femelles sont séparés physiquement empêchant la correction par recombinaison homologue.
Les mutations ne sont pas détectées tout simplement parce que CRISPR-Cas9 délète les cibles d'amorces de PCR nécessaire pour détecter la mutation.

https://ipscell.com/2017/08/doubts-raised-on-key-points-of-nature-paper-on-crispr-gene-editing-of-human-embryos/

23andme propose le dépistage de la DMLA et l'hémochromatose

Petit à petit, la société 23andme (alias google), fait son chemin dans le dépistage des maladies génétiques non médicalisé. Après l'autorisation, en avril dernier, par la FDA de faire du dépistage, la société se dote cette semaine de 2 nouveaux tests génétiques: Pour la DMLA et l'hémochromatose.
https://blog.23andme.com/health-traits/23andme-adds-new-genetic-health-risk-reports/

DroNc-seq

Après le RNA-seq, après le single cell RNA-seq, voici le single-nucleus RNA seq. Une méthode permettant le séquençage du transcriptome sur noyaux unique.
Voir mon article sur le single cell RNA-seq publié cette semaine.
http://www.genengnews.com/gen-news-highlights/single-nucleus-rna-seq-merges-with-microfluidics/81254868

Des tomates sous licence libre

Une découverte cette semaine, c'est une licence libre, similaire aux licences en informatique (ex:GPL), mais appliquée aux semences de l'agriculture.
En gros, vous protégez vos créations génétiques avec une licence pour contrer les grosses boites comme Monsanto.

http://www.opensourceseeds.org/fr
https://www.arte.tv/fr/videos/076697-000-A/des-tomates-libres-de-droits-pour-tous

Comparaison des caryotypes de l'homme et du chimpanzé

Je termine par le tweet de la semaine. J'avais publié une belle image montrant les événements génétiques différenciant l'homme et le singe. Je n'ai pas trouvé la source de l'image, certainement un livre scolaire. Quoi qu'il en soit, on voit très bien, sur ce caryotype, que le chromosome 2 humain est le résultat d'une fusion entre les deux chromosomes simiens. Encore une preuve pour la théorie de l'évolution !

Comparaison des caryotypes de l'homme et du chimpanzé pic.twitter.com/JUdYzx1Xkp
— Sacha schutz (@dridk) 29 août 2017

Twitter

Pour plus de news ou me faire part des vôtres, suivez-moi sur twitter @dridk

Séquençage des ARNm sur cellules uniques

2017-09-01T21:36:32+02:00

Toutes les cellules de votre corps sont constituées du même génome. Vous obtiendrez toujours le même texte en séquençant l'ADN provenant d'un morceau d'estomac, de cerveau ou de peau (sauf cas très particuliers: mosaïques).
Ce qui fait la différence, c'est l'expression des gènes ou « transcriptome ». C'est-à-dire l'ensemble des ARNs messagers (ARNm) transcrits dans la cellule dont la traduction est responsable du phénotype cellulaire. Par exemple, les cellules de votre rétine expriment d'autres gènes que votre estomac. Leurs transcriptomes sont différents.
Une des méthodes pour évaluer le transcriptome est le séquençage des ARN messager ou RNA-seq.
En résumant rapidement (figure ci-dessous) : À partir d'un tissu, toutes les cellules sont lysées puis les ARNs messagers sont capturés (en général par leurs queues polyadénylées). Ils sont ensuite convertis en ADN complémentaire (ADNc) par une rétrotranscriptase, amplifiés, puis séquencés. L'étape bio-informatique consiste à aligner les reads sur un génome de référence et faire des normalisations pour évaluer quels gènes sont exprimés. Le nombre d'ARNm séquencés d'un gène correspond à son niveau d'expression ou « abondance ».
Finalement, en analysant différents tissus, on obtient une matrice d'expression (voir tableau ci-dessous).
Pour plus de détails sur l'analyse bio-informatique, je vous invite à jeter un oeil sur l'article de bioinfo-fr traitant de ce sujet.

Schéma général de la technologie RNAseq. Dans cet exemple, le séquençage est réalisé sur deux échantillons (tumeur et normal). Les ARNs sont capturés grâce leurs queues polyA, sont convertis en ADNc puis séquencés. Les reads sont alignés sur un génome de référence afin de mesurer l'expression de chaque gène. Cette expression est proportionnelle aux nombres d'ARN s'alignant sur un gène donné
Source : Wikipedia

Exemple d'une matrice d'expression comparant deux tissus. Les valeurs du tableau correspondent aux quantités d'ARNm retrouvées par gène et par tissu. L'expression des gènes dans le tissu 1 est différente de celle dans le tissu 2

ScRNA-seq : Nouvelle approche plus résolutive

Le défaut avec la technologie RNA-seq est qu'elle mesure l'expression d'un tissu et pas l'expression d'une cellule. En effet, dans un morceau de cerveau par exemple, il y aura différents types cellulaires (neurone, astrocytes, oligodendrocytes ...) avec des profils d'expression différents. Le RNA-seq vous informe seulement du niveau d'expression de cet ensemble de cellules.
Aujourd'hui, une autre méthode permet de séquencer le transcriptome d'une seule cellule. C'est ce qu'on appelle du Single Cell RNA Seq (ScRNA-Seq). L'idée est de créer une librairie (Ensemble des fragments d'ADN destinés au séquençage) où chaque ARNm se voit greffer une séquence identifiant sa cellule d'origine (barcode). On peut alors, après séquençage, regrouper les reads entre eux grâce à leurs barcodes et obtenir une matrice d'expression par cellules et par gènes.
Comment étiqueter chaque fragment d'ADN avec sa cellule d'origine ? C'est ce qu'on va voir tout de suite avec la méthode de microfluidique de 10xGenomics.

Isoler les cellules en microfluidique

La microfluidique est une technologie manipulant des fluides dans des microcanaux. Grâce à cette technique, on va pouvoir isoler chaque cellule dans une gouttelette d'huile contenant des réactifs (polymérase, oligonucléotide, retrotranscriptase...) et une bille particulière appelée GEM (Gel bead in EMulsion).

Microgoutelette avec une cellule et une GEM (Gel bead in EMulsion)
Source : 10xGenomics

Animation montrant la formation des microgoutelettes en microfluidique. Les GEMs sont définies par un barcode unique représenté ici par une couleur
Source : 10xGenomics

Vidéo de microfluidique
Source : Dolomite Microfluidics

Chaque cellule a son barcode unique

Chaque GEM est recouverte (figure ci-dessous) de séquences adaptatrices uniques contenant un barcode, un UMI et la séquence PolyT .
- Le barcode est l'identifiant unique à la bille, et donc unique à la cellule. 10xGenomics propose 750 000 barcodes environ.
- L'UMI (Unique Molecular Identifiers) est une courte séquence aléatoire unique à chaque fragment entourant la bille. Il y a donc plusieurs UMI par bille. Cet identifiant est utilisé pour éviter les biais d'amplifications. Si une séquence est malencontreusement trop amplifiée dans une goutte, elle sera détectée, car le même UMI sera représenté plusieurs fois.
- La séquence polyT va permettre la fixation des ARNs messagers par complémentarité avec leurs queues polyA.

Zoom sur une GEM et les séquences la recouvrant
Source : 10xGenomics

La réaction de RNA-seq peut alors se faire dans ce microréacteur. Après lyse de la cellule, les ARNs messagers sont capturés à la surface de la GEM par leurs queues polyA. Et les nouvelles séquences Barcode+UMI+ARNm sont converties en ADNc.

Création d'une librairie et séquençage

Il ne reste plus alors qu'à créer la librairie pour le séquençage. Tous les fragments d'ADNs identifiés par leurs barcodes sont poolés ensemble après avoir enlevé l'huile. Les adaptateurs de séquençage (Illumina) sont ajoutés afin d'obtenir la librairie.
Après le séquençage et l'alignement, il suffira de regrouper les reads provenant d'une même cellule en comparant leurs barcodes pour obtenir une matrice d'expression (tableau ci-dessous).

Exemple d'une matrice d'expression en Single Cell RNA Seq. En réalité, il y a des milliers de cellules (autant que de barcode) et au moins 23 000 gènes (pour l'homme). Les valeurs du tableau correspondent à la quantité d'ARNm retrouvé par gène et par cellule

Représentation graphique

On peut alors représenter la matrice d'expression dans un graphique en réalisant une analyse en composantes principales (10x genomics utilise une t-SNE). Chaque point correspond à une cellule. Plus les cellules sont proches sur le graphique, plus leurs expressions génétiques sont similaires.

Profil d'expression obtenu à partir des cellules du sang (2,700 cellules mononuclées du sang périphérique PBMC. On visualise après clusterisation les différentes familles.
Source : http://satijalab.org/seurat/get_started_v1_4.html

Encore plus parlant, cette vidéo qui montre le profil d'expression des cellules du tissu cérébral dans un repère à 3 axes animé.

What next ?

À l'heure où j'écrivais ce post, je suis tombé sur un article décrivant la technique DropNc-Seq. Une méthode similaire à ce qui vient d'être décrit. Mais au lieu des cellules, ce sont les noyaux qui sont isolés pour le séquençage. On obtient alors le transcriptome nucléaire... Cool hein ?

Références

La sélection génomique de la semaine #1

2017-08-27T18:30:55+02:00

Pour ceux qui ne me suivent pas sur twitter, je vais maintenant publier sur le blog une fois par semaine, l'actualité en génomique et bioinformatique que j'ai dénichée sur le net. Si jamais je passe à côté de la news, n'hésitez pas à me le faire savoir pour que je l'ajoute à ce fil hebdomadaire.

Nouvelle version d'Ensembl

La nouvelle version d' Ensembl est sortie dans sa version 90.
Pour rappel, Ensembl est une base de données de génome avec leurs annotations. Cette nouvelle version propose 19 nouveaux génomes de rongeurs. L'annotation de la souris, de l'homme et du poisson-zèbre a également été mise à jour. Pour voir l'ensemble des changements:
http://www.ensembl.info/blog/2017/08/22/ensembl-90-has-been-released/

Human genom Project-write

J'ai découvert le Human Genom Project-write ou GP-write annoncé il y a un peu plus d'un an. À l'instar du projet visant à séquencer le génome humain (GP-read), celui-ci a comme objectif de synthétiser un génome complet.
En résumé, c'est le Préquelle de Frankenstein ...
http://engineeringbiologycenter.org/

Phenotate

Phenotate propose de créer une base de données collaborative de sémiologie clinique des maladies rares. Vous êtes médecins ou étudiants, vous devez compléter la liste des signes cliniques d'une maladie pour gagner des points. Cette base de données se veut plus précise que HPO.
http://phenotate.org/

Dépistage prénatal des maladies monogéniques

Après le dépistage prénatal des trisomies (voir article), une étude a montré qu'il était possible de détecter des maladies monogénétiques (Mucoviscidose) chez le foetus sur une prise de sang en séquençant l' ADN circulant.
Pour distinguer les séquences d'ADN du foetus et de la mère, ils ont d'abord détecté les haplotypes des parents puis la mutation associée à l'haplotype du foetus.
D'ici 2 ans, il y a de grande chances que ces tests deviennent d'usage courant.
http://www.cell.com/ajhg/fulltext/S0002-9297(17)30290-2

Stratos

Statos est ma découverte de la semaine. C'est une technologie de séquençage haut débit permettant d'améliorer la détection du signal sur nanopore. Cette technologie clone la molécule d'ADN en remplaçant les nucléotides A,C,G,T par des grosses molécules appelées xpandomer. Cette nouvelle séquence de xpandomer qui contient l'information génétique peut alors être séquencée plus facilement.
https://www.stratosgenomics.com/

Twitter

Pour plus de news ou me faire part des vôtres, suivez-moi sur twitter @dridk

Le génome d'un embryon humain a été édité

2017-08-06T22:49:20+02:00

Si vous êtes passé à côté de la news de la semaine, sachez qu'une équipe américaine a réussi à corriger une mutation génétique lors d'une fécondation in vitro à l'aide du couteau suisse moléculaire CRISPR-Cas9. Une grande étape a été franchie en thérapie génique avec tous les problèmes éthiques qui en découlent comme l'eugénisme ou le transhumanisme. Je me dois de vous faire un résumé rapide de cet article "Correction of a pathogenic gene mutation in human embryos" disponible ici.

Correction d'une maladie autosomique dominante

L'équipe a choisi de corriger une mutation sur le gène MYBPC3 responsable d'une cardiomyopathie hypertrophique héréditaire. C'est la maladie du sportif qui fait une mort subite en plein match.
C'est une maladie autosomique dominante. C'est-à-dire qu'un seul allèle muté suffit pour provoquer la maladie. C'est important pour la suite, car l'édition du gène a besoin de la présence d'un allèle sain. La mutation cible est une délétion de 4 nucléotides dans l'exon 16 du gène.

Édition avec CRISPR-cas9

L'édition du gène a été réalisée après fécondation in vitro entre le spermatozoïde d'un patient porteur de la mutation et un ovocyte sain. Le complexe CRISPR-Cas9 a été injecté dans l'oeuf 18h après fécondation par micro-injection (vidéo). CRISPR-Cas9 fait une coupure double brin pour retirer la région d'ADN contenant la mutation. Puis une polymérase entre en action et corrige ce trou béant en utilisant l'allèle homologue non muté comme modèle. C'est ce qu'on appelle une réparation par recombinaison homologue ou HDR (Homology Directed Repear). Pour cette raison, seules les mutations hétérozygotes peuvent être corrigées avec ce protocole. Un autre mécanisme de réparation non conservatrice peut avoir lieu, la Jonction d'extrémités non homologues ou NHEJ (Non-Homologous End-Joining). Cette dernière ne corrige rien, et l'on cherche à l'eviter autant que possible.

réparation par recombinaison homologue

L'expérience a été répétée plusieurs fois. Au total dans l'étude il y a eu 19 embryons témoins non injectés et 54 embryons injectés. L'ensemble des embryons ont ensuite été séquencés au stade 4-8 cellules pour voir si l'édition a réussi.

1. Fécondation avec un spermatozoïde muté. 2. Injection de CRISPR-CAS9. 3. Plusieurs cas sont alors possibles. ça ne marche pas;ça marche à moitié (mosaïque);ça marche; HDR (Homology directed repair), NHEJ (Non-Homologous End-Joining)

bien, mais pas encore au point !

Chez les témoins, comme on s'y attend, la moitié des embryons ont été fécondés par un spermatozoïde muté (hétérozygote: 10/19) ou par un spermatozoïde non muté (homozygote: 9/19). Je rappelle que le père est hétérozygote pour la mutation et donc que la moitié de ses spermatozoïdes porte la mutation. En revanche, dans les embryons injectés 66.7% (36/54) sont homozygotes sains et seulement 9.3% (13/54) sont hétérozygotes mutés. Les 24% (5/54) restant, corresponde à des embryons en mosaiques. Ce sont des embryons où certaines cellules ont été corrigées et d'autre non. En conclusion, ça marche, mais la technique n'est pas encore au point, car il reste pas mal de mosaïssisme. Pour y remédier, l'idée proposée est de faire l'injection CRISPR-cas9 au même moment que l'injection du spermatozoïde. Il y a également le risque des mutations induit par CRISPR-Cas9. Les fameuses mutations off-target. Aucune n'a été détectée dans cette étude.

Gauche: Témoin sans injection CRISPR-Cas9. 50% des embryons sont mutés . Droite: Avec injection CRISPR-Cas9. 66.7% des embryons sont sains.

Et l'éthique dans tout ça ?

Pour l'heure, l'ASHG a donné son autorisation sur l'édition des embryons tant que les recherches ne conduisent pas à une grossesse et qu'il y a un rationnel scientifique et éthique derrière.
Mais un pas a tout de même été franchi, et je pense que rapidement, l'édition des génomes deviendra aussi courante que le diagnostic préimplantatoire. Avec l'apparition croissante des start-up en génomique, comme 23andMe ou Helix qui s'affranchissent de la barrière médicale, les enjeux éthiques vont vite prendre de l'ampleur. Et les bébés conçus à la carte sur internet seront peut-être monnaie courante.
D'autre part, l'éradication des maladies génétiques peut paraitre merveilleuse. Mais à l'échelle des populations cela implique la diminution de la diversité génétique et donc une diminution de notre capacité d'aptation dans l'évolution biologique.
Bienvenue à GATTACCA n'a jamais été aussi proche.

Fabrication des sondes de captures par technologie MAS

2017-07-23T11:26:45+02:00

Pour séquencer un exome, il faut d'abord capturer toutes les séquences exoniques. Une méthode est d'utiliser des sondes oligonucléotidiques qui s'hybrident spécifiquement sur les exons. Ce qui demande une connaissance préalable des séquences codantes, mais aussi une technologie capable de fabriquer des millions de sondes avec leurs séquences déterminées.
Comment ces sondes sont produites ?

Technologie Maskless Array Synthesis (MAS)

Roche/NimbleGen utilise une technique de synthèse des sondes sur lame in situ. C'est-à-dire que les sondes sont directement synthétisées sur la lame et non déposées par un robot comme les techniques classiques (Microarray spotting).
Pour cela ils utilisent la photolithographie associée à une matrice de micro-miroirs. Cette technologie consiste à utiliser des rayons lumineux dirigés par des miroirs pour guider la synthèse des sondes. Chaque nucléotide est protégé par une groupement photolabile qui empêche l'association avec un autre nucléotide. En présence de lumière, cette molécule est supprimé, un nouveau nucléotide peut alors se lier.
Pour faire simple :

Prener une lame et déposez-y des nucléotides protégés.
Éclairer certains nucléotides pour les déprotéger.
Inonder votre lame avec plein de nucléotides 'G' qui se fixe uniquement sur les nucléotides libérés.

Recommencer la procédure, mais cette fois en inondant avec que du C, et ainsi de suite.
La vidéo ci-dessous résume bien ce cycle de synthèse.

Illustration de la technologie MAS

Synthèse des oligonucléotides

Digital Micromirror Device (DMD)

Maintenant, comment eclairer les milliers de sondes spécifiquement ? Ils utilisent pour cela, des matrices de micro-miroirs de 16µm chacun. Il s'agit d'une grille composée de millions de petits miroirs qui peuvent s'incliner independement dans deux conformations ON ou OFF. En eclairant tout la grille, les rayons lumineux sont réfléchis vers la lame suivant l'orientation des miroirs. Anis, en programmant les états ON/OFF des micros-miroirs pendant le cycle de synthèse, on peut synthétiser des millions de sondes en spécifiant leurs séquences.
Jetez un oeil sur cette dernière vidéo résumant mes propos.

Matrices de micro-miroirs

Références

Raccourci git sous zsh

2017-07-22T13:28:22+02:00

Si vous utilisez git sous zsh avec le plugin oh-my-zsh, avez vous notez l'ensemble des alias git disponible ? Au lieu de taper mes commandes git en entier, par exemple :

git commit -a

J'ai juste à taper :

gca

Il y en a des tonnes. Les commandes usuelles que j'utilise :

gp   => git push 
gl   => git pull 
gca  => git commit -a 
gco  => git checkout 
gb   => git branch 
glg  = > git log

Allez jeter un oeil ici pour voir la liste complete. Il y en a un bon paquet !

Un hook git pour mon blog

2017-07-13T00:53:37+02:00

Vous l'avez sûrement remarqué, j'écris mon blog avec pelican. Lorsque je suis prêt à publier, je commit mon blog sur github, puis dans un second temps je synchronise mon dossier html généré sur mon serveur web. Et comme je suis fainéant, je veux que ces deux étapes se fassent en même temps. Pour cela j'utilise les hooks de git coté client.

Les hooks

Les hooks sont des scripts qui peuvent s’exécuter côté client (mais aussi côté serveur) après un événement git. Dans mon cas, je veux uploader mon dossier html sur mon serveur web à chaque fois que je fais un git push. La commande a exécuté et fourni dans le Makefile de pelican. Elle synchronise les fichiers html sur mon serveur web avec rsync et ma clef ssh.

make rsync_upload

Pour exécuter cette commande à chaque git push, il me suffit d'écrire un script dans le dossier .git/hooks et de lui donner le bon nom de fichier. Tous les fichiers d'extensions .sample déjà présent sont des exemples avec les noms appropriés correspondant à l'étape d'exécution. Supprimer l'extension .sample pour que le script s’exécute. Dans mon cas, je veux lancer ma synchronisation avant chaque push. J'écris tout simplement la commande précédente dans le fichier .git/hooks/pre-push.

echo "make rsync_upload" > .git/hooks/pre-push

zsh et ssh-agent

Afin d'éviter de retaper mes mots de passe plusieurs fois, aussi bien pour github que pour la synchro sur mon serveur web, j'utilise des clefs ssh. Par default, ssh-agent ne marche pas avec zsh. Il faut modifier le script ~/.zshrc et modifier la ligne plugin et relancer zsh:

vim ~/.zshrc
plugins=(git ssh-agent)

Voilà. Maintenant à chaque push et sans me demander mon mot de passe, mon blog est envoyé sur github puis sur mon serveur web.

PS : Je vais essayer de publier plus de notes courtes de ce type, si ça ne vous embête pas. C'est moins long à faire, et comme ça je peux partager ce que j'apprends plus rapidement.

Le séquençage de nouvelle génération

2017-07-13T00:23:31+02:00

Le séquençage de nouvelle génération (NGS: Next Generation Sequencing) est la révolution biotechnologique de ces dernières années, en permettant de séquencer de grandes quantités d'ADN en des temps records. À titre d'exemple, le projet human genome a coûté 3 milliards de dollars sur 13 ans entre 1990 et 2003 pour séquencer le génome humain en utilisant des séquenceurs de type Sanger répartis dans plusieurs laboratoires à travers le monde. Aujourd'hui, avec un séquenceur NGS Illumina HiSeq X, en trois jours, on peut séquencer trois génomes humains pour 1000 dollars chacun. Le graphique ci-dessous, que vous verrez régulièrement, montre l'évolution du coût de séquençage par million de nucléotides au cours du temps. Et encore, ce graphique s'arrête en 2015. La société Illumina a déjà promis le génome à $100 d'ici deux ans avec le nouveau séquenceur Illumina NovaSeq.
Cet article est un avant-gout très vulgarisé pour découvrir les bases du séquençage haut débit.

Diminutions du coût du séquençage par nucléotides au cours des dernières années

Un séquençage à haut-débit

Imaginez que votre génome s'assimile à un gros livre de plus de 3 milliards de caractères (nucléotides) écrit avec les lettres A,C,G et T. Séquencer, c'est lire le contenu de ce livre. Vous pouvez soit le lire entièrement, c'est-à-dire séquencer l'ensemble de votre génome. Soit lire certaines pages ou chapitre, c'est-à-dire faire du séquençage ciblé. Les séquenceurs actuels ne peuvent lire que des courts fragments d'ADN qu'il faut ensuite assembler pour reconstruire le texte d'origine. Par exemple, les séquenceurs de premières générations de type Sanger sont capables de lire des fragments d'environ 800 caractères en 1 heure sur 1 capillaire. Si vous faites le calcul, vous verrez rapidement que pour atteindre les 3 milliards de nucléotides, il vous faudra plus d'une vie pour réussir à séquencer votre génome (>400 ans). Pour aller plus vite, l'idée est de lire plusieurs fragments en même temps, c'est-à-dire paralléliser le séquençage. Les plus performants des séquenceurs Sanger, peuvent paralléliser jusqu'à 96 fois en utilisant 96 capillaires. On a donc 96 x 800 nucléotides lus en 1 heure. C'est pas encore ça. Les séquenceurs NGS de deuxièmes générations sont capables, eux, de lire des fragments de 150 à 300 pb mais jusqu'à 20 milliards de fragments à la fois!!!

Librairie de séquençage

Ce qu'on appelle une librairie, est l'ensemble des fragments d'ADN que l'on veut séquencer. Pour créer une librairie, deux méthodes sont à retenir si l'on veut séquencer l'ensemble du génome ou des régions d'intérêts.

Méthode globale

Lancez le livre en l'air et tirez dessus au shotgun pour faire une pluie de fragments d'ADN aléatoire. C'est ce qu'on appelle stricto sensu, la stratégie shotgun. Cette méthode est utilisée par exemple pour séquencer des génomes entiers.

La stratégie shotgun consiste à fragmenter l'ADN en séquence aléatoire puis à les séquencer.

Plusieurs méthodes existent pour fragmenter l'ADN:

Fragmentation par sonication : En envoyant des ultra-sons à la bonne fréquence, on casse l'ADN en morceaux de tailles précises.
Fragmentation enzymatique : L'utilisation d'enzymes de restriction permet de couper l'ADN au niveau de certains motifs.

Méthode ciblée

On ne veut pas forcément lire l'ensemble du génome. On peut vouloir par exemple séquencer uniquement la partie codante (exome), qui je le rappelle, représente moins de 2% ; ou simplement séquencer une liste de gènes (panel de gènes) associée à une maladie.
Dans tous les cas, il faut enrichir la librairie en sélectionnant uniquement les fragments d'ADN désirés. Deux techniques sont à retenir:

L'enrichissement par capture : Après fragmentation, les fragments d'ADN sont filtrés en s'hybridant à des séquences complémentaires disposées sur une plaque ou en milieu liquide. Les fragments d'ADN qui ne s'hybrident pas sont éliminés.

Exemple d'enrichissement en phase liquide grâce à des billes magnétiques

Enrichissement par PCR : Les fragments désirés sont amplifiés par PCR. Nous pouvons amplifier une seule région avec un couple d'amorces (simplex), ou alors amplifier plusieurs régions avec plusieurs couples d'amorces (multiplex). Dans cette stratégie, toutes les séquences d'un même amplicon seront identiques.

La stratégie par amplicon produit des séquences identiques

Sequençage

Il existe différentes méthodes de séquençage:

Le séquençage par synthèse (Illumina).
Le pyroséquençage (Roche 454).
La ligation (SOLid Thermofisher).
La détection des ions H+ (Proton Thermofisher).

Dans l'ensemble, le principe général reste le même. Chaque fragment est d'abord cloné plusieurs fois afin d'amplifier le signal. Puis le brin complémentaire de chaque fragment cloné est synthétisé. À chaque incorporation d'un nucléotide, un signal est détecté. De la lumière pour Illumina ou une variation de pH sur du Proton. À la fin du séquençage, chaque fragment a été séquencé en parallèle. L'ensemble des données est enregistré dans un fichier Fastq.

Exemple de séquençage sur Proton

Schéma simplifié d'un séquençage type Proton

Pour plus de détail sur les techniques de séquençage, jettez un oeil sur les belles vidéos commerciales ci-dessous:

Alignement des séquences

À la fin du séquençage, la chimie fait place à la bioinformatique. Les séquences des fragments, qu'on appelle maintenant des "reads", sont sauvegardées dans un fichier Fastq contenant les séquences et leurs scores de qualité (score Phred). Ce score évalue la confiance du séquençage. Par exemple le séquenceur vous dira que pour tel reads, la probablité que le quatrième nucléotide soit un 'A' est de 99,9%. Ce score appelé 'Q score' est encodé en caractère ASCII pour chaque nucléotide d'un read.
Télécharger ici un exemple pour voir à quoi ça ressemble.

Aperçu d'un read dans un fichier fastq. Le score de qualité associe à chaque nucléotide un caractère ASCII

Mais le travail est loin d'être fini. Ce que nous avons, ce sont uniquement des courtes séquences de 150 pb en général. Ce que nous voulons, c'est obtenir la séquence complète d'un gène ou d'un génome entier. Pour cela, il faut reconstruire un puzzle en réalisant un alignement. Deux méthodes existent :

Assemblage de novo : Il s'agit de résoudre un puzzle sans son modèle. Les fragments d'ADN qui sont chevauchants permettent petit à petit de reconstruire ce qu'on appelle un contig. L'assemblage des contigs entre eux permet d'obtenir un scaffold. Cette technique est très couteuse en termes de calcul. Des algorithmes bioinformatiques comme les graphe de Bruijn, permettent de résoudre ce problème. Cette méthode est principalement employée pour reconstruire des génomes non connus.

L'alignement de novo consiste à aligner les reads entre eux

Alignement avec référence: Il s'agit toujours de résoudre un puzzle. Mais cette fois, en s'aidant d'un modèle. Par exemple, une version du génome humain (hg19).
Chaque read est aligné sur cette référence. La complexité de calcul est plus simple qu'avec l'alignement de novo. On utilise en général l'algorithme de Burrows Wheeler permettant de rechercher de manière efficace une correspondance entre les reads et la référence. Après cet alignement, on obtient un fichier BAM associant à chaque reads ses coordonnées génomiques. C'est à dire le chromosome et la position.
On appelle la profondeur, le nombre moyen de reads qui se superpose et recouvrement, l'étalement des reads sur la zone d'intérêt.

L'alignement avec référence consiste à aligner les reads sur une référence

Visualisation d'un alignement réel avec Samtools

Évaluation d'un séquenceur

Avec tout ça, vous êtes capable d'évaluer la capacité d'un séquenceur comme vous le feriez avant l'achat d'un PC ou d'une voiture.
Les capacités d'un séquenceur sont définies par :

La longueur des reads produits (L)
Le nombre de reads produits (n)
Le nombre de nucléotides lu: (L x n)
Le temps de séquençage
La qualité du séquençage

Allez faire un tour sur le site d'Illumina pour comparer les modèles entre eux.

Pour finir, les séquenceurs de 3ème génération

À peine sortie, ces technologies sont déjà devancées par les séquenceurs de 3ème générations. Ce sont des séquenceurs capables de générer de très longs reads sans avoir besoin de cloner les fragments pour amplifier le signal. C'est pour cette raison qu'on les appelle aussi "Single molecule sequencing". En revanche, ces nouvelles techniques produisent encore beaucoup d'erreurs de séquençage. Les deux leaders de ce Next Next Generation Sequencing sont Nanopore et PacBio Science qui termine une guerre de brevet.
La miniaturisation de ces séquenceurs sera peut être un jour disponible chez tout bon médecin généraliste qui vous diagnostiquera votre prédisposition d'infarctus ou d'Alzheimer en quelques heures. Effrayant ou rassurant, à vous de choisir!

vous ne rêvez pas... C'est le SmidgIon d'Ofxord Nanopore, un séquenceur qui se branche sur un IPhone

Références

Remerciements

@pausrrls

La maladie de Huntington

2017-05-13T15:07:59+02:00

Un nombre important de maladies génétiques sont causées par des mutations ponctuelles, c'est-à-dire des mutations à l'échelle du nucléotide. Les mécanismes sous-jacents, que vous devez certainement connaître, sont la substitution, la délétion ou l'insertion de nucléotides dans la séquence d'un gène. Les mutations dynamiques sont peut-être moins connues mais elles sont pourtant responsables de plusieurs maladies génétiques héréditaires. Notamment une maladie neurodégénérative appelée la maladie de Huntigton.

Définition

La maladie de Huntigton est une maladie génétique autosomique dominante touchant environ 1 personne sur 10 000. Elle est causée par une anomalie du gène HTT (anciennement IT15) situé sur le chromosome 4 et codant pour la protéine Huntigtine. La mutation d'un seul des deux allèles suffit pour provoquer la maladie. Un parent a donc une chance sur deux de la transmettre.
Cliniquement, la maladie s'accompagne d'une altération de la fonction intellectuelle et du comportement. Les mouvements anormaux sont très caractéristiques. Ce sont des mouvements brusques incontrôlés de la face et des membres qu'on appelle chorée de Huntigton (vidéo ci-dessous). La maladie survient généralement entre 30 et 50 ans, mais comme nous allons le voir, peut survenir plus tôt en fonction de la mutation.

Mutation dynamique

Le mécanisme mutationnel de la maladie de Huntigton est lié à l'expansion d'un motif de nucléotides (CAG) dans la partie codante de l'exon 1 du gène. Nous avons déjà discuté de ces répétitions dans l'article sur les empreintes génétiques. Le codon CAG code pour l'acide aminé glutamine. Son expansion se traduit donc par une augmentation d'homopolymère de glutamine dans la protéine qui lui confère un pouvoir toxique dans le cerveau. Plus précisément l'atteinte se situe au niveau des neurones GABAergiques du striatum. Chez les sujets sains, la taille de la répétition varie entre 6 et 35. Entre 41 et 180, elle est pathologique. La zone intermédiaire entre 35 et 41 définit une zone floue, parfois symptomatique, parfois asymptomatique, qu'on appelle zone de pénétrance réduite.

Expansion des triplets CAG dans la maladie de Huntigton. Sur cette figure, il y a 9 répétitions

Phénomène d'anticipation

Plusieurs études ont montré que la longueur de la répétition est corrélée à l'âge où débute la maladie. Les longues répétitions sont responsables des formes juvéniles qui peuvent apparaître avant 20 ans. Par ailleurs, dans une lignée familiale, les symptômes apparaissent de plus en plus tôt au cours des générations. C'est ce qu'on appelle le phénomène d'anticipation. À chaque génération, l'expansion des triplets CAG augmente. Cette expansion est d'autant plus forte qu'elle est transmise par le père. Effectivement, il semblerait que l'instabilité des répétitions CAG survient préférentiellement lors de la spermatogenèse.

Diagnostic

De la même façon que la détection des empreintes génétiques, le diagnostic moléculaire repose sur une analyse de la taille des zones répétées après amplification en PCR. La visualisation des tailles peut se faire soit sur gel soit en analyse de fragments (lire mon article pour comprendre cette technique).

Analyse en fragment chez un sujet sain (a) et un patient atteint de la maladie de Huntigton (b). Le gène du patient (a) présente un allèle à 17 répétitions et un autre à 18 répétitions. Le patient (b) présente un allèle avec une répétition de 40.

Enjeux éthiques

L'absence de traitement fait de cette maladie un cas d'école en éthique médicale. Effectivement, les premiers symptômes peuvent apparaître tardivement et donner le diagnostic ne conduirait à aucune action thérapeutique. C'est donc après discussion entre le patient et une équipe pluridisciplinaire ( Psychologue, généticien, neurologue ...) que le diagnostic pré-symptomatique peut être entrepris. Dans tous les cas, un délai de réflexion est donné au patient.
Le diagnostic prénatal peut également être réalisé au cours de la grossesse en réalisant une amniocentèse. Là aussi la décision est prise à plusieurs lors du CPDPN (Centre Pluridisciplinaire de Diagnostic Pré-Natal) et seulement si les parents sont favorables à une interruption de grossesse. On ne fera jamais de diagnostic chez le fœtus avant d'avoir fait celui des parents. Car si aucun des deux parents n'est porteur de la mutation alors il n'y a aucun risque de transmission au fœtus.
Ces enjeux éthiques sont spécifiques aux maladies génétiques qui se déclarent tardivement. Et lorsque l'on voit que la FDA a autorisé 23andMe (alias google) à dépister les gènes de susceptibilité à la maladie d'Alzheimer, sans passer pas une équipe médicale, on a de quoi se poser des questions.

Un futur traitement ?

Toujours pas de traitement à ce jour. Mais un espoir avec CRISPR-Cas9. Allez jeter un œil sur cet article prometteur : "Permanent inactivation of Huntington's disease mutation by personalized allele-specific CRISPR/Cas9"

Références

Introduction à la métagénomique

2016-12-06T22:00:00+01:00

Le microbiote et la métagénomique sont les deux mots tendances de ces dernières années dans les laboratoires de microbiologie. Derrière eux se cacherait les réponses à de nombreuses maladies comme le diabète, la maladie de Crohn et même l'autisme ou la schizophrénie.
Commençons donc par définir ces deux termes:
- Le microbiote est l'ensemble des micro-organismes (bactéries, virus, champignons, levures) vivants dans un environnement spécifique appelé microbiome. L'exemple typique est le microbiote intestinal. Votre intestin est composé de millions d'espèces bactériennes différentes formant une communauté écologique en symbiose avec votre organisme et nécessaire à son bon fonctionnement. Il joue entre autre un rôle de barrière vis-à-vis d'autres agents microbiens pathogènes. La destruction du microbiote intestinal par des antibiotiques est par exemple responsable des infections intestinales par Clostridium difficile.
Pour vous prouver l'importance du microbiome, retenez que le génome humain est composé d'environ 23 000 gènes. Le nombre de gènes retrouvés dans l'ensemble des micro-organismes du microbiome intestinal se compte en millions.
- La métagénomique est la méthode d'étude du microbiote. C'est une technique de séquençage et d'analyse de l'ADN contenu dans un milieu. A l'inverse de la génomique qui consiste à séquencer un unique génome, la métagénomique séquence les génomes de plusieurs individus d'espèces différentes dans un milieu donné. Une analyse typique de métagénomique vous donnera la composition d'un microbiome. C'est à dire quelles espèces sont présentes, leurs abondances et leurs diversités.
C'est en partie grâce à l’évolution majeure des technologies de séquençage haut débit et à la bioinformatique, que la métagénomique est aujourd'hui à notre portée.
Dans la suite de cet article, nous verrons uniquement la métagénomique bactérienne, plus particulièrement la métagénomique ciblé sur l'ARN 16S. Mais gardez bien en tête que les métagénomiques virales et fongiques, bien que plus rares, existent aussi.

Stratégie en métagénomique

Il existe deux grandes stratégies de séquençage en métagénomique : la stratégie globale et la stratégie ciblée.

La métagénomique globale consiste à fragmenter tous les ADNs présents dans un échantillon en courts fragments et les séquencer à l'aide d'un séquenceur haut débit. D’où le nom de Shotgun sequencing. Les séquences (ou reads) obtenues sont ré-assemblées bioinformatiquement afin de reconstruire les génomes bactériens d'origine.

Stratégie globale : L'ensemble des ADNs présents dans un échantillon de microbiote sont séquencés.

La métagénomique ciblée n'est pas de la métagénomique à proprement parler, mais de la métagénétique. Cette stratégie consiste à séquencer un unique gène au lieu d'un génome complet. Cependant le terme de métagénomique étant plus régulièrement employé pour décrire cette stratégie, je continuerai ainsi. Ce gène doit être commun à plusieurs espèces tout en présentant des régions suffisamment variables afin de discriminer une espèce. En bactériologie, le gène utilisé est celui de l'ARN 16S. Il s'agit d'un gène présent uniquement chez les bactéries.

Stratégie ciblé : Seuls les ADNs du gène cible sont séquencés. En bactériologie, le gène cible est l'ARN 16S.

Chaque stratégie a son avantage. La métagénomique globale est plus précise dans le sens où elle séquence l'ensemble du génome d'une bactérie alors que la seconde ne s’intéresse qu'à un seul gène. Cette première stratégie permet par exemple de décrire le fonctionnement global du microbiote en séquençant l'ensemble des gènes présents.
La stratégie ciblée est quant à elle plus sélective. En effet, le gène de l'ARN 16S est présent uniquement chez les bactéries qui seules seront séquencées. La stratégie globale va séquencer tous les ADN présents dans le milieu sans discernement, qu'ils soient bactériens, viraux ou encore humains. Enfin, les algorithmes de traitements des données issues d'un séquençage ciblé sont beaucoup plus simples que les assemblages de génomes nécessaires dans le séquençage global. Pour comprendre cette complexité, essayez de mélanger toutes les pièces de 200 puzzles différents et tentez de retrouver les modèles originaux. C'est la problématique de la métagénomique globale.
On ne s’intéressera ici qu'à la stratégie 16S, utilisée en bactériologie. C'est un bon point de départ pour commencer !

L' ARN 16S

Vous connaissez les ribosomes ? Ces petits organelles dans la cellule formés de deux sous-unités permettant la traduction de l'ARN en protéine. Et bien chez la bactérie, et uniquement chez elle, la petite sous unité est formée de l'ARN 16S.

Structure secondaire de l'ARN 16S avec ses différentes boucles.

Il s'agit d'un ARN non codant composé d'environ 1500 nucléotides possédant des régions constantes et variables. Il suffit d'aligner la séquence d'ARN 16S de différentes espèces bactériennes pour s'en rendre compte. Comme vous pouvez le voir sur la figure ci-dessous, certaines régions sont constantes entre les bactéries alors que d'autres régions sont variables.

Similarités des séquences d'ARN 16S entre plusieurs bactéries. Sous le graphique figurent les différents couples d'amorces utilisables.

Les régions variables n'ont pas de rôle fonctionnel important et peuvent diverger au cours de l’évolution sous l'effet des mutations neutres.
C'est ce qui va nous permettre de discriminer les taxons bactériens au sein du microbiome. A chaque taxon correspondra une séquence particulière au niveau des régions variables. Il s'agit de la signature du taxon. Les régions constantes vont permettre quant à elles de capturer l'ensemble des ARN 16S. Ces régions étant identiques chez toutes les bactéries, il est possible de construire des amorces comme pour une PCR afin de sélectionner la région d’intérêt.
En réalité, seule une partie de l'ARN 16S est séquencée car les séquenceurs haut débit ne peuvent pas séquencer d'un coup les 1500 nucléotides de l'ARN 16S (enfin... sauf le Pacbio). Le couple d'amorce V3-V5, que vous pouvez voir sur la figure 3, permet par exemple de séquencer une région de 500 nucléotides contenant 3 régions variables.

Assignent taxonomique

Une fois le séquençage réalisé, c'est au tour des bioinformaticiens de prendre le relais. Un fichier contenant l'ensemble des reads (séquences) est obtenu après séquençage. Après plusieurs étapes de filtrage et de nettoyage de ces données, il faut assigner à chaque séquence le nom de la bactérie. Pour cela, deux stratégies existent.

La stratégie close-reference consiste à comparer chaque séquence aux séquences présentes dans une base de donnéees avec un seuil en général de 97% de similarité. Greengene, Silva et RDP sont les bases de données d'ARN 16S les plus connues. Cette stratégie a le mérite d'être rapide mais son principal problème est d'ignorer les séquences absentes des bases de données. Pour palier à ce problème, la deuxième stratégie peut être utilisée.

Stratégie 1. Chaque séquence est recherchée dans une base de données et assignée à son taxon.

La stratégie appelée de novo, n'utilise pas de base données mais consiste à comparer les séquences entre elles puis les regrouper par similarité. Les clusters ainsi formés élisent une séquence consensus qui peut à son tour être annotée par une base de données ou rester comme telle définissant alors une espèce inconnue.

Stratégie 2. Les séquences sont comparées entre elles pour former des groupes similaires ou clusters.

Une fois l’assignation taxonomique réalisée, il suffit de compter le nombre d'espèces présentes dans chaque échantillon et de construire la table des OTUs.

La table des OTUs

Le point de départ de toutes analyses en métagénomique est la construction de la table des OTUs (operationnal taxonomic unit). La notion d'espèce est difficile avec les bactéries, on parle plutôt d'OTU pour définir un ensemble de bactéries similaires à plus de 97 %.
La table des OTUs est un tableau à double entrées contenant le nombre de séquences par OTU et par échantillon. On parle d'abondance. Ces abondances absolues sont normalisées afin de rendre les échantillons comparables. Plusieurs méthodes de normalisation existent, mais la plus courante est d'utiliser les pourcentages. Sur la figure ci-dessous, les échantillons 1 et 3 ont tous les deux une abondance absolue de 3 en bactéries rouges. En pourcentage, leurs abondances relatives deviennent 42,8 % et 75 % respectivement.

Tables des OTUs obtenues à partir de plusieurs échantillons

Analyse des données

Diversité Alpha

La diversité alpha est une mesure indiquant la diversité d'un échantillon unique. Le nombre d'espèce est par exemple un indicateur d'alpha diversité.

B est plus diversifié que A car il contient deux fois plus d'espèces

Mais comme vous pouvez le voir dans la figure ci-dessous, Le nombre d'espèce n'est pas toujours adapté. C'est pour cette raison que d'autres indicateurs existent.

B contient plus d'espèce mais semble moins diversifié

L'indice de Shannon ou entropie de Shannon est un exemple d'alpha diversité répondant à ce problème. Cette indice reflète aussi bien le nombre d'espèce que leurs abondances. Sa formule est la suivante :

Indice de Shannon. Pour chaque espèce faire la somme des fréquences multiplié par le log des fréquences

La figure A précédente contient 13 espèces, dont 4 vertes, 5 rouges et 4 bleues. La diversité de shannon pour A est donc :

En faisant de même pour B, on retrouve alors une diversité plus faible de 0.72.

L'entropie de A est supérieur à celle de B

Les autres indicateurs répondent chacun à des problèmes différents. L'indice Chao1 estime le nombre d'espèce réel dans l'environnement à partir du nombre d'espèce dans l'échantillon. Il y a aussi l'indice de Simpson, de Fisher et l'indice ACE. Faite un tour sur ce site pour avoir plus des informations plus détaillées.
Le graphique ci-dessous montre les différences de diversité alpha du microbiote intestinal en fonction du régime alimentaire.

Diversité alpha du microbiote intestinal en fonction du régime alimentaire.
Source

Diversité Beta

La diversité bêta consiste à mesurer la diversité des espèces entre les échantillons. On procède le plus souvent à l'analyse multivariée de la matrice des OTUs en ayant recours aux méthodes d'ordinations comme l'analyse en composantes principales. Pour faire simple, imaginons que notre table des OTUs soit composée de 2 bactéries et 6 échantillons. La représentation sur un graphique serait facile en utilisant 2 axes (1 par bactérie). Chaque point de ce graphique serait un échantillon dont les coordonnées représentent l'abondance pour chaque bactérie. La figure de gauche ci-dessous illustre cet exemple. En colorant ces points sur une variable attachée aux échantillons, comme le site de prélèvement, on pourrait découvrir des groupes distincts, comme l'illustre la figure de droite.

Chaque point représente un échantillon réparti sur les deux axes en fonction de leurs abondances. Certains échantillons semblent associées entre eux.

Bien entendu, il y a plus de deux bactéries différentes dans un microbiome. Ce qui nécessite un nombre d'axe impossible à représenter graphiquement. Les méthodes d'ordination répondent à ce problème en projetant la variabilité de tous ces axes sur 2 axes pouvant être visualisés. L'analyse en composantes principales (ACP) est un exemple d'ordination. Il en existe bien évidemment d'autres. La plus couramment utilisée en métagénomique est une jumelle de l'ACP, l'analyse en coordonnées principales (PCoA) que je ne détaillerai pas.
Une fois la représentation réalisée, on cherche alors des groupes de points et la variable explicative que l'on visualise à l'aide d'une couleur. Sur la figure ci-dessous, l'analyse de plusieurs échantillons provenant de différents sites anatomiques révèle les compositions propres à chaque site.

Analyse en composantes principales de différents échantillons microbiens provenant de différents sites anatomiques.
Source

Conclusion

La métagénomique est un sujet complexe en plein essor qui nécessite une connaissance précise des différentes techniques pour éviter tout écueil. De nombreux biais peuvent intervenir à toutes les étapes, tant du coté biologique que bioinformatique. D'ailleurs, l'assignation taxonomique que je décris dans cet article reste simple et naïve. D'autres méthodes plus complexes mais valables statistiquement sont préférables. Par exemple la méthode dite de « Minimum Entropy Decomposition » permet de classer les OTU en s'abstenant du seuil théorique des 97 %.
Enfin, si vous voulez approfondir la métagénomique, je vous invite très fortement à regarder les vidéos de Dan Knights (un dieu en métagénomique) disponibles sur YouTube!

Références

Remerciements

@Thibaud_GS
@Piplopp
@pausrrls
@Oodnadatta

Répartition des variants sur le génome entre J.Watson et C.Venter

2016-08-02T21:42:51+02:00

Nous avions vu dans un précédent post que le génome de James Watson comptait un peu plus de 2 millions de variants par rapport au génome de référence; et qu'environ la moitié de ces variants étaient partagés avec Craig Venter.
Aujourd'hui, j'ai cherché à savoir si les densités des mutations à travers leurs génomes étaient semblables. Pour cela, j'ai fragmenté le génome en intervalles réguliers que j'appelle bins. J'ai ensuite compté pour chaque bin le nombre de variants chez Watson puis chez Venter. J'ai alors calculé la différence entre Watson et Venter pour chaque bin à l'aide d'un z-score.
Et voilà les résultats!

Pipeline

J'ai tout codé dans un pipeline disponible sur github.
Vous aurez besoin de Snakemake, de bedtools et du package R IdeoViz disponible depuis le site bioconductor.
Aucune donnée n'est nécessaire; tout se télécharge directement depuis le golden path d'UCSC. Vous pouvez d’ailleurs, si vous le voulez, lancer le pipeline sur d'autres génomes.

Exécution

La commande que j'utilise est la suivante :

snakemake -F --core 4 --config bin_size=100000 first=pgVenter second=pgWatson

bin_size correspond à la taille des bins.
first et second sont les noms des fichiers correspondant aux "personal genom (pg)" retrouvés dans UCSC.
F sert à régénérer l'ensemble des fichiers dans le cas d'une seconde exécution.
core spécifie le nombre de cœurs à utiliser.

Le schéma suivant représente les différentes étapes du pipeline.

Graph du pipeline snakemake

Résultats

Si tout se passe bien vous devriez obtenir 3 images : correlation.png, both.png et ideogram.png que vous pouvez voir ci-dessous.

Corrélation du nombre de SNP par bin entre Watson et Venter avec des bins de 1 Mpb

Le graphique correlation.png représente le nombre de SNP par bin entre Watson et Venter en utilisant des bins d'1 million de paires de bases.
La corrélation est nette. Les régions riches en SNP chez Watson le sont également chez Venter.

Densités en variants par bin pour Watson (orange) et Venter (bleue)

Le graphique both.png montre les densités des variants par bin pour Watson (orange) et Venter (bleu). Les tendances générales des courbes semblent similaires.

Différence des SNPs par bin entre Watson et Venter sur tout le génome.

Le graphique ideogram.png montre les différences du nombre de SNP par bin entre Watson et Venter sur tout le génome. La différence est ici normalisée par un z-score. En zoomant, vous pouvez voir que les différences sont rarement significatives en restant inférieures à 2. En revanche, certaines régions notamment sur le bras long du chromosome X (avant dernier), montrent de grandes différences.

Conclusion

Les régions riches en mutations chez Watson le sont aussi chez Venter en utilisant des bins d'1 Mpb. Ceci peut s'expliquer par le contenu de la séquence. Il est possible que certaines régions soient plus susceptibles de muter à cause de leurs teneurs en non-codants, en zones répétées ou en autres choses. Il faudrait d'ailleurs que je regarde s'il y a une corrélation avec la teneur en exons, en GC...
La distribution dans le génome, fluctue quant à elle de la même façon chez Watson et Venter. On retrouve cependant quelques différences dans des zones précises. Peut-être des CNV...
Bref, prochain objectif, comparer ces courbes avec des données d'annotations style 1000 génomes et SNP !

Transition et transversion dans le génome humain

2016-07-24T18:39:23+02:00

Aujourd'hui, J'ai eu une soudaine envie de calculer les fréquences des différents types de substitutions dans le génome de James Watson.
A partir d'un fichier contenant des variations par rapport au génome de référence, je me suis amusé à compter le nombre et le type de substitutions nucléotidiques. Et le résultat est loin d'être aléatoire...
Mais d'abord quelques définitions.

Transition et Transversion

On classe les bases azotées ( Adénine,Guanine,Cytosine,Tymine ) en 2 familles: les purines et les pyrimidines. l'Adénine et la Guanine sont des purines, composées de deux cycles aromatiques.
La Thymine et la Cytosine sont des pyrimidines composées d'un seul cycle.
Gravez-vous en tête que CYtosine et TYmine sont des PYrimidines car ces trois mots contiennent un Y !
Une transition est une substitution entre deux bases sans changement de famille. C'est à dire une purine qui devient une autre purine, ou alors une pyrimidine qui devient une autre pyrimidine.
Une transversion est associée à un changement de famille. C'est une purine qui se transforme en pyrimidine ou l'inverse.
L'image ci-dessous résume tous les cas possibles.

Schéma de toutes les substitutions possibles. En bleu les transitions , en rouge les transversions. Il y a 2 fois plus de transversions que de transitions

Notation consensus

Une substitution s'écrit souvent sous la forme X>Y et se lit X donne Y. Par exemple la substitution A>T signifie que l'allèle de référence est un A tandis que l'allèle alternative est un T.
Si nous résumons tous les cas possibles, il y a au total :

4 transitions : A>G, G>A, C>T, T>C
8 transversions : A>C,C>A,G>T,T>G,G>C,C>G,A>T,T>A

Mais rappelons-nous que l'ADN est double brin avec une complémentarité des bases. L'Adénine est toujours en face d'une Tymine et la Guanine toujours en face d'une Cytosine. Si il y a une mutation sur un brin, disons un A>G , alors il y a sur le brin complémentaire un T>C. Ces deux notations sont donc équivalente. On utilisera toujours par la suite la notation ou la base de référence est soit une Tymine soit une Cytosine. (T>C au lieu de A>G).
En reprenant notre combinatoire précédente, on se retrouve alors avec :

2 transitions : C>T, T>C
4 transversions : C>A, T>G, C>G, T>A

Si les mutations sont aléatoires alors nous devons observer 2 fois plus de transversions que de transitions.
Vérifions cela en regardant quelles sont les mutations substitutives qui différencient James Watson au génome de référence hg19.
Allez directement au résultat si Linux vous donne des boutons.

Téléchargement des données nécessaires

Génome de référence: hg19.fa

Le génome humain dans sa version hg19 est disponible sur ucsc.

$ wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/hg19.2bit

Il faut utiliser l'outil twoBitToFa pour convertir le génome au format fasta.

$ wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/twoBitToFa
$ chmod +x twoBitToFa
$ ./twoBitTo hg19.2bit hg19.2bit hg19.fa

Substitution de James Watson: pgWatson.txt.gz

Ce fichier contient l'ensemble des variations de James Watson par rapport au génome de référence.

$ wget http://hgdownload.cse.ucsc.edu/goldenpath/hg19/database/pgWatson.txt.gz

Téléchargement de bedtools

bedtools est un outil permettant de manipuler des fichiers au format bed. Ce sont des fichiers contenant des régions génomiques de la forme :

chromosome  debut  fin

C'est un peu le couteau suisse du bioinformaticien. Si vous ne l'avez toujours pas, Veuillez suivre les instructions pour l'installer ou taper les commandes suivantes.

$ wget https://github.com/arq5x/bedtools2/releases/download/v2.25.0/bedtools-2.25.0.tar.gz
$ tar -zxvf bedtools-2.25.0.tar.gz
$ cd bedtools2
$ make
$ sudo make install

Bash pour Nidja

Récupérer les régions des variants de James Watson

Les trois première colonnes du fichier pgWatson.txt.gz correspondent à la région génomique (chromosome-début-fin) de la substitution. C'est notre fichier bed que nous allons générer avec la commande suivante.

zcat pgWatson.txt.gz|cut -f1,2,3 > region.bed

Récupération des bases de référence

Le fichier region.bed nous permet de récupérer les bases de références depuis hg19. A l'aide de bedtools, créer le fichier ref_bases.txt.

bedtools getfasta  -fi hg19.fa -bed region.bed -fo /dev/stdout | awk 'NR%2 == 0 {print $0}' > ref_bases.txt

Récupération des bases alternative

Créez aussi le fichier alt_bases.txt contenant les bases alternatives depuis pgWatson.txt.gz à la colonne 5.

zcat pgWatson.txt.gz|cut -f5|awk -F "/" 'NF==2{print $2} NF==1{print $1}' > alt_bases.txt

Concaténation des deux fichiers

On fusionne ref_bases.txt et alt_bases.txt dans un fichier. Celui ci contient alors une colonne pour la base de référence et une autre pour la base alternative. Les bases sont toutes converties en majuscules.

paste -d '' ref_bases.txt alt_bases.txt|tr '[:lower:]' '[:upper:]' > substitution.txt

Notation consensus

Toutes les substitutions du fichier précédent sont transformées de façon à toujours avoir une Cytosine ou une Tymine en référence.

cat substitution.txt |sed -e 's/AG/TC/' -e 's/GA/CT/' -e 's/AC/TG/' -e 's/GT/CA/' -e 's/GC/CG/' -e 's/AT/TA/' > consensus.txt

Compatage des substitutions

cat consensus.txt|sort|uniq -c

Nous obtenons alors :

Il ne reste plus qu'à faire un jolie graphique!

Resultats

Représentation des différentes substitutions retrouvées dans le génome de James Watson.

Ce graphique représente les différente substitutions retrouvées chez James Watson par rapport au génome de référence. Et comme vous pouvez le constater, cela ne colle absolument pas avec notre hypothèse des mutations aléatoires. Les 2 transitions possibles représentent deux tiers des substitutions, la où les 4 transversions ne représentent qu'un tiers. Il y a donc 2 fois plus de transitions que de transversions.
Ce phénomène est bien connu et s'explique par le fait qu'une transition est plus facile chimiquement à réaliser qu'une transversion. Les structures chimiques étant semblable.
D'après la littérature, ce rapport passe de 2 à 3 dans les régions codantes. En effet une transversion est plus susceptible de modifier l'acide aminé et se retrouve éliminée par la sélection naturelle.
La connaissance de ce rapport est utilisé dans les modèles d’évolution moléculaire comme le modèle de Kimura.
Il s'agit aussi d'un indicateur de qualité de séquençage haut débit. Si le rapport n'est pas retrouvé, il y a fort à parier que des erreurs de séquences se sont produites.
Voilà ! Si vous avez d'autres explications je suis preneur !

Références

Le dépistage prénatal non-invasif de la trisomie 21

2016-07-12T18:59:16+02:00

La trisomie 21 est un syndrome polymalformatif avec un retard mental, lié dans la majorité des cas à la présence d'un chromosome 21 surnuméraire.
En France, le dépistage de la trisomie 21 est proposé à toutes les femmes enceintes au 1er trimestre de grossesse. Ce dépistage consiste à calculer un score en fonction de marqueurs sanguins (AFP, Papp-A, beta HCG) et des signes d'appel échographique comme la clarté nuccale. Si ce score dépasse un certain seuil, un diagnostic cytogénétique est proposé pour confirmer la trisomie. Il consiste à prélever des cellules fœtales par des techniques invasives comme l'amniocentèse et de dénombrer le nombre de chromosomes sur un caryotype comme illustré ci-dessous.

Caryotype présentant 3 chromosomes 21 au lieu de 2

Malheureusement ces gestes invasifs ne sont pas anodins. On estime entre 0.5% et 1% le risque de fausse couche lié à l'amniocentèse.
Cela peut sembler faible, mais le dépistage actuel souffre d'une très mauvaise spécificité. C'est à dire que beaucoup de femmes répondent positif au dépistage alors que leur fœtus est indemne. Par conséquence beaucoup trop d'amniocentèses sont réalisées inutilement avec le risque de fausse couche qui en découle.
Mais depuis l’avènement récent du séquençage haut débit, un nouveau test de dépistage beaucoup plus puissant en terme de sensibilité et de spécificité voit le jour. Il s'agit du DPNI pour Dépistage Prénatal Non Invasif. (Vous lirez souvent diagnostic , mais il s'agit pour l'heure de dépistage). Ce nouveau test consiste à quantifier sur une simple prise de sang un excès d'ADN fœtal circulant provenant du chromosome 21.

L'ADN fœtal circulant

Il y a des fragments d'ADN double brin qui circulent librement dans votre sang. En général ce sont les vôtres sauf si vous faites des expériences tordues dans votre laboratoire ou ... si vous êtes enceinte. En effet chez les femmes enceintes environ 10% de ces fragments proviennent du fœtus. Plus précisément ces fragments proviennent de la lyse des cellules trophoblastiques, un composant du placenta ayant la même origine embryologique que le fœtus.
L'idée derrière le DPNI c'est de quantifier l' excès d'ADN circulant provenant du chromosome 21 à l'aide des nouvelles technologies de séquençage haut débit.
La figure ci-dessous illustre la quantification d'ADN circulant chez une mère sans et avec fœtus trisomique. En mesurant une différence significative entre une patient et des témoins sains, il est possible de conclure à un excès de d'ADN circulant provenant du chromosome 21.

On considère que 90% de l'ADN circulant provient de la mère et 10% du foetus. L'excès du chromosome 21 chez le foetus est caractérisé par une différence significatif entre 2.1 et 2.0

Le Séquençage de nouvelle génération

Le NGS (Next Generation Sequencing) est une technologie récente permettant le séquençage de l'ADN de façon très rapide grâce à un haut niveau de parallèlisation. Sans entrer dans les détails (super site ici), les fragments d'ADN provenant du sang maternel, qu'on appellera reads à présent, sont séquencés puis alignés sur le génome de référence via des algorithmes de bioinformatique. On obtient alors un fichier contenant la liste des reads associés à leurs positions sur le génome. C'est à dire qu'à chaque fragment séquencé, son chromosome lui est associé.
La figure ci-dessous résume les étapes du séquençage ainsi que les différents formats de fichier.

Les reads sont séquencés et sauvegardés dans un fichier fastQ. Les reads sont ensuite alignés sur le génome de référence hg19. En vert les reads provenant du foetus. En violet les reads maternels

Quantification et test statistique

Une trisomie 21 se caractérise par un excès de reads s’alignant sur le chromosome 21. Pour mesurer cet excès il nous faut des valeurs de référence obtenues chez des femmes enceintes témoins dont le fœtus est sain. Avec un nombre suffisant de témoins, la moyenne et l'écart-type du nombre de reads par chromosome sont calculés.
Pour savoir si une patiente présente trop de reads, il suffit de rechercher une différence significative à l'aide d'un Z-score en comparant les données de la patiente et les valeurs de référence.
Le logiciel RapidR créé par le NHS utilise cette approche. Un exemple de résultats est présenté dans la figure suivante.

En ordonnée le Z-score, en abscisse les chromosomes. Sur ce graphique, la patiente présente un excès significatif en read s’alignant sur le chromosome 21

Un autre logiciel, Wisecondor approche différemment le problème et propose d'utiliser les autres chromosomes comme références au sein du même échantillon. C'est une approche plus complexe, mais peut se résumer ainsi.
Tout d'abord, le génome est segmenté en régions de 10 kilobases appelé bin. Le nombre de reads est comptabilisé par bin au lieu d'être comptabilisé par chromosome comme précédemment.
A partir des mesures chez les témoins sains, les bins du chromosome 21 sont associés aux autres bins du génome lorsqu'ils contiennent plus ou moins le même nombre de reads. La figure suivante est une représentation de ces associations.

Chaque chromosome est représenté avec leurs bins sur la circonférence du disque. Tous les bins du chromosome 21 sont associés aux bins des autres chromosomes. Ces relations sont utilisées comme référence témoins au sein du même échantillon.

Ce logiciel permet donc de mesurer l'excès de reads mappant le chromosome 21 en le comparant aux autres chromosomes. Cette technique à l'avantage de se passer des biais de mesure, car le séquençage de la référence et du patient sont réalisés en même temps.

Stratégie de dépistage

En Novembre 2015, la Haute autorité de santé a évalué positivement ce nouveau test de dépistage. La sensibilité et la spécificité avoisine les 100%. Le risque de faux négatif est lié à l'absence d'ADN fœtal si le prélèvement est réalisé trop tôt. Un risque de faux positif est également possible dans les cas de mosaïcisme fœtal.
Aujourd'hui toutes les femmes enceintes, quel que soit leur âge, sont informées de la possibilité de recourir à ce test.
La stratégie actuelle est de proposer le dépistage standard. Si celui ci revient positif, au lieu de proposer directement un geste invasif, le DPNI est proposé. Si celui ci est à son tour positif, alors le geste invasif et le diagnostic cytogénétique est réalisé. A l'heure actuelle les laboratoire Cerba et Biomnis proposent le DPNI. Mais depuis janvier 2016 certains centres hospitaliers proposent ce test qui n'est malheureusement pas encore remboursé et avoisine les 800€.

Référence

Remerciement

@Thibaud_GS

Le génome en chiffre - part 1

2016-04-29T12:55:48+02:00

Ça faisait longtemps que j'avais envie de faire une description numérique du génome. Vous savez ces chiffres repères qui nous permettent de faire des comparaisons et de répondre à des questions du genre : "Est-ce que cette montagne est grande ?" Si vous n'avez pas de référence, comme la taille du Mont Blanc, ça va être difficile de vous faire une idée...
Nous allons faire pareil sur le génome humain ! Et pour être sûr qu'une organisation maçonnique n'a pas volontairement mis des faux chiffres sur internet, nous allons tout calculer par nous-même ! Ça sera l'occasion de faire un peu de bash et d'apprendre quelques commandes !

Télécharger le génome humain

Tout d'abord si vous n'avez pas le génome de référence, télécharger le depuis le goldenpath d'UCSC. C'est le fichier hg19.2bit qui fait 778M.

$ wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.2bit

Ce fichier est compressé. En fait chaque base est codée sur 2 bits au lieu de 8. On peut le convertir en fichier texte standard avec la commande twoBitToFa disponible également sur UCSC.

$ wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/twoBitToFa
$ chmod +x twoBitToFa 
$ ./twoBitToFa hg19.2bit hg19.fa

Vous voilà avec un fichier fasta, contenant les séquences de chaque chromosome humain... Chaque.. En fait, non! Ce fichier contient des chromosomes en double avec des séquences alternatives ainsi que le chromosome mitochondrial. Tapez cette commande pour voir tous les noms des chromosomes du fichier hg19.fa.

$ cat hg19.fa|grep ">chr"

Nous allons plutôt créer un fichier avec uniquement les chromosomes nucléaires de 1 à 22 et les deux chromosomes sexuels X et Y. Il y a un outil faSomeRecords sur UCSC qui fait très bien le travail. Il prend en argument notre génome hg19.fa et un fichier avec la liste des chromosomes souhaités.

$ wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/faSomeRecords
$ chmod +x faSomeRecords
#Création d'une liste de chromosomes 
$ for i in {1..22}; do echo chr$i; done > chromosomes.list
$ echo chrX >> chromosomes.list 
$ echo chrY >> chromosomes.list 
$ ./faSomeRecords hg19.fa chromosomes.list hg19_clean.fa

Voilà, un fichier tout propre contenant uniquement les 24 chromosomes du génome humain.

Quel est la taille du génome humain ?

Il suffit de compter le nombre de bases! On supprime tous les retours à la ligne du fichier fasta et on compte avec la commande wc -c !

$ cat hg19_clean.fa|grep -v "chr." | tr --delete "\n" | wc -c
$ 3095677412

3'095'677'412 c'est le nombre de nucléotides qu'il y a dans le fichier du génome humain. Retenez donc que le génome est constitué d'environ 3 milliards de paires de base.

Pourcentage en GC du génome humain ?

Pour ça, je vous propose d'utiliser un de mes outils préférés : bedtools ! Le couteau suisse du bioinformaticien. Il est en principe dans les dépôts d'Ubuntu mais je vous conseille la dernière version depuis le site officiel :

$ wget https://github.com/arq5x/bedtools2/releases/download/v2.25.0/bedtools-2.25.0.tar.gz
$ tar -zxvf bedtools-2.25.0.tar.gz
$ cd bedtools2
$ make 
$ sudo make install

Pour connaître le pourcentage en base A,C,G,T on utilise bedtools nuc. Cette commande permet de compter les pourcentages en base A,C,G,T dans un fichier fasta à partir des régions chromosomiques définies dans un fichier bed. On va calculer ces pourcentages pour chaque chromosome.
Pour aller plus vite, on peut télécharger le fichier hg19.chrom.sizes. Celui-ci contient sur chaque ligne, le nom du chromosome et sa taille en bases. On va s'en servir pour créer le fichier nécessaire à bedtools.

$ wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.chrom.sizes
$ cat hg19.chrom.sizes|grep -we "chr[0-9XY]*"|awk 'BEGIN{OFS="\t"}{print $1,0,$2}' > hg19_clean.sizes.bed

Assurez-vous que la somme des tailles des chromosomes tombe bien sur les 3 milliards précédents.

$ cat hg19_clean.sizes.bed|cut -f3|paste -sd "+"|bc

Lancer alors la commande :

$ bedtools nuc -fi hg19_clean.fa -bed hg19_clean.sizes.bed > hg19.stat

Vous obtenez un fichier contenant pour chaque chromosome, le nombre de nucléotides A,T,C,G,N avec le pourcentage en AT et CG. N’hésiter pas à regarder l'aide de la commande.
Le pourcentage en GC du génome humain tourne autour de 37%. Avec comme extrêmes le chromosome 19 (48%) et le chromosome Y (25%).

Pourcentage en base A,C,G,T

Dans le fichier hg19.stat précédemment généré, on observe aussi le nombre de bases A,C,G,T. On faisant la somme, on obtient sur tout le génome :

846093191 bases T soit 27.2%
844862932 bases A soit 27.3%
585012752 bases C soit 18.8%
585358256 bases G soit 18.9%

Olaa.. Attendez c'est quoi ce truc ? Il y a quasiment autant de base A que de T, et autant de base C que de G. Détrompez-vous, si vous pensez que c'est la loi de Chargaff expliquant la complémentarité des brins, car cette répartition est sur un seul brin d'ADN ! Pas de double brin dans l'histoire ! C'est comme si dans un livre de 3 milliards de lettre, il y avait autant de "s" que de "a".
Bien sûr j'ai recherché, j'ai demandé, j'ai eu toutes les réponses inimaginables. En fait c'est ce qu'on appelle la seconde loi de Chargaff, beaucoup moins connu! Et je vous assure, je n'ai pas encore trouvé d'explication, si ce n'est celle-ci

Combien de gènes dans le génome humain ?

Dans le génome il y a des gènes constitués d'intron et d'exon. Et chaque gène défini plusieurs transcrits.
On peut télécharger refseq, une base de donnée contenant tous les gènes officiels ! Dans le fichier, ces colonnes vont nous intéresser par la suite.

colonne 3 : le chromosome
colonne 5 : le début du transcrit
colonne 6 : la fin du transcrit
colonne 7 : début du CDS
colonne 8 : fin du CDS
colonne 9 : le nombre d'exons
colonne 10: liste des débuts d'exons
colonne 11: liste des fins d'exons
colonne 13 : le nom du gène

Pour télécharger :

$ wget wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/refGene.txt.gz

Compter le nombre de gènes uniques :

$ zcat refGene.txt.gz|cut -f13|sort -u | wc -l
$ 27048

Votre Deuxième chiffre à retenir ! Environ 27000 gène constitue le génome humain !

Quel est le pourcentage d'exons ?

Dans le fichier refseq, colonne 10 et 11, nous avons tous les débuts et les fins des exons. J'ai juste fait la somme des différences entre fin d'exon et début d'exon sur tous les gènes uniques. Avec awk, ça se fait tout seul :

$ zcat refGene.txt.gz|sort -u -k 13,13|awk '{SUM=0;split($10,s,","); split($11,e,",");for(i=1;i<length(s);i++){SUM+=e[i] - s[i]};print SUM}'|paste -sd "+"|bc 
$ 72090466

On obtient 72090466, le nombre de bases dans les exons. En le divisant par la taille du génome, on se retrouve avec : 2.32 % du génome est constitué d'exon.

Quel est le pourcentage de bases codantes ?

Pour cela, j'ai crée un fichier bed qui contient la position de tous les exons. Et un second fichier contenant la position de toutes les cds. J'ai ensuite fait l'intersection avec bedtools.

$ zcat refGene.txt.gz|sort -u -k 13,13|awk 'BEGIN{OFS="\t"}{SUM=0;split($10,s,","); split($11,e,",");for(i=1;i<length(s);i++){print $3,s[i],e[i]} }' > exons.bed

$ zcat refGene.txt.gz|sort -u -k 13,13|awk 'BEGIN{OFS="\t"}{print $3,$7,$8 }' > cds.bed

$ bedtools intersect -a exons.bed -b cds.bed | awk '{print $3-$2}'|paste -sd "+" | bc

On obtient 35269084, le nombre de base codante. Ce qui fait 1.13 % du génome. 1% du génome est codant. Oui... C'est vraiment pas beaucoup !

Quel est le pourcentage d'intron ?

Même logique, j'ai fait les zones transcrites soustraites des exons. Ce qui nous donne les introns avec les UTR.

$ zcat refGene.txt.gz|sort -u -k 13,13|awk 'BEGIN{OFS="\t"}{print $3,$5,$6 }' > transcrits.bed

$ bedtools substract -a transcrits.bed -b exons.bed | awk '{print $3-$2}'|paste -sd "+" | bc

On obtient 1184956505 bases dans les introns/UTRs soit 38.2 % du génome ! Il reste tout de même plus de 60% d'inconnu ! Dans un prochain article, on s'y attaque !

Combien de mutations me distinguent du génome de référence ?

On ne va pas prendre mon génome... Mais celui de James Watson co-découvreur de la structure de l'ADN avec Francis Crick et Rosalind Franklin. Son génome a été séquencé et distribué librement. Nous allons télécharger un fichier contenant uniquement les différences entre le génome de Watson et le génome de référence. C'est-à-dire un fichier contenant sur chaque ligne, la position et la base alternative.

$ wget http://hgdownload.cse.ucsc.edu/goldenpath/hg19/database/pgWatson.txt.gz

En comptant le nombre de ligne :

$ cat pgWatson.txt.gz | wc -l

On obtient 2059384 variants. Environs 2 millions de bases distinguent James Watson du génome de référence. En pourcentage, ça nous fait : 0.06 %

Combien de mutations je partage avec un autre individu ?

On va regarder les variants que partagent Craig Venter et James Watson. Même chose que précédemment, on récupère les données de Venter.

$ wget http://hgdownload.cse.ucsc.edu/goldenpath/hg19/database/pgVenter.txt.gz

Ensuite on transforme le fichier de Watson et Craig en fichier bed.

$ zcat pgVenter.txt.gz |cut -f2,3,4|sort > venter.bed
$ zcat pgWatson.txt.gz |cut -f2,3,4|sort > watson.bed

Puis on fait l'intersection :

$ bedtools intersect -a venter.bed -b watson.bed|wc -l

On trouve alors 1'192'314 de variants en commun entre Venter et Watson!

Conclusion

Nous allons nous arrêter là pour le moment, sinon on ne finira jamais ! Pour cette fois retenez ceci : Votre ADN est composé de 3 millards de paires bases. 1% constitue le génome codant pour 25 000 gènes. Et 1 million de variants vous distinguent d'un autre individu.
Dans le prochain article, nous allons poser d'autres questions beaucoup plus précises. Où se trouvent les variations ? Qu'y a-t-il dans les 60% de l'ADN ? Quelles sont les mutations les plus fréquentes ? Posez vos questions dans les commentaires, j'essaierai d'y répondre!

Remerciement

@ZaZo0o

Le paludisme

2016-04-29T12:55:48+02:00

« Quel est l’animal le plus meurtrier au monde ? » On entend souvent cette question, et une fois passés les requins blancs, serpents et autres méduse-boîtes vient toujours un petit malin pour répondre « Le moustique ! ». Bon ok il n’a pas tort le petit malin. Mais pour être plus précis le moustique n’est qu’un taxi pour le vrai tueur numéro 1 sur cette planète. On l’appelle la Malaria, le « mauvais air » mais la maladie est plus connue sous le nom de Paludisme et cause 500 000 morts par an dans le monde. Le parasite en cause est un protozoaire appelé Plasmodium qui regroupe plusieurs espèces (P. falciparum, P. malariae, P. vivax, etc). Parler de ce tueur en série c’est l’occasion de parler un peu d’immunité, d’évolution, mais avant tout c’est l’occasion de parler des parasites !

Parasitisme

Avant d’aller plus loin une petite définition s’impose : qu’est-ce qu’un parasite ? Les dictionnaires vous diront que c’est un organisme qui vit aux dépens d’un autre organisme appelé hôte. Un peu comme ce colocataire qui profite du toit, du micro-onde et de la connexion wifi mais qui ne paie jamais le loyer. On l’oppose souvent à la symbiose, où les deux êtres vivants ont besoin l’un de l’autre. En effet le parasite va utiliser à son profit les ressources de son hôte, sans lui être indispensable, voire lui être néfaste... Plus de fromage rapé dans le frigo ? C’est le parasite. Il est important de préciser que ce n’est qu’un mode de vie parmi d’autre. Un moyen pour un organisme de trouver l’énergie suffisante pour se reproduire. Nous, humains, avons trouvé une autre méthode commune à de nombreux autres animaux sur cette planète : la prédation. Le prédateur va chasser et tuer sa proie. La relation entre le prédateur et la proie est courte et sanglante, l’un imposant une pression de sélection sur l’autre. Les proies plus adaptées à échapper à leur prédateur vont survivre, se reproduire, et transmettre ce caractère à leur descendance perpétuant leurs gènes. Tandis que l'information génétique des proies tuées est perdu.

Dans le cas du parasitisme si le bilan est le même, un transfert d'énergie entre deux organismes, la relation différente. Notre parasite vit au contact de son hôte, parfois pendant une courte période de sa vie, mais parfois pendant des années comme le ver solitaire ou Ténia. Les deux organismes se côtoient de manière très étroite et le système immunitaire de l’hôte joue un peu le rôle du prédateur qui cherche à éliminer le parasite. Et comme la gazelle qui a évolué pour fuir plus rapidement les lions, les parasites évoluent également pour échapper à notre système immunitaire… Et pour cela ils redoublent d’ingéniosité !

Le globule rouge : une planque idéale

Dans un article précédent de ce blog, vous avez pu apprendre que nos cellules ont un mécanisme efficace pour se protéger d’un organisme qui voudrait vivre à l’intérieur, comme un virus, il s’agit des molécules de CMH. Or, toutes les cellules n’en possèdent pas ! Par exemple les globules rouges qui transportent l’oxygène dans le sang via l’hémoglobine sont totalement dépourvues de ce système de défense. Ce n’est pas un problème contre les virus car les globules rouges sont des cellules sans noyau, relativement simples. Or le virus, très simple également, aime les cellules qui lui fourniront tous les outils pour sa réplication. Bref, pour envahir le globule rouge il faut venir avec son propre matériel et ça n’intéresse pas le virus partisan du moindre effort. Pourtant c’est la cachette qu’a choisi le paludisme ! Il n’a pas choisi la facilité, mais une fois à l’intérieur il passe totalement incognito... ou presque.

Le globule rouge est fortement modifié par son squatteur et de nombreuses protéines du parasite sont exprimées à la surface de la cellule. Parmi celles-ci on peut citer la Plasmodium falciparum erythrocyte membrane protein 1, ou plus court mais tout aussi galère à prononcer : PfEMP1. Cette protéine permet entre autres au globule rouge parasité d’adhérer à la surface de nos vaisseaux sanguins. Une habile stratégie pour échapper au piège de la rate, l’organe qui filtre notre sang. Mais le paludisme aurait-il fait l’erreur de trahir sa présence ? Voilà des protéines à la surface du globule rouge qui ne sont pas humaines ! Que fait l’immunité ?!... Sauf que Plasmodium est plus malin que ça. PfEMP1 est codé par des gènes particuliers appelés var gene. Ces var gene sont au nombre d’une soixantaine, un seul est exprimé à la fois, ce qui veut dire qu’une seule forme de PfEMP1 est exprimée à la fois. Le temps que des anticorps soient produits contre ces protéines, Plasmodium produit une nouvelle fournée de PfEMP1, juste assez différentes pour ne pas être reconnues par notre système immunitaire. Les nouvelles PfEMP1 remplacent les anciennes et le parasite continue de se balader en costume de globule rouge.

C’est la force du paludisme, comme de beaucoup d’autres parasites, d’être variable pour lutter contre la pression que leur impose notre immunité. C’est cette même variabilité antigénique qui rend si difficile l’élaboration d’un vaccin contre le fléau du paludisme ! Mais leur variabilité s’étend encore au-delà… Puisque les parasites doivent souvent s’adapter à plusieurs hôtes comme c’est le cas ici avec le moustique et l’être humain. Et dans chaque hôte, ils sont capables de se transformer pour s’adapter à différentes parties de l’organisme.

Le cycle du paludisme

Puisqu’il faut prendre un point de départ dans un cycle, prenons la piqure du moustique. La piqure du moustique (Anophèle) va injecter dans la peau de l’homme le Plasmodium sous une forme mobile appelée sporozoïte (1). Le sporozoïte va rapidement rejoindre le foie dont il va parasiter des cellules pendant quelques jours (2). Ce n’est qu’après cette première multiplication dans le foie que le paludisme va rejoindre le sang sous forme de mérozoites et infecter nos globules rouges. A chacune de ces étapes, notre immunité monte une garde vigilante et toutes les stratégies du parasite pour y échapper ne sont pas encore élucidées. Une fois bien installé dans le globule rouge, le parasite va croitre et se multiplier à l’intérieur. Cette multiplication a une durée bien précise, de 2 à 3 jours selon les espèces et se termine par l’explosion du globule rouge… Ou plus précisément de tous les globules rouges infectés, simultanément. Les globules rouges déversent alors une grande quantité de mérozoites qui vont infecter à nouveau d’autres globules rouges (3). C’est cette abondance de mérozoites dans le sang au moment de l’explosion des globules rouges qui cause la fièvre du paludisme. Certains globules rouges parasités vont se transformer en gamétocytes (4), mâles ou femelles. Ce sont les équivalents de nos spermatozoïdes et ovules. Si un moustique pique l’être humain parasité il va se nourrir de son sang, et au passage des gamétocytes. Les gamétocytes se fécondent dans le moustique, pour donner un zygote puis un oocyste. Ce dernier libérera une nouvelle génération de sporozoïtes prête à être injectée à une autre victime humaine (5)… Et le cycle est bouclé !

La course à l'adaptation

Le paludisme n'est pas le seul à s'adapater à son hôte. L'hôte également cherche à se protéger du parasite. Ou plutôt dans le cas des parasites mortels comme le paludisme, l'hôte résistant au parasite peut être sélectionné.

Un des exemples les plus frappants concerne la drépanocytose. Cette maladie génétique touche la molécule d'hémoglobine, contenue dans le globule rouge. L'hémoglobine mutée (HbS) transporte moins efficacement l'oxygène et entraîne une forme plus rigide "en faucille" du globule rouge. Etre porteur d'un seul allèle muté sur les deux permet de vivre normalement et il a été montré qu'être porteur de la drépanocytose protégeait de l'infection par le paludisme!. On observe effectivement que cette maladie génétique et le paludisme sont présents dans les mêmes régions d'Afrique (cartes de gauche et du milieu). Les humains porteurs de la maladie génétique ont donc pu être sélectionnés, car moins sujets à des formes mortelles de paludisme.

Un autre exemple concerne les groupes sanguins. Nos groupes sanguins sont des antigènes (faits de protéines, glucides et lipides) à la surface de nos globules rouges. Les groupes A, B, O sont les plus connus, mais il en existe d'autres et un des groupes sanguins mineurs, le groupe Duffy, est nécessaire à l'entrée de l'espèce Plasmodium vivax dans le globule rouge... On observe que cette espèce est absente de toute l'Afrique de l'ouest où la grande majorité de la population est Duffy Négative! Malheureusement, Plasmodium vivax a été remplacée dans ces régions par d'autres espèces de Plasmodium qui n'ont pas besoin de Duffy pour rentrer dans nos globules rouges (cartes du milieu et de droite).

A quoi servent ces groupes sanguins d'ailleurs ?... Voilà une question qui sera traitée dans un prochain article sur ce blog !

Conclusion

Les parasites sont des organismes complexes qui ont su s’adapter à de nombreux organismes. Les stratégies d’échappement sont multiples. Nous avons parlé de la variabilité antigénique, mais d’autres parasites excellent dans l’art du camouflage ou du leurre. Ces systèmes de survie ne doivent pas être confondues par une intention ou une intelligence du parasite. Il s’agit plutôt d’un équilibre qui a été obtenu sur du long terme. Un parasite qui côtoie un hôte depuis suffisamment de générations (on parle ici de millions d’année de co-évolution entre l’hôte et son parasite) peut devenir totalement anodin pour l’organisme qu’il occupe. On peut ainsi imaginer que certaines symbioses ne sont que des parasitismes qui se sont adaptés à la perfection. Le couple paludisme-homme a donc encore du chemin à faire…

Moralité : si votre coloc, pour échapper à votre colère immune décide de vous faire des pizzas pour détourner votre attention … vous pourriez bien finir par l’accueillir comme une machine à pizza tout à fait légitime qui a sa place dans votre appartement ! (toute ressemblance avec la symbiose entre les mitochondries et nos cellules est totalement fortuite)

Références

La reconnaissance du soi

2016-02-27T10:57:22+01:00

Si vous lisez mon blog, vous avez sûrement constaté ma tendance à tracer des parallèles entre l'informatique et la génétique, notamment entre séquence d'ADN et séquence binaire. Dans cet article, nous allons à nouveau faire un parallèle qui peut paraître tout aussi surprenant : La reconnaissance du soi.
Du point de vue de l'informatique, il s'agit de vérifier si un fichier est bien le votre et qu'il n'a pas été modifié par un virus.
Du point de vue de la biologie, on rencontre le même problème: vérifier qu'une cellule est saine et qu'elle n'a pas été infectée par un virus !
Dans les deux cas nous allons utiliser des "signatures" et toute anomalie dans celles-ci révélera l'imposture.

Signature d'un fichier

La signature ou empreinte d'un fichier est une séquence de caractères associée de façon unique à un fichier. Par exemple, le fichier superMario.exe peut avoir comme empreinte f6c51c6bb1ce72508313dad3dc3c6776. Toute modification du fichier, même minime, entraînera une modification de l'empreinte.
Cette prouesse est réalisée à l'aide des fonctions de hachages. Les algorithmes MD5 et SHA-1 sont les plus connus.
Depuis un terminal Unix, vous pouvez récupérer l'empreinte de n'importe quel fichier en tapant :

md5sum superMario.exe   
## Retourne: 50e6b5cd621b4f9de2cc78669cd0c350

L'empreinte obtenue est une séquence de 128 bits soit une chaîne hexadécimale de 32 caractères. La probabilité que deux fichiers aient la même empreinte est extrèmement faible mais une telle éventualité est possible, on parle alors de "collision".
Lorsque vous distribuez un fichier, l'empreinte peut être données depuis votre page web, ce qui permettra aux utilisateurs d'en vérifier l'authenticité. Par exemple, à partir de la page de téléchargement de kubuntu, il est possible de récupérer les empreintes des images ISO à partir du fichier MD5SUMS. Les antivirus utilisent également cet outil. Ils peuvent calculer l'empreinte de l'ensemble de vos fichiers et si un virus contamine l'un d'eux, l'empreinte est modifiée et notre cher Avast va sonner l'alarme !

Signature d'une cellule

Quel rapport avec une cellule ? Et bien, la majorité de nos cellules possèdent à leur surface une empreinte formée par le complexe majeur d'histocompatibilité qu'on appelle plus couramment par son acronyme CMH. Toute modification de cette empreinte (par un virus par exemple), sera reconnue par le système immunitaire et déclenchera la mort de la cellule. C'est également à cause de ce même mécanisme que les greffes d'organes sont rejetées, car reconnues étrangères.

Les molécules du CMH.

Les molécules du CMH sont des glycoprotéines situées sur la membrane de la quasi totalité de nos cellules. Leur rôle est de présenter des courts fragments peptidiques au système immunitaire. Il en existe différents types, codés par des gènes localisés sur le bras court du chromosome 6 et regroupés en plusieurs classes. Dans cet article, nous nous intéressons uniquement à la classe I, composée des 3 gènes: HLA-A, HLA-B et HLA-C.
Ces gènes codent chacun pour une glycoprotéine membranaire composée d'un pochoir où se lie un peptide par complémentarité. Il s'agit donc d'une liaison spécifique, c'est à dire que les molécules HLA-A ne fixent pas les mêmes peptides que les molécule HLA-B.

La fonction de hachage cellulaire

Une cellule est définie par ses constituants. Dans notre cas, l'ensemble des protéines synthétisées par la cellule participera à la création d'une empreinte. Ces protéines sont découpées en petits fragments de 9 acides-aminées par le protéasome. Ceux-ci se fixent ensuite par complémentarité sur les molécules du CMH à destination de la membrane cellulaire.
La combinaison des peptides présentée à la surface est la signature ou l'empreinte de la cellule.

La reconnaissance du CMH

Les lymphocytes T cytotoxiques (TCD8) sont des globules blancs dont la mission est de tester l'intégrité des cellules en vérifiant leurs CMH par leurs récepteurs TCR. Ils reconnaissent à la fois la molécule du CMH et le peptide associé.
Au cours de la formation du système immunitaire, par un mécanisme encore non élucidé, les lymphocytes T deviennent tolérants aux peptides du soi. C'est à dire aux peptides présentés normalement par le CMH.
Plus tard, lors d'une infection par un virus, celui-ci génère de nouvelles protéines dans la cellule, dont les fragments se retrouvent présentés aux lymphocytes T via le CMH. Les lymphocytes reconnaissent alors l'intrusion, et peuvent sonner l'alarme déclenchant tout une cascade de processus aboutissant à la destruction des cellules infectées.

Le polymorphisme du CMH

Du point de vue d'un virus, la meilleure façon de réussir son intrusion, c'est de le faire incognito. C'est à dire en produisant des protéines non reconnues par les molécules du CMH, qui ne peuvent donc plus présenter les antigènes viraux (peptides) aux lymphocytes. Pour contrecarrer ces plans, il faut raisonner à l’échelle des populations. C'est la population qui s'adapte au virus et non l'individu.
La variation allélique du CMH dans la population est la plus grande du génome. Il existe [tableau] 1519 allèles du gène HLA-A, 2069 HLA-B et 1016 HLA-C. En rajoutant les allèles maternelles et paternelles, le nombre de combinaisons pour chaque individu est énorme. C'est-à-dire que deux individus non-apparentés ont une chance infime d'avoir l'ensemble de leurs molécules du CMH identiques. En prenant l'ensemble des molécules HLA de toute la population, aucune protéine virale ne peux se cacher.
Telle une armée de soldats possédant chacun une arme différente, chaque individu possède une combinaison unique capable potentiellement de reconnaître les protéines virales. Ça passe ou ça casse ! Les individus qui réussissent à reconnaître le virus sont sélectionnés avec leurs allèles et vont à leur tour enrichir le patrimoine des gènes du CMH.

Greffe et rejet

La variation allélique des gènes du CMH permet à une population de lutter contre un virus. En revanche, cela pose problème lors des greffes d'organes. Nous l'avons vu plus haut, les lymphocytes T reconnaissent aussi bien le peptide que la molécule du CMH. Un organe d'un donneur, ne possède pas les mêmes molécules HLA que le receveur. Cette greffe sera donc reconnue comme étrangère par les lymphocytes T du receveur. Pour y remédier, on peut utiliser des immunosuppresseurs qui musèlent le système immunitaire. Mais c'est surtout la recherche d'une compatibilité HLA qui est systématiquement recherchée lors d'une greffe. Plus les allèles sont proches et moins le rejet sera sévère. On cherche donc à typer le profil HLA du donneur et du greffé. On fait appel à une nomenclature internationale définie sur hla.alleles.org et qui donne un identifiant pour chaque gène HLA. La figure suivante identifie un allèle pour le gène HLA-A.

Conclusion

J'espère que vous avez un peu compris, même partiellement en lisant cet article. L'immunologie est une discipline assez complexe, et il m'est difficile de tout résumer en quelques lignes.
Retenez que chaque cellule dispose d'une empreinte composée de peptides et de molécules HLA. Toute modification soit du peptide ( virus ), soit du HLA ( greffe) est reconnu comme étrangère et entraîne l'activation du système immunitaire. L'homologie avec les systèmes de sécurités informatiques est flagrante. Et je pense que les ingénieurs ont tout à gagner à s'inspirer du meilleur système de défense biologique de la planète!

Références

Remerciement

@pausrrls

Les empreintes génétiques

2016-02-07T13:20:34+01:00

Envie d'identifier le criminel qui vous a volé au boulot votre bic 4 couleurs en votre absence ? Dans ce cas, cet article est fait pour vous ! Dans ce billet nous allons voir comment, à l'aide des séquences répétées dans le génome humain, il est possible d'identifier une personne en lui attribuant un « code-barres génétique ».
On se met tout de suite la musique des experts Manhatthan et on commence !

Les séquences répétées

10 % du génome humain est constitué de séquences d'ADN répétées en tandem. Il s'agit de séquences plus ou moins longues, appelées « noyaux », « motifs » ou encore « unités de répétition » (ex : GAAA), et se répètent successivement un certain nombre de fois (ex : GAAAGAAAGAAAGAAAGAAA).

Ces séquences répétées sont présentes partout dans le génome, principalement dans les télomères et les centromères. Parfois, ces séquences se trouvent à proximité de gènes codants et une modification du nombre de répétitions peut alors entraîner des répercussions cliniques. L'exemple type est la maladie de Huntington. Cette atteinte neurodégénérative héréditaire est caractérisée par une expansion de triplets CAG supérieure à 30 dans le gène HTT de l'huntingtine.
On distingue 2 types de séquences répétées en fonction de la taille du motif. Les minisatellites ou VNTR (Variable Number Tandem Repeat) contiennent un motif de 9 à 80 bases et les microsatellites ou STR (Short Tandem Repeat) un motif de 2 à 5 bases. Ce sont ces dernières qui sont utilisées pour l'identification des personnes par empreinte génétique.

Le polymorphisme

La variation du nombre de répétitions varie fortement dans la population. Par exemple, pour une position génomique donnée, un individu (bleu) pourrait avoir sur son chromosome paternel la répétition (CG)₆ et sur son chromosome maternel la répétition (CG)₈. Un autre individu (rouge) pourrait porter sur ses chromosomes les allèles (CG)₆ et (CG)₉.

L'identification de plusieurs régions répétées au sein du génome permet d'associer à un individu une combinaison unique. Une palette de 13 loci + 2 loci (oui, un locus... des loci) sur les chromosomes sexuels est aujourd'hui utilisée par la police scientifique pour identifier n'importe quel individu. Le caryotype ci-dessous montre la position et le nom de ces STR sur les chromosomes.

Identification des STR

Pour créer une empreinte génétique, il suffit tout simplement de mesurer la taille de ces 13 régions répétées en les amplifiant par PCR. Pour cela, pour chaque STR, on utilise un couple d'amorces flanquant le STR en question. Une des deux amorces est couplée à un fluorochrome qui permet ensuite l'identification de la séquence par électrophorèse capillaire. Les séquences des amorces sont disponibles ici.

À la fin de la PCR, on obtient des amplicons dont la taille est proportionnelle à celle du STR. Une analyse de fragments est ensuite réalisée à l'aide d'un séquenceur capillaire. En d'autres termes, les amplicons migrent dans un capillaire plus ou moins vite et leur temps de passage est mesuré lors de la détection du fluorochrome par un laser. Les résultats sont représentés par des pics de fluorescence dont la position sur l'axe des abscisses correspond à la taille du STR.
Prenons par exemple un individu homozygote pour le locus vWA. À ce locus, cet individu possède 4 répétitions TCTG à la fois sur le chromosome maternel et sur le chromosome paternel. Son génotype pourrait s'écrire : (TCTG)₄ / (TCTG)₄. Dans ce cas, la PCR amplifie des amplicons tous de la même taille et un seul pic est détecté avec l'analyse de fragments.

En revanche, si le patient est hétérozygote avec le génotype suivant : (TCTG)₄ / (TCTG)₅, on observe 2 pics et une diminution des amplitudes.

Pour créer une empreinte génétique, il suffit de refaire la même chose pour les 13 loci. On fait une PCR multiplexe en mélangeant tous les couples d'amorces et en discriminant chaque locus à l'aide de 4 fluorochromes différents ainsi que par des tailles de STR différentes. En traçant l'ensemble des pics, on obtient l'empreinte génétique. La probabilité que deux individus (non jumeaux) aient le même profil est extrêmement faible, de l'ordre de 10^-10.
Voici le profil d'un individu que j'ai trouvé sur Google !

On retrouve nos 13 loci ainsi que 2 loci sur les chromosomes sexuels XY, qui nous informent sur le sexe. Sur la première ligne en bleu, on peut observer 3 loci (TPOX, FGA et vWA). L'individu est hétérozygote pour le premier locus avec 2 allèles présentant 14 et 15 répétitions respectivement ; puis un deuxième locus également hétérozygote (18/20) et enfin un troisième locus, cette fois homozygote avec 24 répétitions. Vous pouvez refaire la même chose pour les autres loci et avoir le profil complet de cette empreinte génétique.
Notons également, que chaque allèle observé provient d'un des parents. Par exemple pour le premier locus (14/15), l'allèle 14 peut provenir de la mère et l'allèle 15 du père. En recherchant les empreintes génétiques chez les parents, nous pourrions confirmer le lien de filiation.

Conclusion

Voilà, vous savez faire une empreinte génétique. Vous allez maintenant pouvoir la comparer avec une banque de données. C'est aux États-Unis en 1994 que la première banque de données d'empreintes génétiques a été créée sous l'égide du FBI, sous le label CODIS. En France, suite à l'affaire du tueur parisien Guy Georges, la loi du 17 juin 1998 acte la création du fichier national (FNAEG). Il recense aujourd'hui 2 655 381 personnes.

Références

Remerciement

@Piplopp
@Oodnadatta

Un message immortel ...

2016-01-25T17:00:00+01:00

Imaginez que vous vouliez transmettre un message à votre arrière arrière arrière petit-fils, à l'instar du Professeur Brown dans Retour vers le futur 2. Quelles solutions envisagez-vous ? Une enveloppe en papier? Aucune chance, risque de perte ou de dégradation, ça ne marche que dans les films. Un Fichier numérique ? Vous voulez dire comme les photos numériques que nous avons tous perdu? C'est malheureusement encore moins fiable qu'une enveloppe.
Aujourd'hui, je vous propose mieux: écrire votre message dans votre ADN, et le laisser traverser le temps jusqu'à votre descendance! La réception est garantie à 100% !

De 10 doigts à 4 doigts

Pour écrire un nombre, nous utilisons les 10 symboles suivants [0,1,2,3,4,5,6,7,8,9]. On appelle ça un système de numération en base 10. Mais il est tout à fait possible d'utiliser plus ou moins de symboles. Par exemple, un ordinateur en utilise uniquement 2 ([1 et 0]), le nombre 3 en décimal s'écrit 11 en base 2, on appelle ça du binaire. Il existe d'autres systèmes de numération utilisés, comme l’hexadécimal 16 symboles [0,1,2,3,4,5,6,7,8,9,A,B,C,D,E] ou encore la base64 [caractère alphanumérique].
L'ADN est un support d'information numérique, au même titre qu'un disque dur ou qu'une clef USB. Sauf qu'au lieu d'utiliser du binaire, l'ADN utilise un système en base 4 à l'aide des symboles A,C,G,T. Il est donc tout à fait possible de basculer d'un système décimal vers un système de numération en base 4 et d'utiliser l'ADN comme support de l'information.

l'ASCII génomique

Pour écrire un message on peut utiliser la table ASCII. Celle-ci attribue à chaque lettre un nombre qui peut s'écrire en décimal, binaire, hexadécimal ... et en génomique, c'est-à-dire en base 4.
J'ai utilisé la librarie python-baseconv pour faire les conversions entre les différents systèmes de numération. Par exemple, la lettre Z s'écrit 90 en décimal, 5A en hexadécimal, 1011010 en binaire et enfin CCGG en génomique. A partir de là, il suffit pour un message donné, de remplacer chaque lettre par sa représentation génomique et obtenir la séquence de nucléotide que nous allons intégrer dans votre génome!
Je vous ai fait un script JS pour que vous pussiez tester directement en ligne ! Cliquer sur Décoder pour convertir la séquence en texte. Vous pouvez aussi encoder du texte en séquence en cliquant sur Encoder. Attention, n'utilisez que des lettres de l'alphabet ! Pas de nombre ni de caractère spéciaux!

ASCII genomic convertor

Copier, Couper, Coller

Nous avons la séquence. Comment l'insérer dans notre ADN ? Bon on ne va pas l'insérer dans toutes vos cellules, car uniquement les spermatozoïdes/ovocytes vont transmettre l'information à votre descendance. On aurait pu partir sur une stratégie de transfection virale. C'est-à-dire utiliser un virus dans lequel votre message est inséré, et infecter vos cellules germinales. Sur ce coup, je pense que ça va être difficile de trouver le virus! Peut être le virus ourlien qui provoque les oreillons et qui touche les testicules, mais pas sûr... Je vous propose plutôt d'utiliser le tout dernier outil de biotechnologie, qui aboutira sûrement au prochain prix Nobel français, je parle bien sur du complexe enzymatique CRISPR-CAS9, le couteau suisse de l'ADN. Ce complexe est capable de découper l'ADN à un endroit précis et d'y insérer n'importe quelle séquence d'ADN. C'est un outil assez révolutionnaire, un article entier y sera bientôt consacré. Contentez vous de cette vidéo pour l'instant:

Pour modifier nos spermatozoïdes, nous pourrions d'abord faire une biopsie testiculaire, extraire les cellules souches (spermatogonies) et insérer le message dans leurs ADN à l'aide de CRISPR-CAS9, comme l'illustre cet article avec un premier succès chez le rat. Enfin, ces spermatogonies pourront être mis en culture pour devenir des spermatozoïdes compétents, grâce au succès récent d'une équipe française qui a réussi la culture des spermatogonies.
Voila, Il ne reste plus qu'à réaliser une fécondation in-vitro, et votre enfant disposera du message dans toutes ses cellules y compris dans ses spermatoizoïdes. A la prochaine génération, la moitié de son génome se diluera avec le génome de sa compagne ( votre belle-fille). Vous avez donc intérêt à dupliquer le message un peu partout sur son génome. Par exemple, en insérant le message sur le chromosome Y, vous êtes certain que votre arrière arrière arrière petit-fils héritera du message car le chromosome Y se transmet de père à fils.
De même si vous arrivez à modifier l'ADN mitonchondriale d'un ovocyte chez votre compagne, c'est votre descendance féminine qui heritera du message.

Et les mutations ?

Bon on a oublié de prendre en compte les mutations. Plus on descend dans les générations, plus grand sera le risque de mutation. Par exemple des crossing-over.ou des mutations ponctuelles. En augmentant le nombre de messages, votre descendant pourra retrouver le message originel en faisant des alignements multiples entre tous les séquences. Mais bon, d'ici que le message ait disparu complètement, il faudra un certain temps! Je vais me pencher sur ce calcul d’ailleurs!

Conclusion

Bon, j'ai un peu déliré dans ce poste. Mais pourtant, derrière cette histoire se cache une réalité qui à le goût de Bienvenue à Gattaca. En effet, on peut ajouter un message, mais pourquoi pas modifier vos gènes. Supprimez toutes les maladies génétiques jusqu'à garder uniquement les grands bruns au yeux bleus. Une équipe chinoise a d'ailleurs franchi le pas en modifiant des embryons humains. Nous ne sommes pas encore au niveau de ce film mais la technologie semble disponible! Gardez juste à l'esprit que l'eugénisme en diminuant la variabilité des individus est un puissant frein à l'évolution du vivant...

Référence

Remerciement

Merci à @Piplopp pour les corrections

Le filtre de bloom

2016-01-16T17:00:00+01:00

Un filtre de bloom est une structure de donnée permettant de savoir si un élément est présent ou non dans une liste. Cette structure est très efficace d'un point de vue mémoire lorsque vous travaillez sur de grande liste. En python, l'utilisation d'un filtre de Bloom peut s'écrire :

L = ["mario","zelda","daisy"]
has_item(L,"sonic") # Return False 
has_item(L,"mario") # Return True

Le revers de la médaille, c'est qu'avec cette méthode il existe des faux positifs, c'est à dire que la fonction renvoie Vrai alors que le mot n'est pas dans la liste... Inutile vous me direz ? Non, car dans certain cas, on se fiche des faux positifs. Par exemple, on peut être amené à savoir si un mot est bien absent de la liste. Et dans ce cas, c'est tout à fait possible avec les filtres de Bloom, car il n'y a pas de faux négatifs!
Dans d'autre cas, notamment dans l'analyse des Big data, les performances d'un algorithme sont prioritaires au risque de faux positifs. On pourra alors paramétrer l'algorithme de façon à minimiser le nombre de faux positifs.

Fonction de hachage

Les filtres de Bloom utilisent des fonctions de hachage. Une fonction de hachage est une fonction qui, à partir d'une entrée renvoie une "empreinte" ou encore une "signature" permettant d’identifier l'entrée. Les fonctions de hachage sont utilisées dans de nombreux cas, notamment en cryptographie ou dans les structures de données de type dictionnaire.
Dans le cas des filtres de Bloom, une fonction de hachage renvoie un unique entier compris entre 0 et n, choisi de façon uniforme. On peut créer autant de fonction de hachage qu'on le désire.

# Une fonction de hachage 
hash1("mario") # Return 3
hash1("zelda") # Return 4
hash1("daisy") # Return 3 .. Collision
# Une autre fonction de hachage
hash2("mario") # Return 7
hash2("zelda") # Return 5
hash2("zelda") # Return 3
# Encore une autre ... 
hash3("mario") # Return 54

Attention tout de même! Avec des fonctions de hachage il peut se produire des collisions, c'est-à-dire que pour deux entrées différentes il y a un même hash. En jouant avant la taille de n et connaissant les entrées, on peut minimiser la probabilité de collision.

Utilisation du filtre de bloom

L’utilisation d'un filtre de Bloom comprend 2 étapes. La première consiste à hacher tous les éléments de notre liste et les "installer" dans un vecteur booléen de taille n en utilisant k fonctions de hachage différentes.
La deuxième, teste la présence d'un élément en recherchant son hash dans ce vecteur booléen .

Création du vecteur booléen

Choisissons pour l'exemple, un vecteur de taille n=10, et initialisons le avec des zéros. Puis choissons k=3 fonctions de hachages différentes, que nous notons h0,h1 et h2. Les hashs obtenus correspondent à une position dans le vecteur. Les valeurs possibles des hashs doivent être alors comprises entre 0 et 9.

Enfin, commençons par installer notre liste, avec le première élément "mario", comme l'illustre la figure suivante :

Ajoutons maintenant le mot "zelda" :

Avec le mot "zelda", il y a eu collision avec la fonction de hashage h2. C'est ce qui est l'origine des faux positifs.

Test de présence

Si vous avez compris jusque là, vous devriez comprendre comment tester la présence du mot "sonic". Si le mot a été "installé" , alors nous devrions retrouver tous les hashs obtenus par les 3 fonctions de hachages sur le mot "sonic". Ce qui n'est pas le cas ici, comme l'illustre la figure suivante. Le mot sonic n'est pas présent dans la liste.

Estimation des faux positifs

Avec cette algorithme, il n'y a jamais de faux négatifs, mais des faux positifs. C'est-à-dire le fait de répondre qu'un élément est présent alors que non.
Pour compenser ce problème, nous pouvons créer le filtre de façon à minimiser le nombre de faux positifs via les 3 paramètres suivants :

n = La taille du vecteur booléen (10)
m = Le nombre d'élément d'une liste (3)
k = Le nombre de fonction de hachage (3)

Considérons une position j dans notre vecteur. La probabilité qu'une fonction de hachage fasse passer la valeur de j de 0 à 1 est de $\frac{1}{n}$. L'inverse, c'est-à-dire la probabilité que la valeur de j ne change pas, est donc de $1-\frac{1}{n}$.
Après avoir rempli le vecteur booléen, avec m élément et k fonction de hachage, la probabilité de ne pas changer j est donc de $(1-\frac{1}{n})^{km}$.
Cette équation peut se réduire en considérant l'égalité approximative suivante:

$(1-\frac{1}{n})^n\approx \frac{1}{e} = e^{-1}$

L'équation précédente peut se réduire alors :

$(1-\frac{1}{n})^{km} \approx e^{\frac{-km}{n}}$

Au final, la probabilité d'avoir des faux positifs équivaut à la probabilité d'avoir toutes les positions du vecteur booléen à 1, pour les k fonctions de hachage. On obtient ainsi la formule finale suivante :

$P_{faux-positif} = ( 1 - e^{\frac{-km}{n}})^k$

Application

Sachant que nous avons une liste de m élément, quelles sont les valeurs de k et n que nous pouvons choisir pour atteindre une probabilité p de faux positifs ? En faisant un peu d'algèbre, la meilleure valeur de k est : k = $ln(2)\frac{n}{m}$
Et le rapport suivant doit être satisfait: $\frac{n}{m} = 0.7ln(\frac{1}{p})$.

Par exemple, pour atteindre une probabilité $p<\frac{1}{1000}$, il suffit de choisir $\frac{n}{m} > 0.7ln(1000) \approx 7$. Avec m = 1000 éléments on choisira donc n = 7000 et k = 5.
Pour plus d'information sur la démonstration mathématique, regardez la vidéo youtube en référence.

Conclusion

Avec toutes ces explications, vous pouvez je pense, réaliser votre propre filtre de Bloom. Utiliser la librairie cityhash pour les fonctions de hachage, ça devrait marcher. Mais si vous avez la flemme, j'ai vu qu'il existait une librairie toute faite pybloom. L'article sur le blog de Max Burstein est plus orienté code et explique pas à pas la création en python d'une class BloomFilter.
Enfin, pour les bioinformaticiens, je vous invite à lire cette article : Efficient counting of k-mers in DNA sequences using a bloom filter.

Référence

La transformation de Burrows-Wheeler

2015-10-24T15:37:04+02:00

Au temps ou le téléphone portable était un objet de luxe et de démesure, la seule façon d'envoyer un message pendant un cours de philosophie, était d'utiliser un petit bout de papier que l'on faisait passer d'élève à élève. Il fallait écrire en petit pour maximiser la quantité d'information transmis lors d'un envoi. De plus, pour éviter toute interception du message par le professeur certains avaient recours à des cryptages plus ou moins efficaces. A cette époque, ou je programmais sur calculette Ti-82 pendant mes cours de philo, j'aurais aimé connaître l'algorithme de la transformation de Burrows-Wheeler. J'aurai pu économiser encre et papier en compressant l'information de mes messages, mais surtout je me serais éclaté à coder un encodeur/décodeur de petits mots sur ma calculette.
En effet, cette algorithme est utilisé dans 2 cas particuliers. La compression que nous allons aborder dans cette article, mais aussi l'indexation utilisée dans la recherche de motif textuel. Ce dernier point fera l'objet d'un prochain article.

Compression du texte

Une technique de compression appelée codage par plages, souvent utilisée dans la compression d'image, consiste à remplacer des répétitions par le nombre d'occurrence de cette répétition. Par exemple, on peut remplacer la suite de pixel suivant :

jaune-jaune-jaune-jaune-jaune-rouge

par :

5jaune - rouge

On peut appliquer cette méthode sur une chaîne de caractère. C'est à dire en remplaçant les répétitions de lettres consécutives par leurs nombres d’occurrences. Par exemple, avec le mot "anticonstitutionnellement" On obtient :

anticonstitutio2ne2lement

Pas très efficace n'est ce pas ? En effet, remplacer 2 lettres par 1 chiffre + 1 lettre, ne diminue pas la longueur du message. il faudrait des répétitions de 3 lettres au minimum pour être compressible, et c'est rarement le cas dans un texte. C'est ici qu'intervient l'algorithme de Burrows-Wheeler. Il s'agit d'une transformation réversible d'une chaîne de caractère vers une autre ayant la propriété d'avoir des lettres identiques contiguës. Il est alors possible de compresser cette chaîne plus efficacement.

Transformation de Burrows-Wheeler

Dans ce qui suit, nous allons faire la transformation de Burrows-Wheeler en utilisant le mot "banane".
Tout d'abord, rajoutons le caractère "$" à la fin du mot: banane$. Lorsque l'on range des lettres dans l'ordre lexicographique, le "$" se situe avant la lettre "A", de la même façon que le "B" se trouve avant le "C". Ce caractère nous servira de repère par la suite.
Puis, nous allons créer la matrice suivante en décalant chaque ligne d'une lettre, en faisant une sorte de rotation (Figure ci dessous). La matrice obtenue est de taille L x L ou L est la longueur du mot.

Une fois la matrice construite, nous ordonnons les lignes dans l'ordre lexicographique. Les lignes commençant par un "A" sont en haut, et ainsi de suite. Nous obtenous alors la matrice ci-dessous. La transformation de Burrows-Wheeler correspond à la dernière colonne. C'est aussi simple que ça.

La transformation du mot "banane", donne "ebn$naa". Et comme vous pouvez le constater, certaines lettres identiques sont réunies.
Bon, c'est pas très impressionnant avec le mot banane. Mais avec le mot anticonstitutionnellement, on obtient : t$inlmtttleenooeaicnnnusit. Et cette fois, on observe des répétitions de plus de 2 lettres, qui nous permet de compresser le mot de cette façon :

t$inlm3tl2en2oeaic3nusit    #24 lettres
anticonstitutio2ne2lement   #25 lettres

Toujours pas impressionné ? Essayons cette fois avec un extrait de l'origine des espèces :

Texte original ( 1102 lettres )

Let it also be borne in mind how infinitely complex and close-fitting are the mutual relations of all organic beings to each other and to their physical conditions of life; and consequently what infinitely varied diversities of structure might be of use to each being under changing conditions of life. Can it, then, be thought improbable, seeing that variations useful to man have undoubtedly occurred, that other variations useful in some way to each being in the great and complex battle of life, should occur in the course of many successive generations? If such do occur, can we doubt (remembering that many more individuals are born than can possibly survive) that individuals having any advantage, however slight, over others, would have the best chance of surviving and of procreating their kind? On the other hand, we may feel sure that any variation in the least degree injurious would be rigidly destroyed. This preservation of favourable individual differences and variations, and the destruction of those which are injurious, I have called Natural Selection, or the Survival of the Fittest

Compression ( 893 lettres )

2t.e,?d?le.yftxt;g,rsgtshgxotd,2hc4en,trdydgldetyeldhe3ofy2erIdnsd,telrgn2etwt2etnre3fotf2enyedoysne2sedselne,lhetr,rnsfle2,rnfyflyfne)g,gfrend2nengo,feyesldgef2syrtdyen,yes, e2snrent2edtds2edesd4 $5 rb3e trcuvu c2u hmC2ch7 2hgv 2m4 5v2e6heivl3irbN4hfmwo8 m 2ai2 2u2i3 u3o2nci2aua9 oueu3cel3nelnl4nenen n3 2n 3nie2 n3ia3hrbv2hwvhnlrerhwrhlscbhbrvrbsvmsvglfs2f3 l2r2lirytrsf2sdbe2b2herS2tmrhrgushdh2vhnfbhvscirctb2dLw2l8oI4o 3i fi2n-2e9nra iu2in en5ctc c2tw3t4 16twT2ts2 3gp4rsnshg3vrt3ldmlr6 mk5 2vtgeret2e2f2 11t2r2eh2 2ns2dFfvsv4dv2n 3aualaeue3ubtb el2p3 s2ac3ae2dbet4 eoe3 2oi 2aoai2oair3iOaeoae3ai5aiu2o3iure11iaia4i8oae4as4tdtr3 r12 s2c4i2c7ic m 2bhlp4 2dh2whvc2i 2hr 2m2 m 4euieieoe3ueaoa2uagcrg (epo5a e2u2o2ptueue2te3ue2l3neig2n2unrnru2o 2une syrs l o3ea2e6 sbi2ah2sh2ae3ahinb2it18 4o2 it3a2ca2i4atn5 3s2iauacdt2d2o2s2rqo2f3o2 2co2ts2jcoS2s2o3 mid5 rai2aioe5ia3rao3 o4 2en2lanlnlan2loh

Suffixe Array

Si vous avez compris comment réaliser une Burrow-Wheeler, attendez avant de vous jeter sur l’implémentation du code et la création d'une matrice...
Avez-vous pensé à la mémoire? Un texte de 100 000 mot, nécessite de construire une matrice de L x L, soit 100 000 * 100 000 = 10^10 bytes ! Ça fait beaucoup pour pas grand chose.
Heureusement une autre méthode basée sur les suffix array permet d'économiser votre temps et votre mémoire pour réaliser cette transformation.
La suffix array, d'un mot, est l'ensemble des suffixes de ce mot.
Par exemple, le mot banane$ , possède les suffixes suivant avec leurs rangs correspondants :

Si nous ordonnons cette liste de suffixe dans l'ordre lexicographique, et que nous la comparons avec la matrice précédente, vous pouvez trouver une relation en faisant marcher vos méninges.

En effet, on observe que la nième lettre de la transformation de Burrow-Wheeler correspond dans le mot banane, au rang du suffix soustrait de 1... Rien compris? C'est normal. Lisez la suite, pour comprendre.
Regardez le 6ème suffixe, "nanes$" , il est de rang 2. Puis chercher dans le mot banane$ en bas, la lettre à l'index 2-1, soit l'index 1 . Il s'agit de la lettre "A" qui correspond bien à la 6ème lettre de la transformation de Burrow-Wheeler.
Si vous avez pigé, il n'y a plus besoin de créer de matrice. La dernière colonne peut directement être obtenu en utilisant le suffix arrays. Vous avez juste besoin de créer une fonction qui retourne les rangs des suffixes après les avoir ordonnés lexicographiquement.
Parfois un algorithme vaut mieux qu'une explication :

def suffixArray(s):
''' creation du suffixe array avec leurs rangs ordonnés ''' 
satups = sorted([(s[i:], i) for i in range(0, len(s)+1)])
return map(lambda x: x[1], satups)

def bwt(t):
    ''' transformation de Burrow-wheeler ''' 
    bw = []
    for si in suffixArray(t):
        if si == 0:
            bw.append('$')
        else:
            bw.append(t[si-1])
    return ''.join(bw)

Inverser la transformation

C'est bien gentil tout ça, mais comment fait on marche arrière ? Comment à partir de la transformation de Burrow-Wheeler revenons nous au texte original?
Tout d'abord, nous allons créer la première ( LC: Left Column ) et la dernière colonne (RC Right Column) de la matrice. La dernière colonne, c'est le texte transformé que nous avons en entrée. La première se calcule facilement, il suffit d'ordonner lexicographiquement les lettres de la dernière colonne.

Je ne vais pas vous le détailler ici, mais sachez que le rang des lettres dans la colonne de gauche correspond au même dans la colonne de droite. C'est à dire que le premier "A" de la colonne de gauche correspond au premier "A" de la colonne de droite. De même le deuxième "N" de la colonne de gauche est le même que le deuxième "N" de la colonne de droite.
D'autre part, en se rappelant comment est construite la matrice, chaque lettre de la colonne de droite précède, dans le mot original, la lettre de la colonne de gauche.
Sachant tout cela, on va pouvoir récrire le mot original en l'écrivant de droite à gauche.

On part de la première ligne, et on lit toujours dans la colonne de droite. La première lettre correspond a "E1", c'est la dernière lettre du mot banane. On recherche ce même "E1" dans la colonne de gauche. La lettre qui précède ce E est le "N2". C'est l'avant dernière lettre du mot banane. On recherche de la même façon ce "N2" dans la colonne de gauche. La lettre qui le précède est "A2", c'est l'avant avant dernière lettre du mot banane etc....
En continuant ce processus, l'intégralité du mot qui a servi d'entrée à la transformation de Burrow-wheeler est retrouvé.
Et voici le code qui parlera plus à certain :

def rankBwt(bw):
''' Retourne les rangs ''' 
    tots = dict()
    ranks = []
    for c in bw:
        if c not in tots:
            tots[c] = 0
        ranks.append(tots[c])
        tots[c] += 1
return ranks, tots


def firstCol(tots):
''' retourne la premiere colonne ''' 
    first = {}
    totc = 0
    for c, count in sorted(tots.iteritems()):
        first[c] = (totc, totc + count)
        totc += count
    return first

def reverseBwt(bw):
''' Retourne le texte original de la transformation bw '''
    ranks, tots = rankBwt(bw)
    first = firstCol(tots)
    rowi = 0
    t = "$"
    while bw[rowi] != '$':
        c = bw[rowi]
        t = c + t
        rowi = first[c][0] + ranks[rowi]
return t

Conclusion

La transformation de Burrow-Wheeler, est utilisé en compression des données, notamment dans l'algorithme de compression Bzip2. Mais une autre utilisation en bioinformatique, est la recherche de plusieurs chaînes de caractères dans une plus grande, à l'aide d'un index appelé FM-Index. L'algorithme Bowtie2 et BWA sont deux exemples d'utilisation de cette index. Ils permettent de retrouver rapidement, des séquences dans le génome humain. Nous verrons cette partie dans un prochain article !

Référence

Renommer ses fichiers avec MMV

2015-07-23T22:55:29+02:00

Cela vous est forcément déjà arrivé de devoir renommer une longue liste de fichiers. Pour les plus fainéant d'entre vous, vous allez cliquer sur un fichier, un par un , puis faire "F2" pour renommer. Bon, ça passe, avec 10 fichiers, mais pour certaine personne, renommer plus de 3 fichiers de cette manière c'est déjà trop! Imaginez que vous voulez renommer toutes votre bibliothèque de série légale sous une forme serie01e04.avi, vous risquez de passer un bon bout de temps pour un résultat pas garantie. Heureusement, il existe plein de logiciels graphiques gratuits comme Rename-it ou Bulk Rename pour vous aidez. Mais voilà, nous, on préfère les techniques de Jedi avec notre console Linux pour en mettre plein les yeux à nos copains.

MMV : Mass Rename of files

Comparé à d'autres outils comme rename, mmv permet de faire des choses simples sans utiliser d'expression régulière! Elle utilise la syntaxe de bash avec des étoiles (*), des points d'interrogation (?) ou encore des crochets ( [] ). Dans la plus part des cas, vous allez faire des choses simples... C'est donc l'outil idéal.
Par exemple, imaginez que nous ayons des fichiers avec l'extension jpg que nous voulons renommer en jpeg :

file_001_loremipsum.jpg  
file_002_dolor.jpg  
file_003_sit.jpg  
file_004_amet.jpg  
file_105_randomness.jpg

On utilise alors la commande mmv avec la syntaxe mmv -n "from" "to".
Le paramètre "-n" permet d'ignorer la commande et vous affiche uniquement le résultat escompté. Effacez le, une fois satisfait pour appliquer les changements.

>mmv -n "*.jpg" "#1.jpeg"

file_001_loremipsum.jpg -> file_001_loremipsum.jpeg
file_002_dolor.jpg -> file_002_dolor.jpeg
file_003_sit.jpg -> file_003_sit.jpeg
file_004_amet.jpg -> file_004_amet.jpeg
file_105_randomness.jpg -> file_105_randomness.jpeg

Le caractère étoile(*) du from est substitué par l'indice #1. Il y a autant d'indice que d'étoile. Cela nous permet de faire des trucs marrants comme :

>mmv -n "file_*_*.jpg" "#2-file-#1.jpg"

file_001_loremipsum.jpg -> loremipsum-file-001.jpg
file_002_dolor.jpg -> dolor-file-002.jpg
file_003_sit.jpg -> sit-file-003.jpg
file_004_amet.jpg -> amet-file-004.jpg
file_105_randomness.jpg -> randomness-file-105.jpg

Majuscule / Minuscule

On peut aussi s'amuser à changer la case en rajoutant avant l'indice, un "l" (lowercase) ou "u (uppercase)".

>mmv -n "file_*_*.jpg" "#u2-file-#1.jpg"

file_001_loremipsum.jpg -> LOREMIPSUM-file-001.jpg
file_002_dolor.jpg -> DOLOR-file-002.jpg
file_003_sit.jpg -> SIT-file-003.jpg
file_004_amet.jpg -> AMET-file-004.jpg
file_105_randomness.jpg -> RANDOMNESS-file-105.jpg

Autres expressions

Vous pouvez également utiliser le caractère "?" pour designer un seul caractère et les crochets "[]" pour faire une sélection.
Imaginons que nous ayons 4 fichiers :

1.png
2.png
3.png
4.png

Et que nous voulons renommer uniquement les 3 premières fichiers. Nous utiliserons alors les crochets de cette façon :

>mmv -n '[1-3].png' 'test#1.png'

1.png -> test1.png
2.png -> test2.png
3.png -> test3.png

Autres méthodes

Pour des choses plus complexe, comme l'utilisation d'expressions régulières, il faudra se tourner vers l'outil rename qui reprend la même syntaxe que perl.

Référence

Naviguer dans le Génome humain

2015-04-06T16:25:55+02:00

Dans ce post, nous allons voir comment naviguer dans le génome humain. Celui ci a été entièrement séquencé grâce à un consortium international de chercheurs au sein du Human Genom Project entre 1990 et 2003. Ce génome fait environ 3 milliards de bases, soit un fichier texte d'environ 3 GigaOctets que vous pouvez télécharger ici. Aujourd'hui, le génome accompagné de ses annotations est disponible intégralement sur internet par l’intermédiaire de bases de données publiques.
Pour se repérer dans ces méandres de données, il nous faut comprendre l'organisation du génome et connaître les différents systèmes de coordonnées et leurs nomenclatures. Ce post sera donc le prélude à votre voyage.

L'ADN

L'ADN est une longue molécule localisée dans les noyaux de nos cellules qui constitue un support biologique d'information. Au même titre qu'un fichier binaire, l'information est stocké numériquement. C'est à dire qu'au lieu d'utiliser 2 symboles comme un fichier binaire (1 et 0), l'ADN utilise 4 symboles matérialisés par les 4 bases azotées Adénine(A), Cytosine(C), Guanine(G), Tymine(T). D'ailleurs il est tout à fait possible de stocker des données informatiques dans un brin d'ADN comme le suggère ce post .

Ces bases sont agencées linéairement sur un brin par l’intermédiaire d'un sucre (le désoxyribose) qui se lie à ses voisins par un liaison phosphodiester, soit par son carbone en 5' soit par son carbone en 3'(Voir schéma ci dessus). Un brin d'ADN est ainsi polarisé, avec deux extrémités libres différentes (5' et 3'), et sa lecture se fait toujours dans le sens 5' vers 3'. C'est en effet dans ce sens, et uniquement dans ce sens, que s'effectue la synthèse ou polymérisation de l'ADN. Sur la figure précédente, le brin d'ADN de gauche est lu 5'-ATCG-3'.
L'information codé sur un brin d'ADN est doublée par la présence d'un brin complémentaire anti-parallèle (à droite). Celui-ci se forme par les liaisons hydrogènes entre A et T d'une part et C et G d'autre part. Les deux brins réunis forment la double hélice d'ADN. Cette parité de l'information autorise une correction d'erreur en cas de perte de base sur l'un des deux brins. Ce mécanisme évoque d'autres systèmes de correction, utilisé cette fois en informatique, comme le parity bit. La séquence complémentaire étant anti-parallèle, elle se lit du bas vers le haut. Soit 5'-CGAT-3' .

Le génome humain

Le génome humain est constitué d'une longue séquence de 3,2 milliards de bases réparties sur 24 chromosomes. Chaque chromosome est constitué d'une molécule d'ADN double brin.

Il ne faut pas confondre le génome humain avec le genotype d'une personne. En effet, chaque individu est l'expression de deux génomes combinés: Le génome maternel et le génome paternel. Chacune de nos cellules possède ainsi 22 paires de chromosomes et une paire de chromosome sexuelle XX ou XY.

Un ou plusieurs génomes ?

La variabilité du génome humain est responsable de la diversité de notre espèce. Chaque personne possède une séquence d'ADN qui lui est propre. Pourtant, on parle "du génome humain" comme d'une seul entité.
Il s'agit en fait, d'une séquence consensus réalisée à partir de plusieurs individus où chaque base d'une position est la plus représentative parmi les génomes testés. On appelle ça un «genome assembly». Cette séquence est continuellement mise à jour par le GRC (Genome Reference Consortium). À ce jour, la dernière version du génome humain est la GRCh38 disponible sur NCBI. Vous pouvez également le trouver sur UCSC sous le nom hg38. Attention toute fois, la précédente version GRCh37 du NCBI correspond à la version hg19 de UCSC.
Ce génome, comme n'importe quelle séquence d'ADN, est sauvegardé dans un fichier texte dont le format standard est le fasta. Il existe aussi un format binaire 2bit, ou chaque base est codé sur 2 bits au lieu de 8 bits. Tout le génome humain passe alors de 3 Gigaoctets à 750 Megaoctets. Mais celui-ci étant moins pratique on lui préfère le fasta. (exemple ci dessous)

    >maSequence1 commentaire
    GTGCCGAGCTGAGTTCCTTATAAGAATTAATCTTAATTTTGTATTTTTTCCTGTAAGACAATAGGCCATG
    TTAATTAAACTGAAGAAGGATATATTTGGCTGGGTGTTTTCAAATGTCAGCTTAAAATTGGTAATTGAAT
    GGAAGCAAAATTATAAGAAGAGGAAATTAAAGTCTTCCATTGCATGTATTGTAAACAGAAGGAGATGGGT
    GATTCCTTCAATTCAAAAGCTCTCTTTGGAATGAACAATGTGGGCGTTTGTAAATTCTGGAAATGTCTTT
    CTATTCATAATAAACTAGATACTGTTGATCTTTTAAAAAAAAAAAA

Essayez pour voir, de lire le fichier que vous avez téléchargé plus haut. Pour ceux qui sont sous linux, la commande less fera l'affaire. Ce fichier est le génome humain dans sa version hg38. Il contient toutes les séquences réparties sur les 24 chromosomes avec aussi l'ADN mitochondrial. Chacune de ces séquences est séparée par une ligne commençant par '>' associé au nom du chromosome.
Depuis ce fichier, vous pouvez localiser n'importe quel gène... Mais avant ça, il faut savoir comment se localiser!

Se localiser dans le génome

Les coordonnées chromosomiques

Un chromosome est composé d'un bras court (p) et d'un bras long (q), séparés par un centromère. Grâce aux colorations réalisées en cytogénétique, on distingue des régions contenant des bandes qui elles-mêmes contiennent des sous-bandes.
Les numéros des régions, des bandes et des sous-bandes sont attribués dans l'ordre croissant, depuis le centromère vers les extrémités appelées télomètres (Voir schéma ci dessus). Ainsi, pour localiser une zone d’intérêt dans le génome en coordonnées chromosomiques. on s'aide de la nomenclature suivante:

{chromosome}{bras}{region}{bande}.{sous-bande}

Par exemple, le gène CFTR impliqué dans la mucoviscidose se trouve dans la zone 7q31.2. C'est à dire sur: le bras long du chromosome 7, la 3ième région, la bande 1, la sous-bande 2 . La résolution d'une sous bande est de l'ordre de 2 millions de base. Ces coordonnés permettent uniquement de cibler des grandes zones du génome et sont principalement utilisées dans la détection de grandes mutations par les cytogénéticiens, à l'aide de techniques comme le caryotype, la FISH ou la CGH array.

Les coordonnées génomiques

Contrairement aux coordonnées chromosomiques, la résolution des coordonnées génomiques est de 1 base. La première base d'un chromosome depuis l'extrémité 5' du bras court, porte le nombre 1 (au grand malheur des développeurs qui auraient voulu commencer à zéro). La dernière base à l'extrémité 3' du bras long porte le nombre le plus élevé. Pour sélectionner une région, on s'aide de cette nomenclature:

{chromosome}:{position_début}-{position_fin}

Par exemple, le gène CFTR se trouve exactement dans la zone 7:117465784-117715971.
Je vous invite à tester par vous même en utilisant l'API publique de Ensembl. En substituant les derniers paramètres, vous allez pouvoir récupérer la séquence du gène CFTR au format Fasta:

* http://rest.ensembl.org/sequence/region/human/7:117465784..117715971:1 *

Maintenant, je suis sûr que vous allez vous demander un jour (si ce n'est pas tout de suite), comment récupérer la séquence du brin complémentaire. Celle que nous avons obtenue s'appelle la séquence forward. La séquence complémentaire, s'appelle séquence reverse et correspond aux bases complémentaires, mais attention, elle est orientée dans le sens 3'5'. Hors nous avons vu que toutes séquences s’écrient toujours dans le sens 5'3'. Il faut donc retourner la séquence pour pouvoir la lire.
La requête suivante récupère donc le brin reverse:

*http://rest.ensembl.org/sequence/region/human/7:117465784..117715971:-1 *

Observer le schéma ci dessous, pour bien vous familiariser avec cette nomenclature. Dans ce schéma, un séquence de 10 bases à été sélectionnée.

Les coordonnées génomiques sont utilisées en génétique pour localiser des zones précises du génome et pour décrire précisément des mutations. Par exemple la notation chr1:g.35227587C>G correspond à la substitution d'un C par un G en position 35227587 sur le chromosome 1.

Les coordonnées exoniques

Au lieu d'utiliser le génome entier comme repère, on peut se servir du gène. Dans ce contexte, un gène est une séquence pouvant être transcrite et traduite en protéine. Un gène est composé d'introns (non transcrits) et d'exons (transcrits).
Lorsqu'on se repère en coordonnée exonique, on doit obligatoirement faire référence à un gène. Puis on donne le numéro 1 à la première base qui sera traduite, c'est à dire le A du codon initiateur ATG. Comme d'habitude il n'y a pas de numéro 0... « soupir »
Toutes les bases avant le codon initiateur sont numérotées -1, -2 etc. Les bases après le codon stop mettant fin à la traduction sont numérotées 1* , 2* ** etc.
Les introns sont numérotés par rapport à l'exon le plus proche. Pour le début de l'intron e+1, e+2 etc.. et pour la fin e-1, e-2 etc...
Cette nomenclature est définit par l'HGVS. Elle est utilisé majoritairement pour décrire les mutations retrouvées dans l'ADN. Je détaillerai cette nomenclature dans un prochain post. Notons juste comme exemple, la mutation principale retrouvée dans la mucoviscidose, une délétion de 3 bases (CTT) responsable d'une perte de phénylalanine dans la protéine CFTR se note : c.1521_1523delCTT **

Conversion entre systèmes de coordonnées

Convertir des coordonnées exoniques en génomiques n'est pas aussi simple qu'il n'y parait. En effet, un gène peut se trouver sur le brin forward ou reverse. Or, comme nous l'avons vu précédemment, les coordonnées génomiques sur le brin reverse se lisent à l'envers. Donc pour un gène situé sur le brin reverse, les positions 1,2,3,4 ( ordre croissant ) en cordonnées exoniques se lirons 1000, 999, 998 (ordre décroissant) en coordonnées génomiques. Faite un dessin, vous comprendrez... !
De plus pour compliquer le tout, les coordonnées génomiques varient en fonction de la version du génome que vous utilisez. Les coordonnées en GRCh38 ne sont pas les mêmes que ceux en GRCh37.
Vérifiez toujours, lorsque vous étudiez un gène, sur quel brin vous êtes et quel génome vous utilisez. Aidez vous des outils pour faire vos conversions. Ensembl dispose d'une API REST pour faire ce mapping de coordonnées [ici].http://rest.ensembl.org/documentation/info/assembly_cdna)

Travaux appliqués

Pour s’exercer avec ce que vous avez appris, et faire plaisir à un ami du psylab, essayons de rechercher des informations sur un gène, le gène CACNA1C impliqué dans la schizophrénie.
Pour cela, allez sur le site ensembl et recherchons le gène CACNA1C dans la barre de recherche.
Vous retrouverez alors toutes les informations utiles à propos de ce gène sur cette page.

Il s'agit d'un gène situé sur le chromosome 12, en position génomique 1970786-2697950 orienté sur le brin forward. Ce gène se trouve en position p13.33, soit une région du bras court du chromosome 12.

Conclusion

Pour finir, je vais vous laisse vous amuser avec différents genome browser existants. ce sont des sites web qui vous permettent de naviguer visuellement dans le génome, extraire des données et obtenir des informations complémentaires. Essayez par exemple, de retrouver , ou se trouve le gène HFE impliqué dans l'hémochromatose, sa position chromosomique et génomique ainsi que sa séquence.

references

OpenSlide : La libraire des pathologistes !

2014-08-06T19:33:48+02:00

Il y a quelques temps de cela, un collègue anatomo-pathologiste était venu demander mon aide pour détecter des cellules sur des images histologiques d'amygdales. Ces images étaient issues d'un scanner à lame microscopique et stockées sous un format propriétaire Hamamatsu (.ndpi).
Bref, c'était mes débuts dans l'analyse et le traitement de l'image!

Un scanner à lame ?

Avec un microscope, on peut regarder un échantillon sous toutes ses coutures. Choisir le zoom de l'objectif, se déplacer sur la lame, régler la luminosité, le contraste etc... Tout ça sans jamais perdre en qualité. Une simple photo prise sur le vif, ne peut pas vous montrer l'échantillon dans son ensemble. Si par exemple, vous vouliez demander conseil à un collègue outre atlantique, il fallait lui envoyer la lame par la poste. Et pour les conserver, une grande armoire avec un grand cahier en papier (histoire de rester dans le même registre technologique...:D).
Mais maintenant, il existe les "lames virtuelles" ! Ces lames sont des reproductions numériques du contenu optique d'une lame standard et sont obtenues grâce à un scanner à lame. La lecture se fait sur un ordinateur, et vous pouvez reproduire les mêmes manipulations qu'avec un microscope standard. Je vous propose de jeter un œil sur cette démo depuis votre navigateur.

Comment ça marche ?

Il suffit de faire plein de photos à tous les zooms possibles et sur toute la lame, et d'assembler tout ça dans un fichier. Par exemple, au zoom le plus faible, on aura 4 images de l'ensemble de la lame. Et à plus fort zoom, une centaine. L'ensemble de ces images peut être représenté sous forme d'une pyramide :

Toutes ces images sont stockées ensemble dans un fichier accompagné de métadonnée. Les fichiers que j'utilise sont de format (.ndpi). En contrepartie, ces fichiers sont de taille énorme, comparés aux formats d'images standards et peuvent atteindre sans problème le Gigaoctect. C'est pour ces raisons que rare sont les logiciels qui permettent d'ouvrir ce genre d'image. Même imageJ, le saint graal des pathologistes, avait du mal à l'heure où je vous écris. Après c'est une application Java, ça se comprend ... :D [TROLL]!

OpenSlide :

OpenSlide est une libraire écrit en C, permettant de gérer ce genre d'image. Il gère un tas de format (.ndpi, .vms, .vmu, .svs, .svslide ... ) et propose un binding pour notre langage préféré : python !

Installation

Depuis une Debian faite :

apt-get install openslide-tools
apt-get install openslide-python  # Python 2
apt-get install openslide-python3 # Python 3

Depuis un Mac avec port:

port install openslide 
port install py-openslide

Depuis un Mac avec brew:

brew install openslide

Depuis pip :

pip install openslide-python

Pour les autres, allez faire un tour sur la page officiel

Afficher une image ndpi

Téléchargez un exemple d'image .ndpi depuis cette page et testez le code qui suit.

from openslide import OpenSlide
img  = OpenSlide("exemple.ndpi")
img.get_thumbnail((1000,1000)).show()

Vous devriez voir une belle image d'histologie. Je n'ai pas besoin de commenter le code à part la dernière ligne. get_thumbnail retourne un aperçu de votre lame numérique dans sa totalité. L'image est un objet PIL.Image,très utilisée pour manipuler des images en python. Cette fonction prend en paramètre la résolution maximum de votre thumbnail. En fait, il va essayer de trouver une image la plus proche de cette résolution. Mettez ce que vous voulez.
Pour finir, j'appelle la méthode show de mon PIL.Image, qui affichera l'image directement dans un viewer.

Récupérer des informations

Plusieurs méthodes sont disponibles afin de connaitre les propriétés de votre lame virtuelle.

img.dimensions        # Retourne la dimension global 
img.properties        # Un tas de métadata 
img.level_count       # Retourne le nombre d’étage dans la pyramide 
img.level_dimensions  # Retourne les dimensions de chaque étages
img.level_downsamples # Retourne le zoom de chaque étages

Récupérer une zone de l'image

Et si vous voulez récupérer une zone rectangulaire, faites tout simplement

img.read_region(location=(10,10), level=2, size=(500,500))

Ou location est le coin supérieur gauche, level le numéro de l'étage et size les dimensions de votre zone.

Conclusion

Voilà, vous pouvez à présent lancer une discussion sérieuse avec un anatomo-pathologiste en lui expliquant que le microscope c'est has-been.
Dans un prochain article, j'expliquerai différente technique d'analyse d'image.

Référence

Site officiel de Openslide
Site officiel de Hamamatsu
Une autre libraire par Christophe Deroulers

Mémo sur les expressions régulières

2014-07-29T19:13:15+02:00

Les expressions régulières, c'est super simple... Il suffit que quelqu'un les écrivent pour vous !
En effet, j'ai longtemps galéré avec les expressions régulières.. En fait, dès que j'avais affaire à elles, je demandais à quelqu'un de me l'écrire. C’était beaucoup plus rapide que de réfléchir par moi même! ( technique souvent employée en programmation). Mais voilà, ça c'était avant !

Définition

Les expressions régulières permettent d'identifier dans un texte, des sous ensembles respectant un pattern particulier. Par exemple, imaginons que dans un article scientifique, je souhaite récupérer tous les noms d'auteur, sachant que le nom et le prénom commencent par une majuscule . Par exemple Ishigaki S ou Rossini-Beri AA. Je sais aussi que les noms ne contiennent jamais de chiffre ni de caractères spéciaux mis à part le tiret. L'expression régulière que j'écrirai sera la suivante :

\s[A-Z][a-z]+(\-[A-Z][a-z]+)?\s[A-Z]{1,2}

Incompréhensible n'est ce pas ? Ne vous inquiétez pas, je vais vous expliquer. Mais il va falloir pratiquer. Je vous conseil d'aller sur regexpal pour tester en ligne vos expressions régulières.

Expression simple

Le pattern le plus simple, est un groupe de lettre. Dans le texte ci dessous , je recherche le pattern 'biologie'.

exemple

Les recherches alliant physique quantique, ingénierie électrique, chimie et biologie, sont particulièrement pertinentes, car elles pourraient donner naissance à des thérapies entraînant beaucoup moins d’effets secondaires que les médicaments.

Attention, ce n'est pas un mot que je cherche, mais un pattern. Ainsi, le pattern [et] me retournera le "et" seul et le "et" de "effet"

exemple

Les recherches alliant physique quantique, ingénierie électrique, chimie et biologie, sont particulièrement pertinentes, car elles pourraient donner naissance à des thérapies entraînant beaucoup moins d’effets secondaires que les médicaments.

Caractère spéciaux

Il existe plusieurs caractères reconnus dans les expressions régulières permettant de faire des recherches plus complexe:

 ^ . [ ] $ ( ) * + ? | { } \

Vous ne pouvez donc pas rechercher ces symboles directement dans le texte. Pour cela, vous devez les "échapper" avec l'antislash [ \ ]. Par exemple pour rechercher le pattern ' WTF???? '

WTF\?\?\?\?

Voyons maintenant la signification des autres caractères spéciaux ...

Le point

Le point représente n'importe quels caractères. Si par exemple vous voulez rechercher le mot 'ARN' et le mot 'ADN', le pattern sera :

A.N

Attention, quand je dis tous les caractères, c'est tous les caractères possibles! Ce pattern détectera aussi 'ATN' 'A-N' 'A?N' 'A.N' etc... Pour pouvoir détecter uniquement 'ARN' et 'ADN', on utilise des classes de caractères.

Les classes de caractères

Une classe de caractères représente toutes les substitutions autorisées dans notre pattern. Une classe est écrite à l'aide des crochets [ ] et contient la séquence substitutif. Pour détecter soit le mot ADN ou ARN :

A[RD]N

La classe '[RD]' signifie : A cette endroit, le caractère est soit la lettre R, soit la lettre D. Simple non ? Mais maintenant, si au lieu de R et D, vous voulez toutes les lettres de l'alphabet ?

A[ABCDEFGIJKLMNOPQRSTUVWXYZ]N

Ohé... Bein là, ça commence à faire lourd! Heureusement, les classes de caractères connaissent leurs alphabets. Cette expression peut être écrite :

A[A-Z]N

On peut faire la même chose pour les minuscules et les chiffres.

[a-z]  de a à z
[0-9]  de 0 à 9
[b-k]  de b à k
[2-5]  de 2 à 5

Bien entendu, on peut tout combiner.

[a-zA-Z] de a à z et de A à Z
[a-zA-Z0-9] Tous les caractères alpha numérique

Il est enfin possible d'inverser la sélection avec le chapeau [ ^ ].

[^a-z] Tous les caractères QUI NE SONT PAS de a à z

Attention, le chapeau entre crochet n'a pas du tout la même signification qu'à l’extérieur des crochets.

Chapeau et dollar

Imaginez que vous voulez faire un détecteur de politesse dans un e-mail. Vous voulez tester si les messages commencent bien par bonjour et se terminent par merci. Pour réaliser cette prouesse technique, vous avez le symbole [^] signifiant 'rien avant'. Et le symbole [$] signifiant 'rien après'.

Bonjour

Bonjour professeur, connaissez vous l'étymologie du mot "Bonjour" ? Merci

^Bonjour

Bonjour professeur, connaissez vous l'étymologie du mot "Bonjour" ? Merci

Merci$

Bonjour professeur, connaissez vous l'étymologie du mot "Bonjour" ? Merci

Les quantificateurs

Les quantificateurs sont les symboles: [ * + ? ]. Un quantificateur applique une règle au caractère qui le précède. (J'ai mis du temps à comprendre...)

Le point d'interrogation

Le point d’interrogation signifie : le caractères est présent ou non. Par exemple, si je veux chercher toutes les occurrences du mot ARN ou ARNm

ARNm?

On dit ARN ou ARNm ?

L' étoile

L'étoile signifie : le caractère peut être absent ou répété une infinité de fois. Par exemple si je veux récupérer toutes les occurrences du mot Broom à Broooooom!

BRo*M

Démarrage du faucon millénium : BRooM!
Démarrage du faucon millénium : BRoooooM!
Démarrage du faucon millénium : BRM!.. WTF!?

le plus

Dans l'exemple précédent, le pattern détecte aussi le mot "BRM". Le caractère "plus" et comme l'étoile, mais signifie : le caractère doit être présent une fois ou répété une infinité de fois.

BRo+M

Démarrage du faucon millénium : BRooM!
Démarrage du faucon millénium : BRoooooM!
Démarrage du faucon millénium : BRM!.. haha!

Maintenant, que se passe-t-il si le caractère qui précède est un point, comme vu plus haut.

BR.+M

Démarrage du faucon millénium : BRiiiiiM!
Démarrage du faucon millénium : BRaaaaaaM!
Démarrage du faucon millénium : BRaaaiiiiyaaaaamaaaM!

Oui, c'est magique! Cette expression régulière signifie : 'répète n’importe quel caractères une ou plusieurs fois'.
Et vous pouvez l'appliquer au point, mais aussi à une classe de caractère. Dans l'exemple suivant, on répète une lettre majuscule:

[A-Z]+

Et si je veux détecter la répétition d'un mot ou d'un groupe de caractère ? Il suffit d'utiliser les parenthèses. Par exemple :

(chat)+

chatchatchatchatchat

Et pour finir, on peut spécifier le nombre de répétition à l'aide des accolades {}

(chat){3}    # 3 exactement

chatchatchatchatchat

(chat){3,5}  # 3 à 5 fois 
(chat)(3,)   # Au minimum 3

Les classes abrégées

Pour finir, afin d'éviter de se fouler les doigts à écrire de longs patterns, vous pouvez utiliser ces raccourcis :

\d      # "digit" signifie [0-9]
\D      # "Not digit" signifie [^0-9]
\w      # "word" signifie [a-zA-Z0-9_]
\W      # "Not world" signifie [^a-zA-Z0-9_]
\t      # Tabulation
\n      # Saut de ligne
\r      # Retour chariot
\s      # Espace blanc
\S      # N'est pas un espace blanc

Où utiliser les expressions régulières ?

Partout!! Les expressions régulières vous vous permettre de faire des extractions de texte, des remplacements, des tests de validité sur des emails ou des IPs, des filtres pour vos logs systèmes et bien d'autre utilisation! L'autre jour, j'ai failli faire un malaise en voyant une collègue remplacer lignes après lignes, dans World, des numéros de titre...! En 2 secondes, c’était bouclé depuis sublime text!
Mais les expressions régulières, c'est surtout l'apanage des ninja sous linux. Avec la commande grep et sed et surtout le langage Perl vous allez pouvoir épater la galerie! Il ne vous reste plus qu'à vous entrainer! Souvenez vous, dès que vous faites une tâche répétitive sur du texte, il s'agit sûrement d'un boulot pour un regexp.

Référence

openclassrooms.com
wikipedia
cyrilex
pyrexp

Pygal, pour faire des graphiques en vectoriel !

2014-06-23T18:25:30+02:00

Il existe plusieurs façons de créer de jolis graphiques avec python. La plus connue est bien entendu matplotlib qui permet de faire du simple camembert au super graphique 3D isobarique spéctromotogramique. (je vous rassure ça veux rien dire). Il y en a aussi d'autres, moins connus que je cite en exemple : pyQwt, plotly, Vincent ( J'en parlerai dans un prochain post), pyla, chartDirector etc... Sans utiliser python, il y a aussi le langage R qui est un outil extrêmement puissant pour faire des statistiques et des graphiques scientifiques. Et enfin, gnuplot, logiciel à part entière, que vous exécutez directement depuis la console. Dans ce poste, on va parler d'une n-ième chart library, que j'affectionne tout particulièrement, tant son rendu est stylé! Il s'agit de pygal, une librairie qui va non seulement nous générer des graphiques super classes, mais va les générer dans un format vectoriel!

Des images vectorielles ?

Bon, au cas ou vous ne savez pas ce qu'est du vectoriel, je vous l'explique rapidement.

Image matricielle

Les images aux formats .png .bmp, *.jpeg etc... sont des images matricielles. C'est à dire qu'elles sont définies par un tableau contenant la couleur des pixels. Par exemple une image de 3x3 pixels contiendra :

bleu - blanc - rouge 
bleu - blanc - rouge 
bleu - blanc - rouge

Les différents formats (.png .bmp, *.jpeg), représentent différents algorithmes pour stocker et compresser ces informations.

Image vectorielle

Les images aux formats .svg sont des images vectorielles. Il existe d'autres formats propriétaires comme .ai (Adobe illustrator). mais retenez .svg qui est un standard libre.
Ces images sont définies par leurs façons d'être dessiné* grâce à des objets géométriques simples. A contrario des images matricielles, l'image vectorielle sera constituée d'une série d'action.

Rectangle(couleur=bleu, largeur=3, longueur = 2)
Rectangle(couleur=blanc,largeur=3, longueur = 2)
Rectangle(couleur=rouge, largeur=3, longueur = 2)

Toutes ces règles sont en fait écrites en xml, et ça donne plutôt ça :

<?xml version="1.0" encoding="utf-8"?>
<svg xmlns="http://www.w3.org/2000/svg" version="1.1" width="300" height="200">
<rect width="100" height="80" x="0" y="70" fill="green" />
</svg>

Les images vectorielles ont ainsi plusieurs avantages par rapport au images matricielles. Tout d'abord elle n'ont pas de résolution. A partir d'une image vectorielle, vous pouvez faire un icône ou un poster de 10 mètres sans jamais perdre de résolution. Également, de part leurs syntaxes xml, ils sont facilement éditables. Et devinez quoi ? Vous pouvez même y mettre du javascript pour faire des animations. Ci-dessous, deux images, l'une vectorielle et l'autre matricielle. Vous pouvez les ouvrir séparément et zoomer dessus pour voir la différence. Enfin, vous la voyez déjà !

Premier pas avec pygal

Installation

Comme d'habitude ...

pip install pygal

Attention, pour pouvoir exporter vos données vectorielles en .png via render_to_png*, vous devez installer :

pip install CairoSVG tinycss cssselect

Création d'un Livarot Camembert

import pygal
pie_chart = pygal.Pie()
pie_chart.title = 'Activity'
pie_chart.add('Sleep', 60)
pie_chart.add('blog', 20)
pie_chart.add('code', 30)
pie_chart.add('study', 9)

Faites maintenant pie_chart.render() Pour générer le code xml de votre image vectorielle... Bon, c'est juste du code xml qui s'affiche... Mais heureusement, pygal propose plusieurs méthodes :

- pie_chart.render_in_browser()         //Vous l'ouvrira dans le browser
- pie_chart.render_to_file("mypie.svg") //Création du fichier mypie.svg
- pie_chart.render_to_png("mypie.png")  //Création du fichier mypie.png

Voilà le résultat final quand je l'insère dans mon code html de cette façon :

  <embed src="/images/post5/mypie.svg" type="image/svg+xml" width="100px" />

Oui c'est beau ! J'espère que vous avez remarqué l'interactivité du graphique lorsque vous passez la souris dessus.
Mais sinon, à part des camemberts, on peut faire tout un tas d'autres graphiques.

Autres graphiques

Je vous met dans cette section, une série de graphique réalisable avec pygal. Il y en a plein d'autre! Allez faire un tour sur cette page : pygal charts type

Line Charts

line_chart = pygal.Line()
line_chart.title = 'Browser usage evolution (in %)'
line_chart.x_labels = map(str, range(2002, 2013))
line_chart.add('Firefox', [None, None, 0, 16.6,   25,   31, 36.4, 45.5, 46.3, 42.8, 37.1])
line_chart.add('Chrome',  [None, None, None, None, None, None,    0,  3.9, 10.8, 23.8, 35.3])
line_chart.add('IE',      [85.8, 84.6, 84.7, 74.5,   66, 58.6, 54.7, 44.8, 36.2, 26.6, 20.1])
line_chart.add('Others',  [14.2, 15.4, 15.3,  8.9,    9, 10.4,  8.9,  5.8,  6.7,  6.8,  7.5])
line_chart.render_to_file("line_chart.svg")

Afficher le graphique

Bar Charts

bar_chart = pygal.Bar()
bar_chart.title = 'Browser usage evolution (in %)'
bar_chart.x_labels = map(str, range(2002, 2013))
bar_chart.add('Firefox', [None, None, 0, 16.6,   25,   31, 36.4, 45.5, 46.3, 42.8, 37.1])
bar_chart.add('Chrome',  [None, None, None, None, None, None,    0,  3.9, 10.8, 23.8, 35.3])
bar_chart.add('IE',      [85.8, 84.6, 84.7, 74.5,   66, 58.6, 54.7, 44.8, 36.2, 26.6, 20.1])
bar_chart.add('Others',  [14.2, 15.4, 15.3,  8.9,    9, 10.4,  8.9,  5.8,  6.7,  6.8,  7.5])
bar_chart.render_to_file("bar_chart.svg")

Afficher le graphique

Scatter plot

xy_chart = pygal.XY(stroke=False)
xy_chart.title = 'Correlation'
xy_chart.add('A', [(0, 0), (.1, .2), (.3, .1), (.5, 1), (.8, .6), (1, 1.08), (1.3, 1.1), (2, 3.23), (2.43, 2)])
xy_chart.add('B', [(.1, .15), (.12, .23), (.4, .3), (.6, .4), (.21, .21), (.5, .3), (.6, .8), (.7, .8)])
xy_chart.add('C', [(.05, .01), (.13, .02), (1.5, 1.7), (1.52, 1.6), (1.8, 1.63), (1.5, 1.82), (1.7, 1.23), (2.1, 2.23), (2.3, 1.98)])
xy_chart.render_to_file("scatter_plot.svg")

Afficher le graphique

Box plot

box_plot = pygal.Box()
box_plot.title = 'V8 benchmark results'
box_plot.add('Chrome', [6395, 8212, 7520, 7218, 12464, 1660, 2123, 8607])
box_plot.add('Firefox', [7473, 8099, 11700, 2651, 6361, 1044, 3797, 9450])
box_plot.add('Opera', [3472, 2933, 4203, 5229, 5810, 1828, 9013, 4669])
box_plot.add('IE', [43, 41, 59, 79, 144, 136, 34, 102])
box_plot.render_to_file("box_plot.svg")

Afficher le graphique

Voilà, fini pour cette article! Je vais pas me casser la tête à faire plus, car la documentation officiel est parfaitement réalisée. Vous pouvez par exemple, customiser vos graphiques en changeant de thème, ou créer des thèmes personnalisés. Ou encore modifier le rendu en jouant sur les marges, les labels , les dimensions etc...

Référence

pygal.org
pygal Documentation
teste en ligne de pygal

MongoDB, la base de donnée pour dire adieu à Sql.

2014-06-14T16:51:24+02:00

MongoDB est un système de gestion de base de données ou SGBD, comme Mysql ou PostgreSql, mais dont le mécanisme est complètement différent. Fini le temps ou il fallait créer un schéma de tables relationnelles et créer des requêtes Sql complexes. Grâce à MongoDB vous allez pouvoir stocker vos données un peu comme vous le feriez dans un fichier JSON. C'est à dire, une sorte de dictionnaire géant composé de clés et de valeurs. Ces données peuvent ensuite être exploitées par du javascript, directement intégré dans MongoDB, mais peuvent également être exploitées par d'autre langage comme python.

Collection et Documents

Avant de commencer à voir en détail le fonctionnement de MongoDB, il faut comprendre différentes notions. MongoDB stocke ses données sous le même format qu'un document JSON. Pour être plus exact, c'est la version binaire du JSON appelé BSON. Mais alors, c'est quoi un document JSON ?

Documents

Un document JSON, c'est simplement un ensemble de clés et de valeurs dont la notation est la suivante :

{
"first_name": "Richard",
"last_name": "Dawkins",
"job":"ethologist",
"age": 73
}

Dans cette exemple, first_name est la clé , Richard est la valeur.
Plusieurs documents peuvent être imbriqués ensemble pour former un documents plus complexe :

{
"first_name": "Richard",
"last_name": "Dawkins",
"job":"ethologist",
"age": 73   
address : {
    "street":"33 panda street",
    "city":"Oxford",
    "country":"UK"
    }
}

Il est également possible de mettre des listes :

{
"first_name": "Richard",
"last_name": "Dawkins",
"job":"ethologist",
"age": 73   
books: [
{"title": "Selfish Gene", "date":"1976"},
{"title": "The blind watchmaker", "date":"1956"},
{"title":"The magic of Reality", date:"2011", "page_count":200}
]

Si vous regardez la liste de livres, vous remarquerez qu'il n'est pas nécessaire de respecter la cohérence des champs d'une base Sql. En effet, il y a deux champs title et date pour les deux premiers livres, et 3 pour le dernier.

Collection

Une collection est tous simplement un ensemble de document. On peut la comparer à une table. Par exemple, une collection de 50 auteurs contiendra 50 documents comme défini plus haut. MongoDB intègre des index notés _id unique pour chaque document.

 {
"_id" : 0
"first_name": "Richard",
"last_name": "Dawkins",
 },
 {
"_id" : 1
"first_name": "Stephen",
"last_name": "Jay Gould",
 },
 {
"_id" : 2
"first_name": "François",
"last_name": "Jacob",
 },

Sachez que le format JSON, provient directement du langage Javascript. D'ailleurs JSON veut dire JavaScript Object Notation. C'est pour cette raison que MongoDB utilise javascript par defaut afin de manipuler sa base.

Premier pas avec MongoDB

Installation

Si vous êtes sous Linux ubuntu :

sudo apt-get install MongoDB

Pour les autres OS, je vous invite à le télécharger depuis la page officiel
MongoDB est livré avec plusieurs binaires. On retiendra mongod le serveur, et mongo le client console.

Lancement du serveur

Sous linux, un daemon est automatiquement crée. Pour l’exécuter :

sudo /etc/init.d/mongod stop

Pour les autres, il suffit d’exécuter mongod en spécifiant un chemin de stockage:

mongod --dbpath C:/mongoData

Se connecter au serveur

Tout d'abord, exécuter le client mongo depuis votre terminal. Par défaut, il se connecte au serveur mongod en localhost sur le port 27017.

schutz@brest:~/Home$ mongo
MongoDB shell version: 2.4.9
connecting to: test
Server has startup warnings: 
Sat Jun 14 13:47:38.813 [initandlisten] 
Sat Jun 14 13:47:38.813 [initandlisten] ** NOTE: This is a 32 bit MongoDB binary.
Sat Jun 14 13:47:38.813 [initandlisten] **       32 bit builds are limited to less than 2GB of data (or less with --journal).
Sat Jun 14 13:47:38.813 [initandlisten] **       See http://dochub.MongoDB.org/core/32bit
Sat Jun 14 13:47:38.813 [initandlisten]

Afficher les bases de données

Pour afficher les bases de données disponibles, utilisez show dbs. Normalement vous devriez avoir une base local propre à mongo et une base test:

show dbs
local   0.03125GB
test    (empty)

Création d'une base de donnée

Pour continuer ce tutoriel, je veux créer une base de donnée medical , et créer une collection de patients. Chaque patient sera défini par son nom, prenom et sa date de naissance. Pour créer notre première base de données :

use medical

Vous pouvez faire db pour voir la base de donnée courante. Attention, si vous faites show dbs, vous ne verrez pas encore votre base. En effet, mongo attend d'avoir du contenu pour créer votre base.

Insertion

Pour créer une collection, il suffit simplement d'ajouter un patient. Par exemple pour:

{
    "nom":"Dupond",
    "prenom":"Jean Claude",
    "ddn": new Date('May 18, 1984')
}

Je fais simplement :

db.patients.insert({"nom":"jay gould", "prenom":"stephen", new Date('May 18, 1984')})

La collection patients se crée automatiquement lors de la première utilisation. Si vous faite maintenant :

db.patients.find()

Vous pouvez voir le document que vous venez d'ajouter. Notez que MongoDB ajoute automatiquement un _index si rien n'est spécifié.
En guise d'exemple, on va remplir notre collections en répétant cette procédure 50 fois.

for ( var i = 0 ; i<50; i++){
    db.patients.insert({"nom":"jay gould" , "prenom":"stephen", "age": i})
}

Vérifions le nombre de patients :

db.patients.count()

Lister la collection

find(critère, projection)

Utiliser find() pour retourner toute la liste de la collection patients.

    db.patients.find()

Pour récupérer les patients dont l'age = 5

db.patients.find({age:5})

On peut aussi utiliser des expressions régulières. Par exemple, tous les prénoms commençant par "j"

db.patients.find({prenom: /^j*/})

Pour récupérer les patients dont l'age est supérieur à 40

 db.patients.find({age:{$gt:40}})

$gt est un mot clef de mongo qui veut dire greater than (supérieur à). Pour voir la liste complète c'est ici.

Pour récupérer un seul élément (le premier) , utiliser findOne

db.patients.findOne({age:{$gt:40}})

Pour récupérer les patients dont l'âge est 5 ou 10 :

db.patients.find({age:{$in:[5,10]}})

Pour récupérer uniquement certaine clé, on utilise l'argument projection de find(). Par exemple, récupérer uniquement les noms des patients dont l'âge est supérieur à 40

db.patients.find({age:{$gt:40}},{"nom":true})

Pour limiter le nombre de résultat à 3 :

db.patients.find().limit(3)

Pour ordonner la liste par âge décroissant. -1 pour décroissant et 1 pour croissant.

db.patients.find().sort(age:-1)

Modifier la collection

update(query, update, options)

Remplacer tous les prénoms stephen par boby

db.patients.update({"prenom":"stephen"},{$set:{"prenom":"boby"}},{multi:true})

Ajoute une clé sexe à tous les patients

db.patients.update({prenom:"boby"}, {$set:{sexe:"male"}}, {multi:true})

Ajoute un patient olivier s'il n'existe pas

db.patients.update({prenom:"olivier"}, {$set:{sexe:"male"}}, {upsert:true})

save(document, writeConcern)

La différence avec insert est que save, fait un update du document s'il existe déjà.

db.patient.save({"prenom":"jean claude", "nom":"Van Damme"})

Suppression

remove(query,justOne)

Supprimer tous les patients qui s'appellent olivier

db.patients.remove({prenom:"olivier"})

Supprimer la collection

db.patients.drop()

Supprimer la base de donnée

 use medical
 db.runCommand({dropDatabase: 1});

Conclusion

Voilà pour les bases de MongoDB. Il y a encore plein de chose à dire sur MongoDB. Comme l'agrégation des données, La réplication sur plusieurs serveurs ou la sécurité. Tous se trouve sur la documentation officiel. Dans un prochain article, je m’intéresserai cette fois à l'interface entre python et MongoDB via PyMongo. Ce sera forcement un article court :D. Il faut que je jette aussi un coup d’œil à QtMongo, une interface vers Qt/C++.

Référence

MongoDB site officiel
MongoDB Documentation
Syrinxoon Tuts
PyMongo

Module requests : Jouons avec Http et python

2014-06-11T23:42:22+02:00

Requests est un module python permettant d'utiliser le protocole http de façon ultra simple! Je l'ai découvert en voulant récupérer des données d'une page web au boulot à travers un proxy. Car en effet, il gère vraiment tout ! Les proxy, les cookies, ssl, les uploads multiparts et bien d'autres trucs sympas! Je vous propose dans ce poste, quelques exemples d'utilisations de cette librairie. Pour plus d'informations, il y a la page officiel en français.

Installation

Comme pour tous les modules python, je vous conseille d'utiliser pip

pip install requests

Créer une requête

Tout d'abord, importons le module Requests:

import requests

Maintenant, essayons de récupérer la page de linuxfr.org et l'afficher dans le terminal.

r = requests.get("http://linuxfr.org/")
print(r.text)

Voila, c'est tout simple ! Pour les autres verbes du protocole HTTP, il suffit de faire :

    r = requests.put("http://linuxfr.org/")
    r = requests.delete("http://linuxfr.org/")
    r = requests.patch("http://linuxfr.org/")
    r = requests.post("http://linuxfr.org/")
    r = requests.head("http://linuxfr.org/")
    r = requests.options("http://linuxfr.org/")

Utilisation d'un Proxy

Si vous devez passer par un proxy, comme j'ai du le faire, c'est toujours aussi simple.

proxy = {"http":"http://username:password@proxy:port"}
r = requests.get("http://linuxfr.org/", proxies = proxy)

Lire la réponse

Pour lire la réponse on a déjà vu r.text plus haut. Pour le reste, c'est toujours aussi simple, voici les plus sympas :

r.text          #Retourne le contenu en unicode
r.content       #Retourne le contenu en bytes
r.json          #Retourne le contenu sous forme json
r.headers       #Retourne le headers sous forme de dictionnaire 
r.status_code   #Retourne le status code

Envoyer des données

Pour envoyer des données, toujours aussi simple. Par exemple pour l'envoi des données d'un formulaire :

data = {"first_name":"Richard", "second_name":"Stallman"}
r = requests.post("http://linuxfr.org", data = data)

Pour envoyer une image par multipart, encore plus facile :

file = {'file': open("photo.png", "rb")}
r = requests.post("http://linuxfr.org", files = file)

Bon, voila rapidement la base des fonctions du module requests. Qui, il faut l'avouer , est magique !! Je vous conseille vivement la lecture de cette page, beaucoup plus détaillée.

Référence

fr.python-requests.org
docs.python-requests.org

L'Open data en deux mots

2014-04-27T00:06:39+02:00

L'Open Data, comme son nom l'indique, est un ensemble de données ouvertes sous licence libre , fournit par des organismes publiques ou privés. En d'autres mots, vous allez pouvoir utiliser gratuitement un tas de données, directement ou via une api, pour faire de la Recherche, des études statistiques et surtout... Des applications! C'est vraiment le moment de surfer sur la vague de l'openData. Je ne connais pas encore les implications économiques sous-jacente, mais ça me fait plaisir de voir la philosophie de l'openSource se propager dans les plus hautes instances gouvernementales. Voici une liste de sites qui pourra vous être utiles.

data.gouv.fr

Le premier moteur de recherche d'opendata est le site du gouvernement : data.gouv.fr. Il contient principalement des données publiques utilisables pour des applications mobiles, par exemple de transport en commun, mais surtout des données épidémiologiques. Je tape par exemple dans la barre de recherche : sida et j'obtiens plusieurs base de données, Notamment les causes de décès par SIDA de 1987 à 2010. Il me suffit de récupérer mes données CSV, de les importer dans un logiciel d'analyse comme R, et de faire de jolis graphiques pour frimer devant les virologistes.:D

opendata.paris.fr

Disponible à cette adressee, contient plein de données sur paris. Vélib et Parking, Résultats électoraux et bien d'autres.

data.sncf.com

La Sncf fournit aussi un jolie site web d'opendata. Je vais pouvoir enfin faire une application qui m’empêchera de louper mon train.

www.quandl.com

Ce moteur de recherche, est une version internationale, dans le style google, qui semble avoir beaucoup de succès. En attendant son rachat par g..., vous y retrouverez sûrement des données intéressantes.

www.ign.fr

Le site de l'ign est l'outil qu'il vous faut si vous voulez faire de la cartographie.

Référence

L’OPEN DATA : DÉFINITION, ENJEUX ET PERSPECTIVES
data.gouv.fr
opendata.paris.fr
data.sncf.com
www.quandl.com
www.ign.fr

Premier Blog avec Pelican

2014-04-12T10:20:00+02:00

Hello, à tous ! Bon, j'ai enfin passé le cap de la création de blog. A vrai dire, j'avais déjà essayé auparavent d'autres systèmes de blog comme wordpress ou blogger. Mais j'ai pas tenu longtemps car je perdais vraiment tout mon temps à écrire du html et à checker le rendu en ligne. Donc, j'ai enfin trouvé un système pour blogger idéalement! Il s'agit de Pelican 3.3, un générateur de page web static écrit en python. Il suffit d'écrire un article en Markdown dans son éditeur préféré ( Vim pour les africanos ou Sublime Text comme moi) et Pelican se charge de créer toutes les pages html. Il ne reste alors plus qu'à automatiser l'envoi de ces pages sur un serveur nginx ou apache , et le tour est joué ! Vous n'avez même pas idée a quel point c'est agréable d'écrire sans html avec son éditeur préféré. Je vous propose donc, dans ce premier poste, de vous détailler la création d'un blog avec Pelican.

Installation

L'installation suivante, a été faite sous Linux/ubuntu. Mais les exemples suivants devraient marcher sur tous les OS supportant python. Si vous êtes sous windows, je vous invite quand même à installer un vrai OS de développement :D Vérifiez d'avoir une version de python compatible 2.7.x . Depuis votre terminal tapez :

python --version
Python 2.7.5+

Si vous n'avez pas python, installez le en suivant ce tutorial. Ensuite, assurez vous d'avoir le gestionnaire de package de python pip. Vous pouvez l'installer en suivant les indications de la page officiel.
Installer alors le package Pelican et le package Markdown que nous utiliserons par la suite.

sudo pip install pelican
sudo pip install Markdown

Création du blog

Tout d'abord, créez le dossier de votre blog. Une fois à l’intérieur, lancer la commande pelican-quickstart.

mkdir monBlog
cd monBlog
pelican-quickstart

Suivez les indications. Voici ce que j'ai mis. Si comme moi, vous avez un serveur accessible par ftp ou ssh, répondez 'Oui' et suivez les instructions. Ceci nous permettra d'envoyer automatiquement les fichiers html générés, vers un serveur.

Where do you want to create your new web site? [.] 
What will be the title of this web site? MonBlog
Who will be the author of this web site? sacha schutz
What will be the default language of this web site? [en] fr
Do you want to specify a URL prefix? e.g., http://example.com   (Y/n)         
What is your URL prefix? (see above example; no trailing slash) https://dridk.me    
Do you want to enable article pagination? (Y/n)                                         
How many articles per page do you want? [10]                                                  
Do you want to generate a Fabfile/Makefile to automate generation and publishing? (Y/n)       
Do you want an auto-reload & simpleHTTP script to assist with theme and site development? (Y/n)      
Do you want to upload your website using FTP? (y/N)                                                                   
Do you want to upload your website using SSH? (y/N)                                                                   
Do you want to upload your website using Dropbox? (y/N)                                                               
Do you want to upload your website using S3? (y/N)                                                                               
Do you want to upload your website using Rackspace Cloud Files? (y/N) 
Done. Your new project is available at /home/schutz/dev/monblog

Les fichiers et dossiers intéressants sont les suivants :

content/ Tous vos articles et pages doivent être ranger ici
output/ Les pages html static se trouverons ici
pelicanconf.py La fichier de configuration de votre site
publishconf.py Le fichier de configuration pour la publication.
Makefile Un make nous permettant de faire plein de manipulation automatique

Tester votre blog

Vous pouvez maintenant générer vos pages static via la commande suivante :

make html

Puis testez votre blog en lançant un serveur via la commande suivante :

make serve

N’hésitez pas à taper make help pour avoir plus d'information sur ces commandes.
Si tout se passe bien, vous devriez obtenir cette page en vous rendant à l'adresse : http://localhost:8000.

Créez votre premier poste.

Maintenant, rien de plus simple! Depuis votre éditeur de texte préféré, créez un fichier mon_premier_post.md dans le dossier content et sauvegarder.

Title: Mon blog avec pelican
Date: 2010-12-03 10:20
Tags: linux, python, pelican
Category: python
Slug: first-post
Author: Sacha Schutz

Ceci est le contenu de mon premier poste

Régénérer votre code comme précédemment et voilà:

make html
make serve

Une astuce, au lieu de faire à chaque fois make html et make serve, vous pouvez directement faire une seul fois:

make devserver

Ceci créera un serveur en arrière plan se mettant à jour à chaque modification de vos fichiers.

Publier votre blog

Pour finir, la publication de vos pages statiques peut se faire soit manuellement, en envoyant le contenu du dossier output. Soit via une de ces commandes en fonction des paramètres de votre serveur.

make ssh_upload                  upload the web site via SSH        
make rsync_upload                upload the web site via rsync+ssh  
make dropbox_upload              upload the web site via Dropbox    
make ftp_upload                  upload the web site via FTP        
make s3_upload                   upload the web site via S3         
make cf_upload                   upload the web site via Cloud Files
make github                      upload the web site via gh-pages

Conclusion

Voilà, j'espère que ce poste vous a aidé à comprendre le fonctionnement de Pelican. Je n'ai pas détaillé le reste. Mais sachez qu'il est possible d'ajouter plein d'options intéressantes depuis le fichier de configuration. Vous pouvez installer des thèmes et des plugins que vous récupérez ici depuis github. Vous pouvez également créer des pages fixes en les sauvegardant dans contents/pages.

Référence

Site officiel du project Pelican
Github du project Pelican (Theme et plugins)
Markdown Syntax Guide
Pelican Settings doc