SNP (Single Nucleotide Polymorphism) Eine Stelle im Genom, von der man weiß dass sie bei Menschen in unterschiedlicher Ausprägung vorkommen kann. Rsid oder Rs-Number Häufig in der Form "rs" gefolgt von einer Nummer vorzufinden, ist die Rsid eine einfache Zuordnung zu einem SNP (die man sonst anhand der Position im Genom angeben müsste). Reference genome Ein Referenzgenom ist ein von Wissenschaftlern festgelegtes Genom variierenden Ursprungs, welches als Basis für die Forschung (Angabe bestimmter Positionen auf dem Genom) oder DNA-Tests dienen kann. Zum Beispiel gibt es das "GRCh38" (hg38), dem das "GRCh37" (hg19) voranging. Dazu können die größeren Versionen dann noch unterschiedliche Patch-Level erhalten. Dieser Umstand bringt große Komplexität mit sich und führt dazu, dass man DNA-Rohdaten aufgrund unterschiedlicher Positionen (je nach Referenzgenom) oft nicht ohne weiteres vergleichen kann. Deswegen sind Rsids so praktisch. Genotype Im Kontext von Rsids bezeichnet der Genotyp die Nucleotide des Getesteten. rs2802292(G;G) bedeutet z. B., dass für Rsid rs2802292 auf beiden Chromosomen die Guanin-Variante gefunden wurde. rs2802292(G;T) wäre Guanin auf einem und Thymin auf dem anderen Chromosom. Phased/Unphased: Wenn das Ablesen des Genotyps phased erfolgte, weiß man auf welchem Chromosom welches Nucleotid vorkam. Bei unphased weiß man dies nicht; man kennt dann also den Genotyp, aber kann vereinfacht formuliert nicht sagen, ob es nun G;T oder T;G ist. Im VCF-Format würde ein phased Read z. B. als "G|T" angegeben werden, ein unphased Read als "G/T". Die praktische Konsequenz daraus ist, dass man gemischte Varianten in aller Regel unabhängig der Phase interpretiert (also T;G wie G;T behandelt).
Die Art des Tests
Viele günstige Anbieter testen oft lediglich ein paar hunderttausend SNPs. Damit kann man schon einiges machen, erhält aber dennoch nur ein unvollständiges Bild. Wichtig ist immer, dass Rohdaten angeboten werden. Die Rohdaten umfassen dann meistens eine Liste mit Rsids, Chromosom, Position und zugehörigen Genotypen. Chromosom und Position sind für mich meistens uninteressant, weil diese vom Referenzgenom abhängen. Wer z. B. auf SNPedia stöbern oder in Studien lesen möchte, ist mit Rsids oft besser bedient. Umfassender ist ein Whole genome sequencing, wie es bspw. von Dante Labs angeboten wird. Hier habe ich zudem Rohdaten erhalten.
Interpretation der Rohdaten anhand eines Beispiels
Eine meiner Rohdateien hatte einen Namen in der Form "GFX0XXXXXX.filtered.snp.vcf.gz". Nach dem Entpacken erhielt ich eine etwa 1GB große .vcf-Datei. Diese schwer zu öffenende Textdatei enthält anfangs Metadaten (Zeilen die mit ## beginnen), dann die Feld-Definitionen (eine Zeile die mit # beginnt) und danach den Body.
Die Feld-Definitionen können z. B. so aussehen:
Zitat#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT GFX0XXXXXX
Man erhält pro Zeile im Body also die Chromosom-Nummer, die Position auf dem Chromosom, die (RS)ID und andere Infos (mehr dazu gleich).
Gekürzt kann das also so aussehen:
Zitat1 10257 . A C <gekürzt>
Bedeutung: Im Chromosom 1, auf Position 10257 hat das Referenzgenom REF (in meinem Fall GRCh37) das Nucleotid "A". Alternativ (ALT) könnte es das Nucleotid "C" an dieser Stelle geben. Jetzt bemerkt der ein oder andere vielleicht die ersten Probleme:
1.) Was ist denn nun mein Genotyp? 2.) Wieso steht da keine Rsid?
Um die erste Frage zu beantworten, müssen wir uns nochmal die Feld-Definitionen anschauen. Der letzte Eintrag "GFX..." ist das getestete Sample und der davor ("FORMAT") gibt das Format an. In meinem Fall sind das mit ":" getrennte Werte und Format beginnt mit "GT:" (Genotype). Ich muss also in der letzten Spalte bis vor den ersten Doppelpunkt lesen und erhalte dann z. B. ein "0/1". Von den Begriffen wissen wir nun, dass es also ein unphased read ist. Die 0 steht für die REF-Variante und die 1 für die ALT-Variante. Also ist mein Genotyp für diesen SNP "AC".
Frage 2: Dante liefert leider keine Rsids in den .vcf Dateien mit! Ich musste mir also für GRCh37 (wie gesagt, das Referenzgenom kann je nach Test unterschiedlich sein!) die rsids mit Positionen herunterladen und mir ein Programm schreiben, welches diese zuordnet. Wenn jemand vor ähnlichen Problemen steht, kann ich gerne helfen.
Das erstmal als Einführung. Welchen Einfluss welche SNPs haben darf dann gerne in anderen Posts hier geklärt werden. Interessante Kandidaten für mögliche Langlebigkeit gibt es durchaus.
Ich habe mir jetzt einen minimalistischen Parser für .vcf-Dateien geschrieben und dazu ein paar mit Langlebigkeit assoziierte Rsids gesammelt. Dazu habe ich ein kleines Programm erstellt, welches eine Auswertung vornimmt (XX zum Datenschutz):
Zitatrs602633 genotype XX gives plus points: X /8 rs28383322 genotype XX gives plus points: X /8 rs2802288 genotype XX gives plus points: X /12 rs2802292 genotype XX gives plus points: X /20 rs2764264 genotype XX gives plus points: X /15 rs1800795 genotype XX gives plus points: X /7 rs3758391 genotype XX gives plus points: X /5 rs7137828 genotype XX gives plus points: X /8 rs1317286 genotype XX gives plus points: X /12 rs17514846 genotype XX gives plus points: X /8 rs1042522 genotype XX gives plus points: X /3
your life points: XX/106
Die "points" sind mehr oder weniger subjektiv von mir festgelegt worden, um eine Vergleichbarkeit zu ermöglichen.
Die Implementierung ist noch unvollständig (viele Rsids fehlen) und stellt gerade nur ein Fun-Projekt dar.
Ich glaube aber, dass bei SNPedia ein paar Fehler zu den "2017 GWAS" Allelen vorhanden sind, da unter der Table 2 in der Veröffentlichung steht:
ZitatBeta = A1 effect on outcome. For attained age (Martingale residuals) a negative BETA = reduced hazard, i.e. increased attained age
was ich so verstehe, dass die negativen Betas bedeuten, dass A1 gut für die Langlebigkeit ist, die positiven aber bedeuten, dass A0 gut für die Langlebigkeit ist. Bei SNPedia wurden anscheinend immer die A1 genommen, bzw. einmal auch ein nicht vorhandenes Allel (Stand heute).
Was bringt das jetzt, außer Spaß? Nun, man kann solche Programme theoretisch für alle möglichen Konditionen schreiben und wenn man mehr Ressourcen und Wissen hat als ich, dann könnten die sicher auch im professionellen Rahmen Einsatz finden und Lebenszeit gewinnen (optimierte Medikation, optimierte Ernährung etc.). Ein anderer Aspekt ist der, dass man die positiven Rsids studieren und womöglich dadurch lernen könnte, wie sie sich lebensverlängernd auswirken. Vielleicht eröffnen sich so eines Tages Möglichkeiten für Gentheraphien?