Kompression von Genomdaten
Seit dem Aufkommen der DNA-Sequenzierungsmethoden der nächsten Generation (engl. next generation sequencing, NGS)
haben sich die Sequenzierungskosten des menschlichen Genoms in den letzten zehn Jahren um den Faktor 1000 verringert.
Demzufolge wächst das Volumen der weltweit anfallenden Daten (ungefähr 2 TB Rohdaten pro menschlichem Genom)
derzeit rapide an und verdoppelt sich ca. alle sieben Monate.
Effiziente Kompression der Genomdaten kann an mehreren Stellen betrieben werden:
Nach der NGS-Sequenzierung liegen zunächst Fragmente, sogenannte Reads, vor. Darin ist die Abfolge der vier Nukleinbasen (Adenin, Guanin, Cytosin, und Thymin als elementare Bestandteile der DNA) mit ihrem jeweiligen Anfangsbuchstaben codiert. Bei NGS-Verfahren haben Reads üblicherweise eine Länge von 300 Basen. Durch einen Alignment-Schritt werden die Position sowie lokale Änderungen (z.B. Einfügungen und Löschungen) der Reads im Genom anhand eines Referenzgenoms bestimmt. Mithilfe dieser Informationen kann anschließend auf die einzigartigen Charakteristiken des zu untersuchenden Organismus, sogenannte genomische Varianten, geschlossen werden. Da sich sowohl Referenzgenome als auch Algorithmen zum Alignment häufiger ändern können, werden oft alle Daten in diesem Prozess archiviert und müssen daher effizient komprimiert werden.
Durch die hohe Redundanz der Basen in Reads bieten sich zur Kompression Verfahren der Entropiecodierung an, die auch im aktuellen MPEG-G Standard "Coding of Genomic Information" (ISO/IEC 23092-2) eingesetzt werden. Am Institut wurde Prädiktion von Basenfolgen mit anschließender (arithmetischer) Codierung von Residuen untersucht. Im Fall von Genomvarianten können Millionen von Varianten von bis zu Tausenden von Individuen vorliegen. Auch hier können lokale Statistiken, z.B. pro Individuum oder pro Variation, geschickt zur Kompression ausgenutzt werden. Am Institut konnte gezeigt werden, dass durch Kontext-basierte Codierung ähnliche Kompressionsraten erzielt werden wie durch deutlich komplexere Referenzverfahren. Das Institut nimmt in diesem Kontext an aktuellen Standardisierungsaktivitäten von MPEG-G "Coding of Genomic Annotations" (ISO/IEC 23092-6) teil.
