17.12.2021 Forschungsteam schafft Basis für DNA-Datenspeicher

Codes auf der Grundlage von Fraktalen ermöglichen die Nutzung von DNA zur Langzeitspeicherung

So dekorativ schaut Informatik aus: Die Grafik zeigt beispielhaft die Anwendung für die DNA-Buchstabenfolgen ATG, AGT, CGT, CTG, TCA, TAC, GAC, GCA, wobei die verschiedenen Farben die Häufigkeit der Motive repräsentieren. (Grafik: Hannah Franziska Löchel
Grafik: Hannah Franziska Löchel
So dekorativ schaut Informatik aus: Die Grafik zeigt beispielhaft die Anwendung für die DNA-Buchstabenfolgen ATG, AGT, CGT, CTG, TCA, TAC, GAC, GCA, wobei die verschiedenen Farben die Häufigkeit der Motive repräsentieren.

Ein neuer Algorithmus erlaubt die Erzeugung von DNA-Wörtern, die das Speichern von digitalen Informationen in DNA ermöglichen. Das Verfahren aus der Marburger Informatik berücksichtigt etliche Besonderheiten des Speichermediums: Wenn Informationen in DNA kodiert werden, dürfen zum Beispiel keine Kombinationen entstehen, die bei der Erzeugung oder weiteren Nutzung der DNA zur Langzeitspeicherung stören. Die beteiligten Wissenschaftlerinnen und Wissenschaftler berichten in der Fachzeitschrift „Nucleic Acids Research“ über ihre Ergebnisse.

Die Masse digitaler Daten steigt enorm, doch die gängigen Speichermedien überdauern nur verhältnismäßig kurz, in der Regel nur wenige Jahre. Das Forschungsprojekt „MOSLA“ nimmt die Erbsubstanz DNA als molekularen Speicher zur Langzeit-Archivierung in den Blick. „Wir beschreiben in unserer Studie einen neuartigen Ansatz, der die Konstruktion von Wörterbüchern für DNA-Speicher ermöglicht, wobei er benutzerdefinierte Einschränkungen einhält“, erläutert der Informatikprofessor Dr. Dominik Heider von der Philipps-Universität Marburg, der die Forschungsarbeit leitete.

„In DNA-Speichern werden die digitale Informationen zunächst in eine DNA-Sequenz übersetzt“, erklärt Heiders Mitarbeiterin Dr. Hannah Franziska Löchel, die Erstautorin des Fachaufsatzes. Im nächsten Schritt wird die DNA gemäß dieser Vorlage synthetisiert, also chemisch hergestellt. „Die Buchstabenfolge der DNA kann jederzeit mit Sequenzierern ausgelesen werden, um die gespeicherten Informationen abzurufen.“

Die Konstruktion der DNA unterliegt jedoch einigen Beschränkungen. Dies betrifft beispielsweise die Zusammensetzung der DNA-Sequenz, dem sogenannten GC-Gehalt. Werden diese Beschränkungen nicht eingehalten, so kann es zur Bildung von Schleifen, Spiralen oder zufälligen Verschlingungen kommen, die ein gleichmäßiges Ablesen der DNA-Sequenz verhindern.

„Eine weitere wichtige Einschränkung, die die Forschung jedoch bislang übersehen hat, sind unerwünschte Motive, die für die Synthese, Sequenzierung und Speicherung von DNA-Sequenzen relevant sind“, legt Heider dar. Dabei handelt es sich um kurze Sequenzabschnitte auf der DNA, an denen zum Beispiel Enzyme ansetzen, die das Erbmolekül schneiden, es vervielfältigen oder die darin enthaltenen Informationen ablesen.

Das Team um Heider fand einen neuartigen Ansatz, um DNA-Wörter zu erzeugen, die den genannten Bedingungen gehorchen. „Unser Modell berechnet alle möglichen Code-Wörter einer bestimmten Länge und schließt diejenigen Wörter aus, die nicht den gegebenen Beschränkungen entsprechen“, führt Löchel aus. „Das neue Modell basiert auf Fraktalen, das sind selbstähnliche Muster, die sich häufig in der Natur finden lassen.“

Um die Leistungsfähigkeit der Methode zu überprüfen, verglich die Forschungsgruppe ihren Ansatz mit anderen Algorithmen auf dem aktuellen Stand der Technik. „Andere Ansätze erfüllen nicht alle Bedingungen, die unser Verfahren berücksichtigt, obwohl sie für die Informationsspeicherung in DNA wichtig sind“, hebt die Informatikerin hervor. Die Wörterbücher, die mit dem Marburger Modell erstellt werden, lassen sich somit als Grundlage für beliebige DNA-Speichercodes verwenden.

„Soweit wir wissen, ist dies der erste Algorithmus, der DNA-Wörter konstruiert, die nicht nur die in der wissenschaftlichen Literatur beschriebenen Beschränkungen einhalten, sondern auch beliebige unerwünschte Motive ausschließen“, fasst Heider zusammen.

Professor Dr. Dominik Heider leitet die Arbeitsgruppe Data Science in der Biomedizin an der Philipps-Universität Marburg. Er ist Sprecher des Forschungsprojekts „MOSLA“, das durch das hessische Förderprogramm „LOEWE“ finanziert wird.

Originalveröffentlichung: Hannah F. Löchel & al.: Fractal Construction of Constrained Code Words for DNA Storage Systems, Nucleic Acids Research 2021, DOI: https://doi.org/10.1093/nar/gkab1209