Wie speichern Genomsequenzierungszentren solche riesigen Datenmengen?

Die Genomsequenzierung hat sich schnell von etwas entwickelt, das nur im Rahmen eines nationalen Forschungsprojekts möglich ist, zu etwas, das schnell und sogar kostengünstig durchgeführt werden kann (siehe Ist es wirklich nur 1.000 Dollar, um ein Genom zu sequenzieren?). Die Menge an DNA, die heute analysiert wird, ist überwältigend – ebenso wie der Bedarf an Datenspeicherung .





Gigabyte

Alle sechs Milliarden Basen oder Buchstaben des menschlichen Genoms zu entschlüsseln, ist keine einfache Aufgabe. Geräte zur Gensequenzierung lesen jeweils relativ kleine DNA-Stücke und stellen nach und nach genügend überlappende Informationen zusammen, um eine vollständige Auslesung des Genoms zu erstellen. Diese erste Runde der Datenerfassung erfasst riesige Mengen an Rohinformationen, die Millionen von Rohbildern entsprechen, und generiert Terabytes an Daten.

In den frühen Tagen der Sequenzierung wurden all diese Rohdaten aufbewahrt, aber neuere Geräte löschen die rohen Bildgebungsdaten nach der Verarbeitung und erzeugen eine komprimierte Datei, die das Genom in etwa 100 Gigabyte darstellt. Diese Datei enthält ein erhebliches Oversampling des Genoms – oft um einen Faktor von mindestens 30 – um sicherzustellen, dass genügend zuverlässige Informationen vorhanden sind, sagt Ilya Chorny, ein Marktmanager in der Abteilung für Unternehmensinformatik von Illumina, einem führenden Hersteller von Gensequenzierungsgeräten .



In einigen Fällen kann eine Art abgespeckter Précis von etwa einem Gigabyte verwendet werden, aber das bringt ein geringeres Maß an Vertrauen in die Genauigkeit mit sich. Michael Schatz, außerordentlicher Professor für quantitative Biologie am Cold Spring Harbor Laboratory, sagt, dass 100 Gigabyte ein guter Maßstab sind, um den Speicherbedarf eines einzelnen menschlichen Genoms für das nächste Jahrzehnt zu prognostizieren.

Angesichts der niedrigen Kosten für die Datenspeicherung scheint der schnell wachsende Bedarf kein Problem für Genomikzentren zu sein. Bedenken Sie, dass ein 4-Terabyte-Laufwerk, das auf Zuverlässigkeit für Unternehmen ausgelegt ist, nur 130 US-Dollar kosten kann. Vier Terabyte sind 4.000 Gigabyte oder genug, um 40 Genome zu speichern, was bedeutet, dass jeder Speicherkapazität im Wert von etwa 3 US-Dollar plus ein bisschen mehr für redundante Offline-Sicherungen verbrauchen würde.

Aber viele Institutionen erzeugen jetzt jeden Monat Hunderte von Terabyte an Daten und müssen diese in einer Form speichern, die weltweit leicht zugänglich ist. Illumina bietet einen solchen Cloud-Speicherdienst an, aber es gibt einen zunehmenden Wettbewerb. Ende 2014 begann Google Genomics damit, die Speicherung von Genomdaten für 2,2 Cent pro Gigabyte und Monat anzubieten, was bei 100 Gigabyte 26 US-Dollar pro Jahr entspricht. Amazon Web Services bietet auch Genomik-Services an. Es veröffentlicht keine öffentliche Preisliste; Die Standardspeichergebühren würden etwa 35 US-Dollar pro Jahr für 100 Gigabyte betragen.



Zukunfts Schock

Die Datenanforderungen werden noch intensiver. Während die in jeder Zelle vorhandene DNA ursprünglich als konsistenter Bauplan für das gesamte Lebewesen angesehen wurde, stimmt das sicherlich nicht, sagt Schatz. Die Genforschung hat große Unterschiede zwischen verschiedenen Zellen in derselben Person oder in einem anderen Organismus festgestellt. Das könnte bedeuten, dass mehr als eine Instanz des Genoms einer Person gespeichert werden muss. Diese zusätzlichen Daten könnten sich für eine erhebliche Komprimierung eignen, da möglicherweise nur die Unterschiede zwischen der DNA in verschiedenen Zellen gespeichert werden müssen und nicht die Genome als Ganzes. Die Komprimierung erhöht jedoch die Rechenlast, wenn auf die Daten zugegriffen und sie analysiert werden müssen. Wenn die Speicherung billiger ist als die erforderlichen Berechnungen, kann es sinnvoll sein, die Daten auf weniger effiziente Weise verfügbar zu halten.

Schatz und neun Kollegen von der University of Illinois in Urbana-Champaign veröffentlichten im Juli ein Papier, das versuchte, die bevorstehenden Speicheranforderungen für die Sequenzierung in den Griff zu bekommen. Da die Technologie besser und billiger wird, werden ihrer Schätzung nach zwischen 100 Millionen und zwei Milliarden menschliche Genome bis 2025 gespeichert. Dieses Wachstum übersteigt das Tempo der Datenanforderungen für andere massive und wachsende Speichernutzer – darunter insbesondere YouTube und Astronomie ein ganzes.



Danke an Nidhan Biswas für diese Frage. Wenn Sie eine haben, senden Sie sie an readerquestions@technologyreview.com

verbergen