SlideShare ist ein Scribd-Unternehmen logo
0 Copyright 2016 FUJITSU
Schnelle Orientierung in Genomdaten
Dr. Fritz Schinkel
Fujitsu München
Dr. Matthias Schlesner
DKFZ Heidelberg
03.03.2016 Matthias Schlesner1
Blut
Tumor
„Keimbahn“- DNA
Tumor-DNA
Whole Genome
Sequencing
Tumor-spezifische
Mutationen
Spezifische Vulne-
rabilitäten des Tumors
Report
Bioinformatische
Analyse
Therapie-
Entscheidung
Genombasierte Krebsmedizin
03.03.2016 Matthias Schlesner2
Deutsches
Krebsforschungszentrum
betreibt Illumina X Ten
• Kapazität: 18.000
humane Genome (30x)
pro Jahr
Personalisierte Onkologie
Illumina HiSeq X Ten
www.illumina.com
• Ziel: allen Tumorpatienten am Nationalen Centrum für
Tumorerkrankungen in Heidelberg (~3.500 Patienten p.a.) die
Sequenzierung (whole genome) des Tumorgenoms anbieten
03.03.2016 Matthias Schlesner3
Big Data: Wachstumsraten
• 600 Terabytes pro Tag
(Blog-Eintrag auf code.facebook.com
von April 10th, 2014)
• 12 Terabytes pro Tag
(Cloud Data Management; Liang
Zhao et al., 2014)
• Sequencing@DKFZ
~10 Terabytes pro Tag
03.03.2016 Matthias Schlesner4
Jahr
1e+001e+031e+061e+09
1Tbp1Pbp1Ebp1Zbp
Stephens ZD, Lee SY, Faghri F, et al. (2015) Big Data: Astronomical or Genomical?. PLoS Biol 13(7): e1002195.
Aktuelle Kapazität:
>35 Pbp* p.a.
WeltweiteSequenzierkapazitätp.a.
SequenziertehumaneGenome
2000 2005 2010 2015 2020 2025
Entwicklung der Genomsequenzierung
Bisheriger Zuwachs
Verdopplung alle 7 Monate (historisch)
Verdopplung alle 12 Monate (Illumina)
Verdopplung alle 18 Monate (Moore’s Law)
*) Pbp = Peta base pairs
03.03.2016 Matthias Schlesner5
alignierte Rohdaten
(BAM Files)
Kohorten-weite Analysen
Abweichungen zum
Referenzgenom
Tumorspezifische Mutationen
200 Gigabyte / Patient
5 Gigabyte / Patient
50 Megabyte / Patient
Aktuelle Strategie: Datenreduktion
03.03.2016 Matthias Schlesner6
Problem durch Datenreduktion:
Was bedeutet “keine Mutation gefunden”?
keine Mutation gefunden
keine Mutation vorhanden
Mutation nicht detektierbar
=> wegen Datenreduktion nicht unterscheidbar
03.03.2016 Matthias Schlesner7
• Analyse einer Testkohorte (52 Patienten, je ein Tumor-
und ein Kontrollgenom) ohne Datenreduktion
1. Performance-Vergleich bei der Analyse von ~900.000
Positionen in der gesamten Kohorte
2. Identifikation von Regionen in bekannten Krebsgenen ohne
ausreichende Abdeckung zur verlässlichen Identifikation von
Mutationen
03.03.2016
Zielsetzung
8 Copyright 2016 FUJITSU
Storage
HPC oder Hadoop Cluster
BAM2 B2,1 B2,2 B2,3 B2,n...
BAM1 B1,1 B1,2 B1,3 B1,n...
BAM3 B3,1 B3,2 B3,3 B3,n...
BAMm Bm,1 Bm,2 Bm,3 Bm,n...
HPC - Cluster Hadoop - Cluster
BAM2
BAM1
BAM3
BAMm
Bi,j
Bi,j
Bi,j
Bi,j
...
...
...
B2,1
B3,1
Bm,1
B1,1
B2,2 B2,3 B2,n
B1,2 B1,3 B1,n
B3,2 B3,3 B3,n
Bm,2 Bm,3 Bm,n...
9 Copyright 2016 FUJITSU
Bedienung: Daten statt Technik
Sammlung
Referenzgenom
DiagnoseDNA Proben
Analyse
10 Copyright 2016 FUJITSU
Datenübernahme
Kohorten Table
(HDFS)
BAM 104 DNS Proben
140.000.000.000 Records,
14*1012 Basen
45 TB Daten (18TB komprimiert)
11 Copyright 2016 FUJITSU
Erster Blick auf die Daten / Histogramme
12 Copyright 2016 FUJITSU
Schritt für Schritt:
Analytische Pipeline in Spreadsheets
13 Copyright 2016 FUJITSU
Drag & Drop Infographics
14 Copyright 2016 FUJITSU
Analyse
 3 Input Dateien:
 6 Workbooks / 4 Plugin-Funktionen (Java)
 8 Grafiken
Block
FormattingReference
Genome
Pileup
Base Gaps
Gap Map
Filter
Tables
Exon Gaps
Gap Chart
CIGAR
Decomposition
Detail
Selection
Patient
Data
03.03.2016 Matthias Schlesner15
Performance Test: Selektiver Pileup
Basen / min * core: 1,6 Mrd
Zeit pro BAM file: 8 Minuten
(Parallelisierung auf Chromosomenebene)
Skalierung: problematisch
(Bottlenecks: zentraler File-Server)
 21 Knoten, (105 Cores)
 104 BAM Files (14 Tbp)
 898.677 Pileup Positionen
 1 HPC Knoten (1 Core)
 1 BAM File (0,14 Tbp)
 898.677 Pileup Positionen
Basen / min * core: 1,9 Mrd
Zeit pro BAM file: <2 Minuten
(Parallelisierung auf Blockebene)
Skalierung: unproblematisch
HPC Hadoop
 Laufzeit: 85 Minuten  Laufzeit: 70 Minuten
03.03.2016 Matthias Schlesner16
Große Patientenkohorten (Forschung)
• Kostengünstige Server / Storage Konsolidierung
• Ohne Datentransport kürzere Gesamtlaufzeit
 Beschleunigung von Analysen auf Rohdaten (~20%)
Analyse einzelner Patientendaten (Klinik)
• Parallele Analyse einzelner Patientendaten
 Um Faktoren schnellere Voll- und Detailanalysen (~4 x)
Hadoop: Geeignete Plattform für Genomdaten
Kosten
Durchsatz
03.03.2016 Matthias Schlesner17
Blind Spots in Krebsgenen
 Exone von Krebsgenen
 Anteil mit nicht ausreichender
Abdeckung zur Identifizierung
von Mutationen
 Kohorte von 52 Patienten
 Top 100 von 2208 untersuchten
Exonen
AnteilmitmangelhafterAbdeckung
Kontrolle
Tumor
Exon
03.03.2016 Matthias Schlesner18
Blind Spots in Krebsgenen
03.03.2016 Matthias Schlesner19
Durchschnittliche Abdeckung im Überblick
Chromosom
Exone in Krebsgenen (nach Position)
20 Copyright 2016 FUJITSU
Zusammenfassung und Ausblick
 Genomweite Datensätze konnten im Hadoop-Cluster parallel und
ohne Skalierungsprobleme analysiert werden
 Spreadsheets erlauben Nutzern ohne Programmierkenntnisse die
Analyse genomweiter Datensätze
 Mehrere Regionen in Krebsgenen ohne ausreichende
Sequenzierdaten zur Identifikation von Mutationen wurden
identifiziert
21 Copyright 2016 FUJITSU

Weitere ähnliche Inhalte

Andere mochten auch

Fujitsu Storage Days 2017 - Norbert Postler: „Was auch passiert – bleiben Sie...
Fujitsu Storage Days 2017 - Norbert Postler: „Was auch passiert – bleiben Sie...Fujitsu Storage Days 2017 - Norbert Postler: „Was auch passiert – bleiben Sie...
Fujitsu Storage Days 2017 - Norbert Postler: „Was auch passiert – bleiben Sie...
Fujitsu Central Europe
 
Fujitsu Storage Days 2017 - Friedrich Esser - „Aus der Praxis – für die Praxis“
Fujitsu Storage Days 2017 - Friedrich Esser - „Aus der Praxis – für die Praxis“Fujitsu Storage Days 2017 - Friedrich Esser - „Aus der Praxis – für die Praxis“
Fujitsu Storage Days 2017 - Friedrich Esser - „Aus der Praxis – für die Praxis“
Fujitsu Central Europe
 
Fujitsu Storage Days 2017 - Rudolf Klassen - "Erfahrungsbericht ETERNUS DX200...
Fujitsu Storage Days 2017 - Rudolf Klassen - "Erfahrungsbericht ETERNUS DX200...Fujitsu Storage Days 2017 - Rudolf Klassen - "Erfahrungsbericht ETERNUS DX200...
Fujitsu Storage Days 2017 - Rudolf Klassen - "Erfahrungsbericht ETERNUS DX200...
Fujitsu Central Europe
 
Storage Days 2017 - Manuel Namuth - "Flash auf Diät – Selektive Deduplizierun...
Storage Days 2017 - Manuel Namuth - "Flash auf Diät – Selektive Deduplizierun...Storage Days 2017 - Manuel Namuth - "Flash auf Diät – Selektive Deduplizierun...
Storage Days 2017 - Manuel Namuth - "Flash auf Diät – Selektive Deduplizierun...
Fujitsu Central Europe
 
Interview Behörden Spiegel / September 2016: Wollen die Broker-Rolle übernehmen
Interview Behörden Spiegel / September 2016: Wollen die Broker-Rolle übernehmenInterview Behörden Spiegel / September 2016: Wollen die Broker-Rolle übernehmen
Interview Behörden Spiegel / September 2016: Wollen die Broker-Rolle übernehmen
Fujitsu Central Europe
 
Fujitsu Storage Days 2017 - Reimar Engelhardt & David H. James: "Stiftung Hos...
Fujitsu Storage Days 2017 - Reimar Engelhardt & David H. James: "Stiftung Hos...Fujitsu Storage Days 2017 - Reimar Engelhardt & David H. James: "Stiftung Hos...
Fujitsu Storage Days 2017 - Reimar Engelhardt & David H. James: "Stiftung Hos...
Fujitsu Central Europe
 
Fujitsu Storage Days 2017 - Andre Krüger - Erfahrungsbericht ETERNUS DX500
Fujitsu Storage Days 2017 - Andre Krüger - Erfahrungsbericht ETERNUS DX500Fujitsu Storage Days 2017 - Andre Krüger - Erfahrungsbericht ETERNUS DX500
Fujitsu Storage Days 2017 - Andre Krüger - Erfahrungsbericht ETERNUS DX500
Fujitsu Central Europe
 
Intel big data analytics in health and life sciences personalized medicine
Intel big data analytics in health and life sciences personalized medicineIntel big data analytics in health and life sciences personalized medicine
Intel big data analytics in health and life sciences personalized medicine
Ketan Paranjape
 

Andere mochten auch (8)

Fujitsu Storage Days 2017 - Norbert Postler: „Was auch passiert – bleiben Sie...
Fujitsu Storage Days 2017 - Norbert Postler: „Was auch passiert – bleiben Sie...Fujitsu Storage Days 2017 - Norbert Postler: „Was auch passiert – bleiben Sie...
Fujitsu Storage Days 2017 - Norbert Postler: „Was auch passiert – bleiben Sie...
 
Fujitsu Storage Days 2017 - Friedrich Esser - „Aus der Praxis – für die Praxis“
Fujitsu Storage Days 2017 - Friedrich Esser - „Aus der Praxis – für die Praxis“Fujitsu Storage Days 2017 - Friedrich Esser - „Aus der Praxis – für die Praxis“
Fujitsu Storage Days 2017 - Friedrich Esser - „Aus der Praxis – für die Praxis“
 
Fujitsu Storage Days 2017 - Rudolf Klassen - "Erfahrungsbericht ETERNUS DX200...
Fujitsu Storage Days 2017 - Rudolf Klassen - "Erfahrungsbericht ETERNUS DX200...Fujitsu Storage Days 2017 - Rudolf Klassen - "Erfahrungsbericht ETERNUS DX200...
Fujitsu Storage Days 2017 - Rudolf Klassen - "Erfahrungsbericht ETERNUS DX200...
 
Storage Days 2017 - Manuel Namuth - "Flash auf Diät – Selektive Deduplizierun...
Storage Days 2017 - Manuel Namuth - "Flash auf Diät – Selektive Deduplizierun...Storage Days 2017 - Manuel Namuth - "Flash auf Diät – Selektive Deduplizierun...
Storage Days 2017 - Manuel Namuth - "Flash auf Diät – Selektive Deduplizierun...
 
Interview Behörden Spiegel / September 2016: Wollen die Broker-Rolle übernehmen
Interview Behörden Spiegel / September 2016: Wollen die Broker-Rolle übernehmenInterview Behörden Spiegel / September 2016: Wollen die Broker-Rolle übernehmen
Interview Behörden Spiegel / September 2016: Wollen die Broker-Rolle übernehmen
 
Fujitsu Storage Days 2017 - Reimar Engelhardt & David H. James: "Stiftung Hos...
Fujitsu Storage Days 2017 - Reimar Engelhardt & David H. James: "Stiftung Hos...Fujitsu Storage Days 2017 - Reimar Engelhardt & David H. James: "Stiftung Hos...
Fujitsu Storage Days 2017 - Reimar Engelhardt & David H. James: "Stiftung Hos...
 
Fujitsu Storage Days 2017 - Andre Krüger - Erfahrungsbericht ETERNUS DX500
Fujitsu Storage Days 2017 - Andre Krüger - Erfahrungsbericht ETERNUS DX500Fujitsu Storage Days 2017 - Andre Krüger - Erfahrungsbericht ETERNUS DX500
Fujitsu Storage Days 2017 - Andre Krüger - Erfahrungsbericht ETERNUS DX500
 
Intel big data analytics in health and life sciences personalized medicine
Intel big data analytics in health and life sciences personalized medicineIntel big data analytics in health and life sciences personalized medicine
Intel big data analytics in health and life sciences personalized medicine
 

Mehr von Fujitsu Central Europe

Quantum Algorithms @ work - Short introduction to Quantum Annealing and opera...
Quantum Algorithms @ work - Short introduction to Quantum Annealing and opera...Quantum Algorithms @ work - Short introduction to Quantum Annealing and opera...
Quantum Algorithms @ work - Short introduction to Quantum Annealing and opera...
Fujitsu Central Europe
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
Workshop:  Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...Workshop:  Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
Fujitsu Central Europe
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung -...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung -...Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung -...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung -...
Fujitsu Central Europe
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung -...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung -...Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung -...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung -...
Fujitsu Central Europe
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Fujitsu Central Europe
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Fujitsu Central Europe
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Fujitsu Central Europe
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Fujitsu Central Europe
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Fujitsu Central Europe
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
Workshop:  Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...Workshop:  Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
Fujitsu Central Europe
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
Workshop:  Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...Workshop:  Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
Fujitsu Central Europe
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Fujitsu Central Europe
 
Fujitsu Storage Days 2018 - Kontrollverlust vermeiden
Fujitsu Storage Days 2018 - Kontrollverlust vermeidenFujitsu Storage Days 2018 - Kontrollverlust vermeiden
Fujitsu Storage Days 2018 - Kontrollverlust vermeiden
Fujitsu Central Europe
 
Fujitsu Storage Days 2018 - Eternus Survivalpack
Fujitsu Storage Days 2018 - Eternus SurvivalpackFujitsu Storage Days 2018 - Eternus Survivalpack
Fujitsu Storage Days 2018 - Eternus Survivalpack
Fujitsu Central Europe
 
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp research
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp researchFujitsu Storage Days 2018 - Erfahrungsbericht crisp research
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp research
Fujitsu Central Europe
 
Fujitsu Storage Days 2018 - Der Bergdoktor in Aktion
Fujitsu Storage Days 2018 - Der Bergdoktor in AktionFujitsu Storage Days 2018 - Der Bergdoktor in Aktion
Fujitsu Storage Days 2018 - Der Bergdoktor in Aktion
Fujitsu Central Europe
 
Fujitsu Storage Days 2018 - 3-S-IT Dienstleistungen GmbH
Fujitsu Storage Days 2018 - 3-S-IT Dienstleistungen GmbHFujitsu Storage Days 2018 - 3-S-IT Dienstleistungen GmbH
Fujitsu Storage Days 2018 - 3-S-IT Dienstleistungen GmbH
Fujitsu Central Europe
 
Fujitsu Storage Days 2018 - Siemens Schweiz AG
Fujitsu Storage Days 2018 - Siemens Schweiz AGFujitsu Storage Days 2018 - Siemens Schweiz AG
Fujitsu Storage Days 2018 - Siemens Schweiz AG
Fujitsu Central Europe
 
Fujitsu Storage Days 2018 - „Mit Fujitsu zum Gipfelstürmer werden – Ihr Sherp...
Fujitsu Storage Days 2018 - „Mit Fujitsu zum Gipfelstürmer werden – Ihr Sherp...Fujitsu Storage Days 2018 - „Mit Fujitsu zum Gipfelstürmer werden – Ihr Sherp...
Fujitsu Storage Days 2018 - „Mit Fujitsu zum Gipfelstürmer werden – Ihr Sherp...
Fujitsu Central Europe
 
Fujitsu Storage Days 2018 - Josefs-Gesellschaft Köln (JG-Gruppe)
Fujitsu Storage Days 2018 - Josefs-Gesellschaft Köln (JG-Gruppe)Fujitsu Storage Days 2018 - Josefs-Gesellschaft Köln (JG-Gruppe)
Fujitsu Storage Days 2018 - Josefs-Gesellschaft Köln (JG-Gruppe)
Fujitsu Central Europe
 

Mehr von Fujitsu Central Europe (20)

Quantum Algorithms @ work - Short introduction to Quantum Annealing and opera...
Quantum Algorithms @ work - Short introduction to Quantum Annealing and opera...Quantum Algorithms @ work - Short introduction to Quantum Annealing and opera...
Quantum Algorithms @ work - Short introduction to Quantum Annealing and opera...
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
Workshop:  Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...Workshop:  Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung -...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung -...Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung -...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung -...
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung -...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung -...Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung -...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung -...
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
Workshop:  Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...Workshop:  Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
Workshop:  Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...Workshop:  Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung ...
 
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...Workshop:   Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
Workshop: Mit Sicherheit Datenschutz in der Gesetzlichen Unfallversicherung...
 
Fujitsu Storage Days 2018 - Kontrollverlust vermeiden
Fujitsu Storage Days 2018 - Kontrollverlust vermeidenFujitsu Storage Days 2018 - Kontrollverlust vermeiden
Fujitsu Storage Days 2018 - Kontrollverlust vermeiden
 
Fujitsu Storage Days 2018 - Eternus Survivalpack
Fujitsu Storage Days 2018 - Eternus SurvivalpackFujitsu Storage Days 2018 - Eternus Survivalpack
Fujitsu Storage Days 2018 - Eternus Survivalpack
 
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp research
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp researchFujitsu Storage Days 2018 - Erfahrungsbericht crisp research
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp research
 
Fujitsu Storage Days 2018 - Der Bergdoktor in Aktion
Fujitsu Storage Days 2018 - Der Bergdoktor in AktionFujitsu Storage Days 2018 - Der Bergdoktor in Aktion
Fujitsu Storage Days 2018 - Der Bergdoktor in Aktion
 
Fujitsu Storage Days 2018 - 3-S-IT Dienstleistungen GmbH
Fujitsu Storage Days 2018 - 3-S-IT Dienstleistungen GmbHFujitsu Storage Days 2018 - 3-S-IT Dienstleistungen GmbH
Fujitsu Storage Days 2018 - 3-S-IT Dienstleistungen GmbH
 
Fujitsu Storage Days 2018 - Siemens Schweiz AG
Fujitsu Storage Days 2018 - Siemens Schweiz AGFujitsu Storage Days 2018 - Siemens Schweiz AG
Fujitsu Storage Days 2018 - Siemens Schweiz AG
 
Fujitsu Storage Days 2018 - „Mit Fujitsu zum Gipfelstürmer werden – Ihr Sherp...
Fujitsu Storage Days 2018 - „Mit Fujitsu zum Gipfelstürmer werden – Ihr Sherp...Fujitsu Storage Days 2018 - „Mit Fujitsu zum Gipfelstürmer werden – Ihr Sherp...
Fujitsu Storage Days 2018 - „Mit Fujitsu zum Gipfelstürmer werden – Ihr Sherp...
 
Fujitsu Storage Days 2018 - Josefs-Gesellschaft Köln (JG-Gruppe)
Fujitsu Storage Days 2018 - Josefs-Gesellschaft Köln (JG-Gruppe)Fujitsu Storage Days 2018 - Josefs-Gesellschaft Köln (JG-Gruppe)
Fujitsu Storage Days 2018 - Josefs-Gesellschaft Köln (JG-Gruppe)
 

Schnelle Orientierung in Genomdaten

  • 1. 0 Copyright 2016 FUJITSU Schnelle Orientierung in Genomdaten Dr. Fritz Schinkel Fujitsu München Dr. Matthias Schlesner DKFZ Heidelberg
  • 2. 03.03.2016 Matthias Schlesner1 Blut Tumor „Keimbahn“- DNA Tumor-DNA Whole Genome Sequencing Tumor-spezifische Mutationen Spezifische Vulne- rabilitäten des Tumors Report Bioinformatische Analyse Therapie- Entscheidung Genombasierte Krebsmedizin
  • 3. 03.03.2016 Matthias Schlesner2 Deutsches Krebsforschungszentrum betreibt Illumina X Ten • Kapazität: 18.000 humane Genome (30x) pro Jahr Personalisierte Onkologie Illumina HiSeq X Ten www.illumina.com • Ziel: allen Tumorpatienten am Nationalen Centrum für Tumorerkrankungen in Heidelberg (~3.500 Patienten p.a.) die Sequenzierung (whole genome) des Tumorgenoms anbieten
  • 4. 03.03.2016 Matthias Schlesner3 Big Data: Wachstumsraten • 600 Terabytes pro Tag (Blog-Eintrag auf code.facebook.com von April 10th, 2014) • 12 Terabytes pro Tag (Cloud Data Management; Liang Zhao et al., 2014) • Sequencing@DKFZ ~10 Terabytes pro Tag
  • 5. 03.03.2016 Matthias Schlesner4 Jahr 1e+001e+031e+061e+09 1Tbp1Pbp1Ebp1Zbp Stephens ZD, Lee SY, Faghri F, et al. (2015) Big Data: Astronomical or Genomical?. PLoS Biol 13(7): e1002195. Aktuelle Kapazität: >35 Pbp* p.a. WeltweiteSequenzierkapazitätp.a. SequenziertehumaneGenome 2000 2005 2010 2015 2020 2025 Entwicklung der Genomsequenzierung Bisheriger Zuwachs Verdopplung alle 7 Monate (historisch) Verdopplung alle 12 Monate (Illumina) Verdopplung alle 18 Monate (Moore’s Law) *) Pbp = Peta base pairs
  • 6. 03.03.2016 Matthias Schlesner5 alignierte Rohdaten (BAM Files) Kohorten-weite Analysen Abweichungen zum Referenzgenom Tumorspezifische Mutationen 200 Gigabyte / Patient 5 Gigabyte / Patient 50 Megabyte / Patient Aktuelle Strategie: Datenreduktion
  • 7. 03.03.2016 Matthias Schlesner6 Problem durch Datenreduktion: Was bedeutet “keine Mutation gefunden”? keine Mutation gefunden keine Mutation vorhanden Mutation nicht detektierbar => wegen Datenreduktion nicht unterscheidbar
  • 8. 03.03.2016 Matthias Schlesner7 • Analyse einer Testkohorte (52 Patienten, je ein Tumor- und ein Kontrollgenom) ohne Datenreduktion 1. Performance-Vergleich bei der Analyse von ~900.000 Positionen in der gesamten Kohorte 2. Identifikation von Regionen in bekannten Krebsgenen ohne ausreichende Abdeckung zur verlässlichen Identifikation von Mutationen 03.03.2016 Zielsetzung
  • 9. 8 Copyright 2016 FUJITSU Storage HPC oder Hadoop Cluster BAM2 B2,1 B2,2 B2,3 B2,n... BAM1 B1,1 B1,2 B1,3 B1,n... BAM3 B3,1 B3,2 B3,3 B3,n... BAMm Bm,1 Bm,2 Bm,3 Bm,n... HPC - Cluster Hadoop - Cluster BAM2 BAM1 BAM3 BAMm Bi,j Bi,j Bi,j Bi,j ... ... ... B2,1 B3,1 Bm,1 B1,1 B2,2 B2,3 B2,n B1,2 B1,3 B1,n B3,2 B3,3 B3,n Bm,2 Bm,3 Bm,n...
  • 10. 9 Copyright 2016 FUJITSU Bedienung: Daten statt Technik Sammlung Referenzgenom DiagnoseDNA Proben Analyse
  • 11. 10 Copyright 2016 FUJITSU Datenübernahme Kohorten Table (HDFS) BAM 104 DNS Proben 140.000.000.000 Records, 14*1012 Basen 45 TB Daten (18TB komprimiert)
  • 12. 11 Copyright 2016 FUJITSU Erster Blick auf die Daten / Histogramme
  • 13. 12 Copyright 2016 FUJITSU Schritt für Schritt: Analytische Pipeline in Spreadsheets
  • 14. 13 Copyright 2016 FUJITSU Drag & Drop Infographics
  • 15. 14 Copyright 2016 FUJITSU Analyse  3 Input Dateien:  6 Workbooks / 4 Plugin-Funktionen (Java)  8 Grafiken Block FormattingReference Genome Pileup Base Gaps Gap Map Filter Tables Exon Gaps Gap Chart CIGAR Decomposition Detail Selection Patient Data
  • 16. 03.03.2016 Matthias Schlesner15 Performance Test: Selektiver Pileup Basen / min * core: 1,6 Mrd Zeit pro BAM file: 8 Minuten (Parallelisierung auf Chromosomenebene) Skalierung: problematisch (Bottlenecks: zentraler File-Server)  21 Knoten, (105 Cores)  104 BAM Files (14 Tbp)  898.677 Pileup Positionen  1 HPC Knoten (1 Core)  1 BAM File (0,14 Tbp)  898.677 Pileup Positionen Basen / min * core: 1,9 Mrd Zeit pro BAM file: <2 Minuten (Parallelisierung auf Blockebene) Skalierung: unproblematisch HPC Hadoop  Laufzeit: 85 Minuten  Laufzeit: 70 Minuten
  • 17. 03.03.2016 Matthias Schlesner16 Große Patientenkohorten (Forschung) • Kostengünstige Server / Storage Konsolidierung • Ohne Datentransport kürzere Gesamtlaufzeit  Beschleunigung von Analysen auf Rohdaten (~20%) Analyse einzelner Patientendaten (Klinik) • Parallele Analyse einzelner Patientendaten  Um Faktoren schnellere Voll- und Detailanalysen (~4 x) Hadoop: Geeignete Plattform für Genomdaten Kosten Durchsatz
  • 18. 03.03.2016 Matthias Schlesner17 Blind Spots in Krebsgenen  Exone von Krebsgenen  Anteil mit nicht ausreichender Abdeckung zur Identifizierung von Mutationen  Kohorte von 52 Patienten  Top 100 von 2208 untersuchten Exonen AnteilmitmangelhafterAbdeckung Kontrolle Tumor Exon
  • 20. 03.03.2016 Matthias Schlesner19 Durchschnittliche Abdeckung im Überblick Chromosom Exone in Krebsgenen (nach Position)
  • 21. 20 Copyright 2016 FUJITSU Zusammenfassung und Ausblick  Genomweite Datensätze konnten im Hadoop-Cluster parallel und ohne Skalierungsprobleme analysiert werden  Spreadsheets erlauben Nutzern ohne Programmierkenntnisse die Analyse genomweiter Datensätze  Mehrere Regionen in Krebsgenen ohne ausreichende Sequenzierdaten zur Identifikation von Mutationen wurden identifiziert
  • 22. 21 Copyright 2016 FUJITSU