Exome解析入門

Exomeデータ解析入門

2012年7月7日
アメリエフ株式会社

Copyright © Amelieff Co. Ltd. All Rights Reserved.

サンプルデータ

 遺伝性疾患
I  罹患した子供とその両親のトリオ
 優性遺伝の形式をとる
 幼少期に発症

II  原因として報告されている遺伝子変異があるが
見つからなかった

未知の原因遺伝子が関与している可能性が示唆

2

E xo m e 解析フロー
I I 罹患 I 罹患 I 非罹患
QC QC QC

サンプルごとの Mapping Mapping Mapping
解析
SNV/Indel SNV/Indel SNV/Indel

共通

非罹患者と共通する多型を除く
疾患関連遺伝子
疾患関連変異の候補
の探索
セグメントゲノム重複(segmental duplication)の領域を除く
Common SNP, HomoのSNVは避ける
Mutation typeで絞り込む

実験的に検証

3

E xo m e 解析フロー【サンプルごと解析】

QC 1. QCleaner ： Fastqファイルをフィルタリング

1. BWA ：マッピング
Mapping 2. Picard ：重複リードの除去

1. GATK ：リアラインメント
： Recalibration
： SNV/Indel検出
SNV/Indel ：フィルタリング
2. QuickAnnotator ：アノテーション付与
3. snpEFF ：アノテーション付与/集計

4

E xo m e 解析フロー【疾患関連遺伝子の探索】

サンプル間
BEDtools ：罹患者に共通する多型を抽出
共通

BEDtools ：非罹患者と共通する多型を除外
疾患関連
BEDtools ：セグメントゲノム重複(segmental duplication)領域の
変異の候補
多型を除外

Linuxコマンド：Common SNP, HomoのSNVは避ける
絞り込み
Mutation typeで絞り込む

実験的に
検証
5

サンプルごとの解析
【コマンド】
1. QCleaner ： Fastqファイルをフィルタリング ※自社開発のプログラムです。

QC $ perl qcleaner.pl --i1 $FILE1.fastq --i2 $FILE2.fastq --o1
$FILE1.clean.fastq --o2 $FILE2.clean.fastq --qp 20,80 --n 10 --
trim 20 --length 20 --log $FILE.qc.log

FASTQ形式にマッチするかチェック

データクオリティチェック（FastQC）
Mapping
Illumina CASAVA filter [Y] を除去

クオリティ20未満が80%以上のリードを除去

クオリティ20未満の末端をトリム

未知の塩基(N)が多いリード除去

SNV/Indel 配列長が短いリード除去

片側のみのリードを除外

データクオリティチェック（FastQC）

6

【コマンド】
1. QCleaner ： Fastqファイルをフィルタリング
QC ※公開ツールを組み合わせても同じ処理を行えます。下記のコマンドは、一部のコマンドです。

・データチェック
$ fastqc --nogroup -o ./ -f fastq $FILE1.fastq $FILE2.fastq

Mapping ・クオリティ20以上の塩基が80%未満のリードを削除
$ fastq_quality_filter -i $FILE1.fastq -o $FILE1.qual.fastq
-q 20 -p 80 -Q 33 -v

・ペアのリードを抽出
$ cmpfastq.pl $FILE1.fastq $FILE2.fastq

SNV/Indel 出力ファイル SRR290592_1.qual.fastq-common.out
SRR290592_1.qual.fastq-unique.out※１
SRR290592_2.qual.fastq-common.out
SRR290592_2.qual.fastq-unique.out ※１
※ １使用しないという選択肢もありますが、シングルエンドとしてマッピングするということもできます。

7

【コマンド】
1. Qcleaner ： Fastqファイルをフィルタリング
QC

Mapping
Sequence length : 90
%GC : 44

SNV/Indel
処理後／処理前残存割合
リード数 62,157,419 ／ 62,167,318 99.98%
塩基数 5,594,167,710 ／ 5,595,058,620 99.98%
8

【コマンド】
QC ※ リファレンス

GRCh Build37 ＋デコイ配列 Version 5

Mapping デコイ配列とは？
ヒトWhole Genome Sequencing Cloneを「ヒトゲノム＋ヒトヘルペスウイルスHHV-4 」に
マッピングして、よくマップできなかったものを集めたもの

サイズ：合計35.4Mb、N50=22.9kb
特徴： 50%はサテライト配列またはシンプルリピート、20%はレトロトランスポゾン
用途： ① リファレンスゲノムにデコイを入れてマッピングすることにより、SNP検
SNV/Indel 出精度が上がる
② 構造変異の検出精度が上がることも期待される

9

【コマンド】
QC ・マッピング／SAMをBAMに変換／ソート
$ bwa aln -t 6 genome_hs37d5cs.fa $FILE1.clean.fastq -f
$FILE1.sai

$ bwa sampe -r "@RG¥tID:$FILE¥tSM:$FILE¥tPL:Illumina" -n 3
Mapping -N 10 -a 500 genome_hs37d5cs.fa $FILE1.sai $FILE2.sai
$FILE1.clean.fastq $FILE2.clean.fastq | samtools view -Sb -
| samtools sort - $FILE.sorted

※オプション
-a INT maximum insert size [500]
-n INT maximum hits to output for paired reads [3]
-N INT maximum hits to output for discordant pairs [10]

SNV/Indel ※RG（read groups）
platform (PL) および sample (SM)が必要
PLの例：454, LS454, Illumina, Solid, ABI_Solid, CG (all case-insensitive)
解析ツールGATKに入力するBAMファイルに、RGタグの記述がないとエラーが出る

10

【コマンド】
QC ・ BAMファイルのインデックス作成
$ samtools index $FILE.sorted.bam

・マッピング率算出
$ samtools idxstats $FILE.sorted.bam | awk '{a += $3; b +=
Mapping $4} END {print "mapping=",a,",unmapping=",b,"mapped ratio=",
a/(a+b)}'

※ samtools idxstatsを実行すると下記のような画面が標準出力されます

染色体染色体の塩基数 mapped unmapped
chr1 249250621 10967229 76642
chr10 135534747 4339778 29214
：
SNV/Indel chr9 141213431 4480449 38793
chrM 16571 1769 13
chrX 155270560 2441946 15933
chrY 59373566 519445 7890
* 0 0 1296678

11

【コマンド】
2. Picard ：重複リードの除去
QC $ java -jar MarkDuplicates.jar I=$FILE.sorted.bam
O=$FILE.sorted.redup.bam METRICS_FILE=jeter.metrics
REMOVE_DUPLICATES=true ASSUME_SORTED=true
VALIDATION_STRINGENCY=SILENT

Mapping ※BAMファイルを操作する上で、便利なコマンド
・BAMファイルの中身を表示する
$ samtools view $FILE.sorted.redup.bam | less

・必要な領域を抜き出す
$ samtools view -b $FILE.sorted.bam chr3:24148647-24546266 >
$FILE.chr3.sorted.bam
SNV/Indel

12

【コマンド】
1. GATK
QC
※入力ファイルを確認
① マップされていないリードと、そのペアのリードは除く
$ samtools view -b -F 12 $FILE.sorted.redup.bam >
$FILE.sorted.redup.f12.bam

Mapping ② ソートは、数字が大きくなる順番にする
$ java -jar ReorderSam.jar I=$FILE.sorted.redup.f12.bam
O=$FILE.kary.redup.f12.bam REFERENCE=genome_hs37d5cs.fa

③ RG（read groups）情報を入れる
$ java -Xmx10G -jar AddOrReplaceReadGroups.jar
I=$FILE.kary.redup.f12.bam O=$FILE.kary.bam SO=coordinate
RGID=$FILE RGLB=$FILE RGPL=Illumina RGPU=run RGSM=$FILE
SNV/Indel
④ インデックス作成
$ samtools index $FILE.kary.bam

13

【コマンド】
1. GATK
QC 1-1. リアラインメント
・リアラインメントする対象領域を抽出
$ java -Xmx10G -jar GenomeAnalysisTK.jar -T RealignerTargetCreator -R
genome_hs37d5cs.fa -I $FILE.kary.bam -o $FILE.intervals

※ Intervalファイルの中身：
chr1:1191423-1191507
Mapping chr1:1192263-1192295
chr1:1197640-1197641
chr1:1198376-1198377
chr1:1198661-1198795
chr1:1203212-1203259
chr1:1213787-1213788
chr1:1217938-1217939
chr1:1222267
chr1:1222468-1222474
chr1:1225488-1225489
SNV/Indel ：

・リアラインメント
$ java -jar GenomeAnalysisTK.jar -T IndelRealigner -R
genome_hs37d5cs.fa -I $FILE.kary.bam -targetIntervals $FILE.intervals
-o $FILE.realigned.bam

14

【コマンド】
1. GATK
QC 1-1. リアラインメント
・ペアエンド情報修正
$ java -Xmx10G -jar FixMateInformation.jar I=$FILE.realigned.bam
O=$FILE.realigned.fix.bam SO=coordinate VALIDATION_STRINGENCY=SILENT
TMP_DIR=$FILE

Mapping 1-2. Recalibration
・Recalibrationで入力するファイル作成
$ java -Xmx10G -jar GenomeAnalysisTK.jar -T CountCovariates -cov
ReadGroupCovariate -cov QualityScoreCovariate -cov CycleCovariate -cov
DinucCovariate -I $FILE.realigned.fix.bam -R genome_hs37d5cs.fa -nt 6 -
recalFile $FILE.recal_data.csv --knownSites:name,VCF db3np135-All.vcf

・ Recalibration実行／インデックス作成
SNV/Indel $ java -jar GenomeAnalysisTK.jar -I $FILE.realigned.fix.bam -R
genome_hs37d5cs.fa -T TableRecalibration -l INFO -recalFile
$FILE.recal_data.csv -log $FILE.new_qual.log --out
$FILE.realigned.alnRecal.bam

$ samtools index $FILE.realigned.alnRecal.bam

15

【コマンド】
1. GATK
QC 1-3. SNV/Indel検出
$ java -jar GenomeAnalysisTK.jar -T UnifiedGenotyper -R
genome_hs37d5cs.fa -I $FILE.realigned.alnRecal.bam -o $FILE.gatk.snv.vcf

$ java -Xmx10G -jar GenomeAnalysisTK.jar -T UnifiedGenotyper -glm INDEL -
R genome_hs37d5cs.fa -I $FILE.realigned.alnRecal.bam -o
$FILE.gatk.indel.vcf
※ -glm /--genotype_likelihoods_model SNP, INDEL, BOTH から選べる。デフォルトはSNP
Mapping
1-4. フィルタリング
$ java -jar GenomeAnalysisTK.jar -T VariantFiltration -R
genome_hs37d5cs.fa -V $FILE.gatk.snv.vcf -o $FILE.gatk.snv.fil.vcf --
clusterWindowSize 10 --filterExpression "DP < 3 || QUAL < 20 || SB > -
0.1" --filterName "HARD_TO_VALIDATE"

$ java -jar ${GenomeAnalysisTK} -T VariantFiltration -R
genome_hs37d5cs.fa -V 3_gatk/$FILE.gatk.indel.vcf -o
SNV/Indel $FILE.gatk.indel.fil.vcf --filterExpression "QUAL < 20 || SB > -0.1 ||
MQ0 > 4 || DP < 3" --filterName "HARD_TO_VALIDATE"
※ VCFファイルのFILTER列に、条件を通過した場合“PASS”、そうでない場合は “filterName”が記入される

※オプション DP：Approximate read depth; some reads may have been filtered
SB：Strand Bias QD：Variant Confidence/Quality by Depth
HRun：Largest Contiguous Homopolymer Run of Variant Allele In Either Direction
16

【コマンド】
2. QuickAnnotator ：アノテーション付与 ※自社開発のプログラムです。

QC $ java -Xmx10G -jar QuickAnnotator.jar -q vcf -g refGene.txt -s
refGeneMrna.fa -o $FILE.gatk.snv.fil.anno $FILE.gatk.snv.fil.vcf

※公開ツールを組み合わせても同じ処理を行えます。下記のコマンドは、一部のコマンドです。
・ Annovar
Mapping
※データベースをダウンロードする必要があります

入力ファイルに変換
$ perl convert2annovar.pl -format vcf4 $FILE.gatk.snv.fil.vcf >
$FILE.gatk.snv.fil.avlist

アノテーションを付与
SNV/Indel $ perl summarize_annovar.pl --buildver hg19 $FILE.gatk.snv.fil.avlist
humandb -outfile $FILE.gatk.snv.fil --ver1000g 1000g2012feb --verdbsnp
135

17

【コマンド】
2. QuickAnnotator ：アノテーション付与
QC
※公開ツールを組み合わせても同じ処理を行えます。下記のコマンドは、一部のコマンドです。
・ Annovar

①SegDup ⑨LJB_SIFT_Pred
②ESP5400_ALL ⑩LJB_PolyPhen2
Mapping
③1000g2012feb_ALL ⑪LJB_PolyPhen2_Pred
④dbSNP135 ⑫LJB_LRT
⑤AVSIFT ⑬LJB_LRT_Pred
⑥LJB_PhyloP ⑭LRT_MutationTaster
⑦LJB_PhyloP_Pred ⑮LRT_MutationTaster_Pred
SNV/Indel ⑧LJB_SIFT ⑯LJB_GERP++

18

【コマンド】
QC $ java -Xmx10G -jar snpEff.jar eff -c amelieff.config -i vcf -o
vcf -noLog hg37.63 $FILE.gatk.snv.fil.vcf >
$FILE.gatk.snv.fil.vcf.snpeff.vcf

※データベースをダウンロードして、configファイルにその位置情報を書きます
下記の文は、snpEffsnpEff_v2_1_core/snpEff_2_1/snpEff.configの一部です。
Mapping
# Databases are stored here
# E.g.: Information for 'hg19' is stored in data_dir/hg19/
#
# Note: Since version 2.1 you can use tilde ('~') as first character to
refer to your home directory
#---
data_dir = ~/snpEff/data/

# Databases are stored here
SNV/Indel # E.g.: Information for 'hg19' is stored in data_dir/hg19/
#
# Note: Since version 2.1 you can use tilde ('~') as first character to
refer to your home directory
#---
data_dir = /home/db/snpEff

19

【コマンド】
QC

Mapping

SNV/Indel

※snpEffは、Google Chartを用いて描画しています。

20

【結果】
リファレンス処理内容 I I 罹患 I 罹患 I 非罹患
QC
マッピング率（%） 98.90 98.46 98.61
重複リード除外後（%） 98.63 98.12 98.35
SNV 196,600 196,784 169,939
デコイなし
フィルタリング後のSNV 157,072 155,763 141,000
Indel 14,576 14,467 13,565
Mapping
フィルタリング後のIndel 12,999 12,918 12,142
マッピング率（%） 98.68 98.73 98.31
重複リード除外後（%） 98.36 98.46 98.00
SNV 182,832 185,580 157,593
デコイあり
フィルタリング後のSNV 146,695 147,652 131,720
Indel 13,956 13,998 12,909
SNV/Indel フィルタリング後のIndel 12,635 12,638 11,710

※デコイありのフィルタリング後の多型の数は、デコイ配列上に検出された多型を除外しています。

21

【結果】

Without Decoy
最大カバレージ： 1112
※カバレージ10以上の領域の、平均カバレージは80.84

With Decoy
最大カバレージ： 817

22

疾患関連遺伝子の探索

サンプル間 1. BEDtools ：罹患者に共通する多型を抽出
共通 $ intersectBed -a II-case.gatk.snv.fil.vcf -b I-
case.gatk.snv.fil.vcf -u > case.vcf

II 罹患 I 罹患
87,306
疾患関連 147,695 147,652
変異の候補

2. BEDtools ： 1に対して、非罹患者と共通する多型を除外
$ intersectBed -a case.vcf -b I-control.gatk.snv.fil.vcf -v >
target.vcf
絞り込み

I 非罹患
131,720
実験的に 87,306 15,470
検証
23

疾患関連遺伝子の探索
3. Linuxコマンドで絞り込み／遺伝子ごとに集計
サンプル間
共通 15,470
← セグメントゲノム重複(segmental duplication)領域以外のSNV

12,945
← 最も近傍の遺伝子が、1k以内に位置するSNV
疾患関連
10,466
変異の候補
← HeteroのSNV

5,816 2875遺伝子（複数の変異を持つ遺伝子は693個）
← 1000人ゲノムプロジェクトでALTアリル頻度が1%以下のSNV
絞り込み 204 170遺伝子（複数の変異を持つ遺伝子は10個）
← nonsynonymous SNV

32
実験的に
検証候補として29遺伝子（複数の変異を持つ遺伝子は2個）を抽出
24

NGSデータ解析サーバー販売中！！
データ解析パイプラインおよびリファレンスゲノム情報がプリインストールされています。
今回ご紹介した解析は、下記のサーバーで実施しました。サンプルあたりの実行時間は約8時間です。

OS CentOS 6 64bit
CPU Intel Core i7-3930K [3.20GHz/6Core]
メモリ 64GB
SSD 64GBｚ（OS用）
HDD 2TB ｘ 4台（RAID10）（データ用）
bwa, SAMtools, FastQC, BEDtools,
ソフトウェア
自社開発ソフトなど

25

Exome解析入門

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Exome解析入門

Ähnlich wie Exome解析入門 (20)

Exome解析入門