SlideShare ist ein Scribd-Unternehmen logo
1 von 27
A generic motif discovery algorithm for diverse biomolecular data Kyle Jensen Gregory Stephanopoulos Department of Chemical Engineering Massachusetts Institute of Technology
Motif discovery is the automated search for similar regions in streams of data ,[object Object]
Stock prices, protein structures MLRQGIAAQKKSFATLAAEQLLPKKYGGRYTVTLIPGDGVGKEVTDSVVKIFENENIPIDWETIDISGLENTENVQRAVESLKRNKVGLKGIWHTPADQTGHGSLNVALRKQLDIFANVALFKSIPGVKTRLNNIDMVIIRENTEGEYSGLEHESVPGVVESLKIMTRAKSERIARFAFDFALKNNRKSVCAVHKANIMKLGDGLFRNTVNEIGANEYPELDVKNIIVDNASMQAVAKPHQFDVLVTPNLYGSILGNIGSALIGGPGLVPGANFGREYAVFEPGSRHVGLDIKGQNVANPTAMILSSTLMLRHLGLNAYADRISKATYDVISEGKSTTRDIGGSASMLRQGIAAQKKSFATLAAEQLLPKKYGGRYTVTLIPGDGVGKEVTDSVVKIFENENIPIDWETIDISGLENTENVQRAVESLKRNKVGLKGIWHTPADQTGHGSLNVALRKQLDIFANVALFKSIPGVKTRLNNIDMVIIRENTEGEYSGLEHESVPGVVESLKIMTRAKSERIARFAFDFA A motif is just a collection of mutually similar regions in the data stream
There are two classes of motif discovery tools commonly used for sequence analysis ,[object Object]
Pratt ,[object Object],[object Object]
MEME
Consensus TGCTGTATATACTCACAGCA AACTGTATATACACCCAGGG TACTGTATGAGCATACAGTA ACCTGAATGAATATACAGTA TACTGTACATCCATACAGTA TACTGTATATTCATTCAGGT AACTGTTTTTTTATCCAGTA ATCTGTATATATACCCAGCT TACTGTATATAAAAACAGTA CT[AT].[GT]....A..CAG
“Gemoda” was designed to be exhaustive and have descriptive power ,[object Object],MLRQGIAAQKKSFATLAAEQLLPKKYGGRYTVTLIPGDGVGKEVTDSVVKIFENENIPIDWETIDISGLENTENVQRAVESLKRNKVGLKGIWHTPADQTGHGSLNVALRKQLDIFANVALFKSIPGVKTRLNNIDMVIIRENTEGEYSGLEHESVPGVVESLKIMTRAKSERIARFAFDFALKNNRKSVCAVHKANIMKLGDGLFRNTVNEIGANEYPELDVKNIIVDNASMQAVAKPHQFDVLVTPNLYGSILGNIGSALIGGPGLVPGANFGREYAVFEPGSRHVGLDIKGQNVANPTAMILSSTLMLRHLGLNAYADRISKATYDVISEGKSTTRDIGGSASMLRQGIAAQKKSFATLAAEQLLPKKYGGRYTVTLIPGDGVGKEVTDSVVKIFENENIPIDWETIDISGLENTENVQRAVESLKRNKVGLKGIWHTPADQTGHGSLNVALRKQLDIFANVALFKSIPGVKTRLNNIDMVIIRENTEGEYSGLEHESVPGVVESLKIMTRAKSERIARFAFDFA F(w 1 , w 2 ) = square error F(w 1 , w 2 ) = aa scoring matrix
Gemoda proceeds in three steps: comparison, clustering, and convolution Jensen, K., Styczynski,M., Rigoutsos,I. and Stephanopoulos,G. (2005) A generic motif discovery algorithm for sequential data.  Bioinformatics, in press
The comparison stage is used to map the pairwise similarities between all windows in the data streams ,[object Object]
Comparison function is context-specific F(w 1 , w 2 )
The clustering phase is used to find groups of mutually similar windows ,[object Object]
K-means and other methods are faster ,[object Object]
The convolution phase is used to “stitch” together the clusters into maximal motifs ,[object Object],elementary motifs (clusters) window ordering
Here we show a few representative ways in which Gemoda can be used Motif discovery in... ,[object Object]
Gemoda can be applied to amino acid sequences as well ,[object Object]
Ave. length ~700 amino acids
8 sequences from 8 species ,[object Object],[object Object]
Minimum Blosum62 bit score = 50 bits
Minimum support = 100% (8/8 sequences)
Clustering method = clique finding Can Gemoda find this known motif? How sensitive is Gemoda to “noise?”
(ppGpp)ase example: the comparison phase shows many regions of local similarity Dots indicate 50aa windows that are pairwise similar Streaks indicate regions that will probably be convolved into a maximal motif
(ppGpp)ase example: the clustering phase shows elementary motifs conserved between all 8 enzyme sequences
(ppGpp)ase example: the final motifs match the known rela_spot domain and the HD domain from NCBI's conserved domain database Maximal motif (one of three, ~100 aa in length) This particular cluster represents the first set of 8 50aa windows in the above motif. Results are insensitive to “noise”
The LD-motif problem models the subtle binding site discovery problem GACTCGATAGCGACG Sequence #1: ATGAT GA G TC T ATTG C G C CG CGATCAGCTAGCTAGCTACTATCTTATTCGACTAGTACGACTACGTACTACGATCTATCTATCAG... Sequence #2: ATGAGCTAGCTAGCTACTATCTTATTCGACTAGTACGACTACGTACTACGAATCAGCT CT CTCGAT T GCGAC T TTCGACTAGCTA... Sequence #3: ATGTACTACGA G T CTC C ATAGCG TT G CTCTATCTATCAGTACTACGACTCGTCGACTAGCTAGCTGACTCTATCTATCAGGATTT... Sequence #4: ATGACTATAGCTACTATCTTATTCGACTAGTACGACTATAGCTACTACGACTATAGCTATCTTATTCGAC GACTCG TGG GCG G CG ...  ... Sequence #m: ATGCTACTATCTTATTCGACTAGTACGACTATAGCTACT GA T TCG TA AG G GACG ATAGCTACTATCTTATTCGACTAGTACGACT... Pevzner & Sze, Proc. ISMB, 2000
Gemoda can solve both the LD-motif problem and a more generalized version of the same GG GACTCGATAGCGACG CCG Sequence #1: ATGAT GA G TC T ATTG C G C CG CGATCAGCTAGCTAGCTACTATCTTATTCGACTAGTACGACTACGTACTACGATCTATCTATCAG... Sequence #2: ATGAGCTAGCTAGCTACTATCTTATTCGACTAGTACGACTACGTACTACGAATCAGCTCGATCGCTAGCTTTTAAATCTCTTCGACTAGCTA... Sequence #3: ATGTACTACGA G T CTC C ATAGCG TT G CTCTATCTATCAGTACTACGACTCGTCGACTAGCTAGCTGACTCTATCTATCAGGATTT... Sequence #4: ATGACTATAGCTACTATCTTATTCGACTAGTACGACTATAGCTACTACGACTATAGCTATCTTATTCGAC GACTCG TGG GCG G CG ...  ... Sequence #m: ATGCTACTATCTTATTCGACTAGTACGACTATAGCTACT GA T TCG T TAG G GACG ATAGCTACTATCTTATTCGACTAGTACGACT... Total motif length ? Styczynski,M., Jensen,K., Rigoutsos,I. and Stephanopoulos,G. (2004) An extension and novel solution to the Motif Challenge Problem. Genome Informatics, 15 (2).
Gemoda can solve both the LD-motif problem and a more generalized version of the same GACTCGATAGCGACG X All sequences ? Sequence #1: ATGAT GA G TC T ATTG C G C CG CGATCAGCTAGCTAGCTACTATCTTATTCGACTAGTACGACTACGTACTACGATCTATCTATCAG... Sequence #2: ATGAGCTAGCTAGCTACTATCTTATTCGACTAGTACGACTACGTACTACGAATCAGCTCGATCGCTAGCTTTTAAATCTCTTCGACTAGCTA... Sequence #3: ATGTACTACGA G T CTC C ATAGCG TT G CTCTATCTATCAGTACTACGACTCGTCGACTAGCTAGCTGACTCTATCTATCAGGATTT... Sequence #4: ATGACTATAGCTACTATCTTATTCGACTAGTACGACTATAGCTACTACGACTATAGCTATCTTATTCGAC GACTCG TGG GCG G CG ...  ... Sequence #m: ATGCTACTATCTTATTCGACTAGTACGACTATAGCTACT GA T TCG T TAG G GACG ATAGCTACTATCTTATTCGACTAGTACGACT...

Weitere ähnliche Inhalte

Ähnlich wie Gemoda

DNA Compression (Encoded using Huffman Encoding Method)
DNA Compression (Encoded using Huffman Encoding Method)DNA Compression (Encoded using Huffman Encoding Method)
DNA Compression (Encoded using Huffman Encoding Method)Marwa Al-Rikaby
 
ICLP 2009 doctoral consortium presentation; Logic-Statistic Models with Const...
ICLP 2009 doctoral consortium presentation; Logic-Statistic Models with Const...ICLP 2009 doctoral consortium presentation; Logic-Statistic Models with Const...
ICLP 2009 doctoral consortium presentation; Logic-Statistic Models with Const...Christian Have
 
“MS-Extractor: An Innovative Approach to Extract Microsatellites on „Y‟ Chrom...
“MS-Extractor: An Innovative Approach to Extract Microsatellites on „Y‟ Chrom...“MS-Extractor: An Innovative Approach to Extract Microsatellites on „Y‟ Chrom...
“MS-Extractor: An Innovative Approach to Extract Microsatellites on „Y‟ Chrom...IJERD Editor
 
Sequence Alignment - Data Bioinformatics Introduction
Sequence Alignment - Data Bioinformatics IntroductionSequence Alignment - Data Bioinformatics Introduction
Sequence Alignment - Data Bioinformatics IntroductionTenaAvdic
 
An Efficient Biological Sequence Compression Technique Using LUT and Repeat ...
An Efficient Biological Sequence Compression Technique Using  LUT and Repeat ...An Efficient Biological Sequence Compression Technique Using  LUT and Repeat ...
An Efficient Biological Sequence Compression Technique Using LUT and Repeat ...IOSR Journals
 
Towards reading genomic data using deep learning-driven NLP techniques
Towards reading genomic data using deep learning-driven NLP techniquesTowards reading genomic data using deep learning-driven NLP techniques
Towards reading genomic data using deep learning-driven NLP techniquesWesley De Neve
 
SAGE- Serial Analysis of Gene Expression
SAGE- Serial Analysis of Gene ExpressionSAGE- Serial Analysis of Gene Expression
SAGE- Serial Analysis of Gene ExpressionAashish Patel
 
Pathema Burkholderia Annotation Jamboree: Prokaryotic Annotation Overview
Pathema Burkholderia Annotation Jamboree: Prokaryotic Annotation OverviewPathema Burkholderia Annotation Jamboree: Prokaryotic Annotation Overview
Pathema Burkholderia Annotation Jamboree: Prokaryotic Annotation OverviewPathema
 

Ähnlich wie Gemoda (20)

DNA Compression (Encoded using Huffman Encoding Method)
DNA Compression (Encoded using Huffman Encoding Method)DNA Compression (Encoded using Huffman Encoding Method)
DNA Compression (Encoded using Huffman Encoding Method)
 
In silico analysis for unknown data
In silico analysis for unknown dataIn silico analysis for unknown data
In silico analysis for unknown data
 
ICLP 2009 doctoral consortium presentation; Logic-Statistic Models with Const...
ICLP 2009 doctoral consortium presentation; Logic-Statistic Models with Const...ICLP 2009 doctoral consortium presentation; Logic-Statistic Models with Const...
ICLP 2009 doctoral consortium presentation; Logic-Statistic Models with Const...
 
“MS-Extractor: An Innovative Approach to Extract Microsatellites on „Y‟ Chrom...
“MS-Extractor: An Innovative Approach to Extract Microsatellites on „Y‟ Chrom...“MS-Extractor: An Innovative Approach to Extract Microsatellites on „Y‟ Chrom...
“MS-Extractor: An Innovative Approach to Extract Microsatellites on „Y‟ Chrom...
 
Sequence Alignment - Data Bioinformatics Introduction
Sequence Alignment - Data Bioinformatics IntroductionSequence Alignment - Data Bioinformatics Introduction
Sequence Alignment - Data Bioinformatics Introduction
 
Final Presentation-Delta
Final Presentation-DeltaFinal Presentation-Delta
Final Presentation-Delta
 
Similarity
SimilaritySimilarity
Similarity
 
cloning
cloningcloning
cloning
 
cloning
cloningcloning
cloning
 
Cloning
CloningCloning
Cloning
 
Cloning
CloningCloning
Cloning
 
C:\fakepath\cloning
C:\fakepath\cloningC:\fakepath\cloning
C:\fakepath\cloning
 
Agro pract 2
Agro pract 2Agro pract 2
Agro pract 2
 
An Efficient Biological Sequence Compression Technique Using LUT and Repeat ...
An Efficient Biological Sequence Compression Technique Using  LUT and Repeat ...An Efficient Biological Sequence Compression Technique Using  LUT and Repeat ...
An Efficient Biological Sequence Compression Technique Using LUT and Repeat ...
 
Python lec 1004_ch02_excercies
Python lec 1004_ch02_excerciesPython lec 1004_ch02_excercies
Python lec 1004_ch02_excercies
 
Towards reading genomic data using deep learning-driven NLP techniques
Towards reading genomic data using deep learning-driven NLP techniquesTowards reading genomic data using deep learning-driven NLP techniques
Towards reading genomic data using deep learning-driven NLP techniques
 
SAGE- Serial Analysis of Gene Expression
SAGE- Serial Analysis of Gene ExpressionSAGE- Serial Analysis of Gene Expression
SAGE- Serial Analysis of Gene Expression
 
Ch09 combinatorialpatternmatching
Ch09 combinatorialpatternmatchingCh09 combinatorialpatternmatching
Ch09 combinatorialpatternmatching
 
Wagner chapter 1
Wagner chapter 1Wagner chapter 1
Wagner chapter 1
 
Pathema Burkholderia Annotation Jamboree: Prokaryotic Annotation Overview
Pathema Burkholderia Annotation Jamboree: Prokaryotic Annotation OverviewPathema Burkholderia Annotation Jamboree: Prokaryotic Annotation Overview
Pathema Burkholderia Annotation Jamboree: Prokaryotic Annotation Overview
 

Mehr von Kyle Jensen

The intellectual property landscape of the human genome
The intellectual property landscape of the human genomeThe intellectual property landscape of the human genome
The intellectual property landscape of the human genomeKyle Jensen
 
Eschew Obfuscation
Eschew ObfuscationEschew Obfuscation
Eschew ObfuscationKyle Jensen
 
A simple method for incorporating sequence information into directed evolutio...
A simple method for incorporating sequence information into directed evolutio...A simple method for incorporating sequence information into directed evolutio...
A simple method for incorporating sequence information into directed evolutio...Kyle Jensen
 
Kyle Jensen Research summary poster 2005
Kyle Jensen Research summary poster 2005Kyle Jensen Research summary poster 2005
Kyle Jensen Research summary poster 2005Kyle Jensen
 
HOẠT ĐỘNG NGHIÊN CỨU KHOA HỌC VÀ CHUYỂN GIAO CÔNG NGHỆ Trường Đại học Cần Thơ
HOẠT ĐỘNG NGHIÊN CỨU KHOA HỌC VÀ  CHUYỂN GIAO CÔNG NGHỆ Trường Đại học Cần ThơHOẠT ĐỘNG NGHIÊN CỨU KHOA HỌC VÀ  CHUYỂN GIAO CÔNG NGHỆ Trường Đại học Cần Thơ
HOẠT ĐỘNG NGHIÊN CỨU KHOA HỌC VÀ CHUYỂN GIAO CÔNG NGHỆ Trường Đại học Cần ThơKyle Jensen
 
ChuyểN Giao QuyềN đốI VớI GiốNg CâY TrồNg
ChuyểN Giao QuyềN đốI VớI GiốNg CâY TrồNgChuyểN Giao QuyềN đốI VớI GiốNg CâY TrồNg
ChuyểN Giao QuyềN đốI VớI GiốNg CâY TrồNgKyle Jensen
 
BẢO HỘ GIỐNG CÂY TRỒNG VÀ ĐẶC QUYỀN CỦA NÔNG DÂN
BẢO HỘ GIỐNG CÂY TRỒNG VÀ ĐẶC QUYỀN CỦA NÔNG DÂNBẢO HỘ GIỐNG CÂY TRỒNG VÀ ĐẶC QUYỀN CỦA NÔNG DÂN
BẢO HỘ GIỐNG CÂY TRỒNG VÀ ĐẶC QUYỀN CỦA NÔNG DÂNKyle Jensen
 
Khái quát về những nguyên tắc cơ bản trong quản lý TSTT
Khái quát về những nguyên tắc cơ bản trong quản lý TSTTKhái quát về những nguyên tắc cơ bản trong quản lý TSTT
Khái quát về những nguyên tắc cơ bản trong quản lý TSTTKyle Jensen
 
Htqt Vietnam Chih Am Agreements License (Tv)
Htqt Vietnam Chih Am Agreements License (Tv)Htqt Vietnam Chih Am Agreements License (Tv)
Htqt Vietnam Chih Am Agreements License (Tv)Kyle Jensen
 
Chuyển giao công nghệ ở Việtnam
Chuyển giao công nghệ ở ViệtnamChuyển giao công nghệ ở Việtnam
Chuyển giao công nghệ ở ViệtnamKyle Jensen
 
Đầu tư mạo hiểm ở Việt Nam
Đầu tư mạo hiểm ở Việt NamĐầu tư mạo hiểm ở Việt Nam
Đầu tư mạo hiểm ở Việt NamKyle Jensen
 
Hình thành doanh nghiệp ở Việtnam
Hình thành doanh nghiệp ở ViệtnamHình thành doanh nghiệp ở Việtnam
Hình thành doanh nghiệp ở ViệtnamKyle Jensen
 
Chuyển giao (li-xăng) công nghệ
Chuyển giao (li-xăng) công nghệChuyển giao (li-xăng) công nghệ
Chuyển giao (li-xăng) công nghệKyle Jensen
 
Hợp đồng chuyển giao vật liệu: một công cụ cho chuyển giao công nghệ
Hợp đồng chuyển giao vật liệu: một công cụ cho chuyển giao công nghệHợp đồng chuyển giao vật liệu: một công cụ cho chuyển giao công nghệ
Hợp đồng chuyển giao vật liệu: một công cụ cho chuyển giao công nghệKyle Jensen
 
Lời giới thiệu về trang web miễn phí cho việc tra cứu sáng chế
Lời giới thiệu về trang web miễn phí cho việc tra cứu sáng chếLời giới thiệu về trang web miễn phí cho việc tra cứu sáng chế
Lời giới thiệu về trang web miễn phí cho việc tra cứu sáng chếKyle Jensen
 
Thực trang BHGCT ở Việtnam
Thực trang BHGCT ở ViệtnamThực trang BHGCT ở Việtnam
Thực trang BHGCT ở ViệtnamKyle Jensen
 
Thương mại hóa hoạt động nghiên cứu trong lĩnh vực công nghệ sinh học nông ng...
Thương mại hóa hoạt động nghiên cứu trong lĩnh vực công nghệ sinh học nông ng...Thương mại hóa hoạt động nghiên cứu trong lĩnh vực công nghệ sinh học nông ng...
Thương mại hóa hoạt động nghiên cứu trong lĩnh vực công nghệ sinh học nông ng...Kyle Jensen
 
Lời giới thiệu chung về quyền sở hữu trí tuệ
Lời giới thiệu chung về quyền sở hữu trí tuệLời giới thiệu chung về quyền sở hữu trí tuệ
Lời giới thiệu chung về quyền sở hữu trí tuệKyle Jensen
 
Chi 2007 Hanoi P I P R A 2 No Bkg P A
Chi 2007  Hanoi  P I P R A 2 No Bkg  P AChi 2007  Hanoi  P I P R A 2 No Bkg  P A
Chi 2007 Hanoi P I P R A 2 No Bkg P AKyle Jensen
 

Mehr von Kyle Jensen (20)

The intellectual property landscape of the human genome
The intellectual property landscape of the human genomeThe intellectual property landscape of the human genome
The intellectual property landscape of the human genome
 
Eschew Obfuscation
Eschew ObfuscationEschew Obfuscation
Eschew Obfuscation
 
A simple method for incorporating sequence information into directed evolutio...
A simple method for incorporating sequence information into directed evolutio...A simple method for incorporating sequence information into directed evolutio...
A simple method for incorporating sequence information into directed evolutio...
 
Kyle Jensen Research summary poster 2005
Kyle Jensen Research summary poster 2005Kyle Jensen Research summary poster 2005
Kyle Jensen Research summary poster 2005
 
HOẠT ĐỘNG NGHIÊN CỨU KHOA HỌC VÀ CHUYỂN GIAO CÔNG NGHỆ Trường Đại học Cần Thơ
HOẠT ĐỘNG NGHIÊN CỨU KHOA HỌC VÀ  CHUYỂN GIAO CÔNG NGHỆ Trường Đại học Cần ThơHOẠT ĐỘNG NGHIÊN CỨU KHOA HỌC VÀ  CHUYỂN GIAO CÔNG NGHỆ Trường Đại học Cần Thơ
HOẠT ĐỘNG NGHIÊN CỨU KHOA HỌC VÀ CHUYỂN GIAO CÔNG NGHỆ Trường Đại học Cần Thơ
 
ChuyểN Giao QuyềN đốI VớI GiốNg CâY TrồNg
ChuyểN Giao QuyềN đốI VớI GiốNg CâY TrồNgChuyểN Giao QuyềN đốI VớI GiốNg CâY TrồNg
ChuyểN Giao QuyềN đốI VớI GiốNg CâY TrồNg
 
BẢO HỘ GIỐNG CÂY TRỒNG VÀ ĐẶC QUYỀN CỦA NÔNG DÂN
BẢO HỘ GIỐNG CÂY TRỒNG VÀ ĐẶC QUYỀN CỦA NÔNG DÂNBẢO HỘ GIỐNG CÂY TRỒNG VÀ ĐẶC QUYỀN CỦA NÔNG DÂN
BẢO HỘ GIỐNG CÂY TRỒNG VÀ ĐẶC QUYỀN CỦA NÔNG DÂN
 
Khái quát về những nguyên tắc cơ bản trong quản lý TSTT
Khái quát về những nguyên tắc cơ bản trong quản lý TSTTKhái quát về những nguyên tắc cơ bản trong quản lý TSTT
Khái quát về những nguyên tắc cơ bản trong quản lý TSTT
 
Htqt Vietnam Chih Am Agreements License (Tv)
Htqt Vietnam Chih Am Agreements License (Tv)Htqt Vietnam Chih Am Agreements License (Tv)
Htqt Vietnam Chih Am Agreements License (Tv)
 
Chuyển giao công nghệ ở Việtnam
Chuyển giao công nghệ ở ViệtnamChuyển giao công nghệ ở Việtnam
Chuyển giao công nghệ ở Việtnam
 
Đầu tư mạo hiểm ở Việt Nam
Đầu tư mạo hiểm ở Việt NamĐầu tư mạo hiểm ở Việt Nam
Đầu tư mạo hiểm ở Việt Nam
 
Hình thành doanh nghiệp ở Việtnam
Hình thành doanh nghiệp ở ViệtnamHình thành doanh nghiệp ở Việtnam
Hình thành doanh nghiệp ở Việtnam
 
Chuyển giao (li-xăng) công nghệ
Chuyển giao (li-xăng) công nghệChuyển giao (li-xăng) công nghệ
Chuyển giao (li-xăng) công nghệ
 
Hợp đồng chuyển giao vật liệu: một công cụ cho chuyển giao công nghệ
Hợp đồng chuyển giao vật liệu: một công cụ cho chuyển giao công nghệHợp đồng chuyển giao vật liệu: một công cụ cho chuyển giao công nghệ
Hợp đồng chuyển giao vật liệu: một công cụ cho chuyển giao công nghệ
 
Lời giới thiệu về trang web miễn phí cho việc tra cứu sáng chế
Lời giới thiệu về trang web miễn phí cho việc tra cứu sáng chếLời giới thiệu về trang web miễn phí cho việc tra cứu sáng chế
Lời giới thiệu về trang web miễn phí cho việc tra cứu sáng chế
 
Tình huống
Tình huốngTình huống
Tình huống
 
Thực trang BHGCT ở Việtnam
Thực trang BHGCT ở ViệtnamThực trang BHGCT ở Việtnam
Thực trang BHGCT ở Việtnam
 
Thương mại hóa hoạt động nghiên cứu trong lĩnh vực công nghệ sinh học nông ng...
Thương mại hóa hoạt động nghiên cứu trong lĩnh vực công nghệ sinh học nông ng...Thương mại hóa hoạt động nghiên cứu trong lĩnh vực công nghệ sinh học nông ng...
Thương mại hóa hoạt động nghiên cứu trong lĩnh vực công nghệ sinh học nông ng...
 
Lời giới thiệu chung về quyền sở hữu trí tuệ
Lời giới thiệu chung về quyền sở hữu trí tuệLời giới thiệu chung về quyền sở hữu trí tuệ
Lời giới thiệu chung về quyền sở hữu trí tuệ
 
Chi 2007 Hanoi P I P R A 2 No Bkg P A
Chi 2007  Hanoi  P I P R A 2 No Bkg  P AChi 2007  Hanoi  P I P R A 2 No Bkg  P A
Chi 2007 Hanoi P I P R A 2 No Bkg P A
 

Gemoda

  • 1. A generic motif discovery algorithm for diverse biomolecular data Kyle Jensen Gregory Stephanopoulos Department of Chemical Engineering Massachusetts Institute of Technology
  • 2.
  • 3. Stock prices, protein structures MLRQGIAAQKKSFATLAAEQLLPKKYGGRYTVTLIPGDGVGKEVTDSVVKIFENENIPIDWETIDISGLENTENVQRAVESLKRNKVGLKGIWHTPADQTGHGSLNVALRKQLDIFANVALFKSIPGVKTRLNNIDMVIIRENTEGEYSGLEHESVPGVVESLKIMTRAKSERIARFAFDFALKNNRKSVCAVHKANIMKLGDGLFRNTVNEIGANEYPELDVKNIIVDNASMQAVAKPHQFDVLVTPNLYGSILGNIGSALIGGPGLVPGANFGREYAVFEPGSRHVGLDIKGQNVANPTAMILSSTLMLRHLGLNAYADRISKATYDVISEGKSTTRDIGGSASMLRQGIAAQKKSFATLAAEQLLPKKYGGRYTVTLIPGDGVGKEVTDSVVKIFENENIPIDWETIDISGLENTENVQRAVESLKRNKVGLKGIWHTPADQTGHGSLNVALRKQLDIFANVALFKSIPGVKTRLNNIDMVIIRENTEGEYSGLEHESVPGVVESLKIMTRAKSERIARFAFDFA A motif is just a collection of mutually similar regions in the data stream
  • 4.
  • 5.
  • 7. Consensus TGCTGTATATACTCACAGCA AACTGTATATACACCCAGGG TACTGTATGAGCATACAGTA ACCTGAATGAATATACAGTA TACTGTACATCCATACAGTA TACTGTATATTCATTCAGGT AACTGTTTTTTTATCCAGTA ATCTGTATATATACCCAGCT TACTGTATATAAAAACAGTA CT[AT].[GT]....A..CAG
  • 8.
  • 9. Gemoda proceeds in three steps: comparison, clustering, and convolution Jensen, K., Styczynski,M., Rigoutsos,I. and Stephanopoulos,G. (2005) A generic motif discovery algorithm for sequential data. Bioinformatics, in press
  • 10.
  • 11. Comparison function is context-specific F(w 1 , w 2 )
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17. Ave. length ~700 amino acids
  • 18.
  • 19. Minimum Blosum62 bit score = 50 bits
  • 20. Minimum support = 100% (8/8 sequences)
  • 21. Clustering method = clique finding Can Gemoda find this known motif? How sensitive is Gemoda to “noise?”
  • 22. (ppGpp)ase example: the comparison phase shows many regions of local similarity Dots indicate 50aa windows that are pairwise similar Streaks indicate regions that will probably be convolved into a maximal motif
  • 23. (ppGpp)ase example: the clustering phase shows elementary motifs conserved between all 8 enzyme sequences
  • 24. (ppGpp)ase example: the final motifs match the known rela_spot domain and the HD domain from NCBI's conserved domain database Maximal motif (one of three, ~100 aa in length) This particular cluster represents the first set of 8 50aa windows in the above motif. Results are insensitive to “noise”
  • 25. The LD-motif problem models the subtle binding site discovery problem GACTCGATAGCGACG Sequence #1: ATGAT GA G TC T ATTG C G C CG CGATCAGCTAGCTAGCTACTATCTTATTCGACTAGTACGACTACGTACTACGATCTATCTATCAG... Sequence #2: ATGAGCTAGCTAGCTACTATCTTATTCGACTAGTACGACTACGTACTACGAATCAGCT CT CTCGAT T GCGAC T TTCGACTAGCTA... Sequence #3: ATGTACTACGA G T CTC C ATAGCG TT G CTCTATCTATCAGTACTACGACTCGTCGACTAGCTAGCTGACTCTATCTATCAGGATTT... Sequence #4: ATGACTATAGCTACTATCTTATTCGACTAGTACGACTATAGCTACTACGACTATAGCTATCTTATTCGAC GACTCG TGG GCG G CG ... ... Sequence #m: ATGCTACTATCTTATTCGACTAGTACGACTATAGCTACT GA T TCG TA AG G GACG ATAGCTACTATCTTATTCGACTAGTACGACT... Pevzner & Sze, Proc. ISMB, 2000
  • 26. Gemoda can solve both the LD-motif problem and a more generalized version of the same GG GACTCGATAGCGACG CCG Sequence #1: ATGAT GA G TC T ATTG C G C CG CGATCAGCTAGCTAGCTACTATCTTATTCGACTAGTACGACTACGTACTACGATCTATCTATCAG... Sequence #2: ATGAGCTAGCTAGCTACTATCTTATTCGACTAGTACGACTACGTACTACGAATCAGCTCGATCGCTAGCTTTTAAATCTCTTCGACTAGCTA... Sequence #3: ATGTACTACGA G T CTC C ATAGCG TT G CTCTATCTATCAGTACTACGACTCGTCGACTAGCTAGCTGACTCTATCTATCAGGATTT... Sequence #4: ATGACTATAGCTACTATCTTATTCGACTAGTACGACTATAGCTACTACGACTATAGCTATCTTATTCGAC GACTCG TGG GCG G CG ... ... Sequence #m: ATGCTACTATCTTATTCGACTAGTACGACTATAGCTACT GA T TCG T TAG G GACG ATAGCTACTATCTTATTCGACTAGTACGACT... Total motif length ? Styczynski,M., Jensen,K., Rigoutsos,I. and Stephanopoulos,G. (2004) An extension and novel solution to the Motif Challenge Problem. Genome Informatics, 15 (2).
  • 27. Gemoda can solve both the LD-motif problem and a more generalized version of the same GACTCGATAGCGACG X All sequences ? Sequence #1: ATGAT GA G TC T ATTG C G C CG CGATCAGCTAGCTAGCTACTATCTTATTCGACTAGTACGACTACGTACTACGATCTATCTATCAG... Sequence #2: ATGAGCTAGCTAGCTACTATCTTATTCGACTAGTACGACTACGTACTACGAATCAGCTCGATCGCTAGCTTTTAAATCTCTTCGACTAGCTA... Sequence #3: ATGTACTACGA G T CTC C ATAGCG TT G CTCTATCTATCAGTACTACGACTCGTCGACTAGCTAGCTGACTCTATCTATCAGGATTT... Sequence #4: ATGACTATAGCTACTATCTTATTCGACTAGTACGACTATAGCTACTACGACTATAGCTATCTTATTCGAC GACTCG TGG GCG G CG ... ... Sequence #m: ATGCTACTATCTTATTCGACTAGTACGACTATAGCTACT GA T TCG T TAG G GACG ATAGCTACTATCTTATTCGACTAGTACGACT...
  • 28. Gemoda can solve both the LD-motif problem and a more generalized version of the same GACTCGATAGCGACG Number of mutations ? Sequence #1: ATGAT GA G TC T ATTG C G C CG CGATCAGCTAGCTAGCTACTATCTTATTCGACTAGTACGACTACGTACTACGATCTATCTATCAG... Sequence #2: ATGAGCTAGCTAGCTACTATCTTATTCGACTAGTACGACTACGTACTACGAATCAGCTCGATCGCTAGCTTTTAAATCTCTTCGACTAGCTA... Sequence #3: ATGTACTACGA G T CTC C ATAGCG TT G CTCTATCTATCAGTACTACGACTCGTCGACTAGCTAGCTGACTCTATCTATCAGGATTT... Sequence #4: ATGACTATAGCTACTATCTTATTCGACTAGTACGACTATAGCTACTACGACTATAGCTATCTTATTCGAC GACTCG TGG GCG G CG ... ... Sequence #m: ATGCTACTATCTTATTCGACTAGTACGACTATAGCTACT GA T TCG T TAG G GACG ATAGCTACTATCTTATTCGACTAGTACGACT...
  • 29. Gemoda can solve both the LD-motif problem and a more generalized version of the same GACTCGATAGCGACG Sequence #1: ATGAT GA G TC T ATTG C G C CG CGATCAGCTAGCTAGCTACTATCTTATTCGACTAGTACGACTACGTACTACGATCTATCTATCAG... Sequence #2: ATGAGCTAGCTAGCTACTATCTTATTCGACTAGTACGACTACGTACTACGAATCAGCTCGATCGCTAGCTTTTAAATCTCTTCGACTAGCTA... Sequence #3: ATGTACTACGA G T CTC C ATAGCG TT G CTCTATCTATCAGTACTACGACTCGTCGACTAGCTAGCTGACTCTATCTATCAGGATTT... Sequence #4: ATGACTATAGCTACTATCTTATTCGACTAGTA TATCTGGTTCGACTT AGCTATCTATTCGAC GACTCG TGG GCG G CG ... ... Sequence #m: ATGCTAC TATCTTATTCGACTG AGTACGACTATAGCTACT GA T TCG T TAG G GACG ATAGCTACTATGACTAGTGACT... Number of unique motifs ?
  • 30.
  • 31. unit-RMSD x 1 y 1 z 1 x 2 y 2 z 2 x 3 y 3 z 3 ........................... x M y M z M
  • 32. Protein structure example: human FIT vs. uridylyltransferase
  • 34.
  • 35. Motifs are as specific as possible
  • 36.
  • 37. No non-maximal motifs are found = motif1 = motif2
  • 38.
  • 39.
  • 40.
  • 41.
  • 42. Support >= 2 Windows 1: moti 2: otif 3: moto 4: otor 5: poti 6: otio 7: tion Cluster 1 1: moti 3: moto 5: poti Cluster 2 2: otif 4: otor 6: otio Cluster 1 1: moti 3: moto Cluster 2 1: moti 5: poti Cluster 3 2: otif 6: otio Solid lines (vowel/cons): Dotted lines (identity):
  • 43. Likewise, the final, convolved motifs depend on the similarity function choice Motif 1 motif motor potio Seq 1: motif Seq 2: motor Seq 3: potion Windows 1: moti 2: otif 3: moto 4: otor 5: poti 6: otio 7: tion Vowel/cons: Motif 1 motif potio Motif 2 moti moto Identity: Cluster 1 1: moti 3: moto 5: poti Cluster 2 2: otif 4: otor 6: otio Cluster 1 1: moti 3: moto Cluster 2 1: moti 5: poti Cluster 3 2: otif 6: otio Vowel/cons: Identity: