SlideShare a Scribd company logo
1 of 27
XÂY DỰNG VÀ ĐÁNH GIÁ CÁC
PHƯƠNG PHÁPƯỚC LƯỢNG MÔ
HÌNH BIẾN ĐỔIAXITAMIN CHO
CÁC TẬPDỮ LIỆU LỚN
Người báo cáo: Nguyễn Huy Tình
Cán bộ hướng dẫn: PGS.TS Lê Sỹ Vinh
TS. Đặng Cao Cường
Nội dung
• Giới thiệu chung
• Bài toán cần giải quyết
• Phương pháp nghiên cứu
• Kế hoạch nghiên cứu, triển khai
• Kiến nghị
Giới thiệu chung
• DNA và axít amin
• Mô hình hóa quá trình biến đổi axít amin
• Bài toán ước lượng mô hình biến đổi axít amin
ADN và axít amin
• Trong sinh học phân tử, ADN (Acid Deoxyribo Nucleic) là một
đoạn gen mang thông tin di truyền cần thiết cho quá trình tổng
hợp protein cũng như quá trình hoạt động sinh trưởng, phát triển
của các loài sinh vật.
• ADN có cấu tạo xoắn kép được tạo thành từ 4 đơn vị nhỏ hơn
gọi là nucleotít: A, T, G, C.
• Axít amin là một hợp chất hữu cơ được cấu tạo bởi ba thành
phần: nhóm amin (-NH2), nhóm cacboxyl (-COOH) và nhóm
biến đổi R quyết định tính chất của axít amin
ADN và axít amin
• Mối quan hệ giữa nucleotide và axít amin được thể hiện qua quá
trình tổng hợp protein
• Trong một chuỗi nucleotide mã hóa protein, mỗi bộ ba
nucleotide liên tiếp được gọi là một bộ ba (codon). Mỗi codon
có thể mã hóa một axít amin hoặc là tín hiệu kết thúc của một
quá trình tổng hợp protein
Danh sách các axít amin
STT Tên axít amin Tên viết tắt (3 ký tự) Tên viết tắt (1 ký tự)
1 Alanine Ala A
2 Arginine Arg R
3 Asparagine Asn N
4 Aspartic Asp D
5 Cysteine Cys C
6 Glutamine Gln Q
7 Glutamic Glu E
8 Glycine Gly G
9 Histidine His H
10 Isoleucine Ile I
11 Leucine Leu L
12 Lysine Lys K
13 Methionine Met M
14 Phenylalanine Phe F
15 Proline Pro P
16 Serine Ser S
17 Threonine Thr T
18 Tryptophan Trp W
19 Tyrosine Tyr Y
20 Valine Val V
Các phép biến đổi trên chuỗi axít amin
• Trong quá trình tiến hóa, hệ gen của sinh vật bị biến đổi để tạo
ra các sinh vật mới thích nghi hơn với môi trường sống
• Có 3 loại biến đổi chính là:
• Thay thế: một axít amin này bị thay thế bằng một axít amin khác.
• Xoá: một hoặc một số axít amin bị xoá khỏi chuỗi protein.
• Chèn: một hoặc một số axít amin được chèn vào chuỗi protein.
Sắp hàng đa chuỗi axít amin
• Quá trình biến đổi làm cho các chuỗi axít amin tương đồng khác
nhau cả về nội dung cũng như độ dài.
• Sắp hàng đa chuỗi sẽ giúp làm rõ các phép biến đổi giữa các
chuỗi axít amin
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Người E H D - N D E M C Q L K P L P
Tinh
tinh
F H D R - D E M C Q L K P L P
Khỉ
đột
F G D R - D E M C Q L K P L P
Vượn F G D R - V H M C Q L K P L P
Cây tiến hóa
• Cây phân loài (cây tiến hóa) là một dạng sơ đồ phân
nhánh thể hiện quá trình tiến hóa của các loài sinh vật
và cho biết sự tương đồng và khác biệt về giữa chúng.
• Các sinh vật liên kết với nhau trong cây được cho là có
cùng một tổ tiên chung.
• Xác định cây phân loài là bài toán trung tâm của sinh
học tiến hóa
Mô hình hóa quá trình biến đổi axít amin
• Quá trình biến đổi này là ngẫu nhiên và liên tục theo thời gian
với tập trạng thái S = {A, R, N, D, C, Q, E, G, H, I, L, K, M, F,
P, S, T, W, Y, V}
• Mô hình Markov:
• Độc lập
• Đồng nhất
• Liên tục
• Ổn định
• Thuận nghịch
Mô hình hóa quá trình biến đổi axít amin
• Gọi 𝛱 = 𝜋𝑖 với i = 1,..,20 là véc tơ tần số xuất hiện của 20
axít amin, khi đó 𝑖=1
20
𝜋𝑖 = 1 và các 𝜋𝑖 không đổi theo thời
gian
• Gọi 𝐏 𝑡 = {𝑝𝑖𝑗 𝑡 , 𝑖 ∈ 𝐒, 𝑗 ∈ 𝐒} là ma trận xác suất chuyển
giữa các axít amin sau một khoảng thời gian 𝑡. Ta có:
𝑗∈𝑺 𝑝𝑖𝑗 𝑡 = 1
• 𝐏 𝑡 cũng thỏa mãn công thức Chapman-Kolmogorov:
𝐏 𝑡 + 𝑠 = 𝐏 𝑡 + 𝐏(𝑠)
• Với giá trị ∆𝑡 nhỏ, ma trận xác suất chuyển 𝐏(∆𝑡) có thể được
tính xấp xỉ tuyến tính theo khai triển Taylor như sau
𝐏 ∆𝑡 ≈ 𝐏 0 + ∆𝑡 ∗ 𝐐
• Trong đó 𝐐 = {𝑞𝑖𝑗
, 𝑖 ∈ 𝑺, 𝑗 ∈ 𝑺} là ma trận tốc độ biến đổi tức
thì (instantaneous substitution rate matrix) giữa các axít amin
Ma trận Q
• Ma trận tốc độ biến đổi tức thì 𝐐 có thể được biểu diễn bởi ma trận
hoán đổi 𝐑 = {𝑟𝑖𝑗} và vectơ tần số xuất hiện 𝚷 = {𝜋𝑖} như sau:
𝑞𝑖𝑗 =
𝜋𝑗𝑟𝑖𝑗 𝑛ế𝑢 𝑖 ≠ 𝑗
−
𝑥≠𝑖
𝑞𝑖𝑥 𝑛ế𝑢 𝑖 = 𝑗
• Viết gọn: 𝐐 = 𝚷 ∗ 𝐑
• Chúng ta có thể ước lượng 𝚷 và 𝐑 thay cho ước lượng Q
• Số tham số cần ước lượng của 𝚷 là 19 do véc tơ 𝚷 có 20 thành phần
nhưng tổng của 20 thành phần bằng 1. Số tham số cần ước lượng của
𝐑 là 19 * 20/2 - 1 = 189. Do 𝐑 là ma trận đối xứng và được chuẩn
hóa.
• Tổng tham số ước lượng Q: 208
Ma trận Q
• Điểm khác biệt giữa mô hình thay thế nucleotide và axít amin là
số lượng tham số của mô hình. Mô hình nucleotide tổng quát có
8 tham số trong khi mô hình thay thế axít amin có 208 tham số.
• Cần được ước lượng dựa trên các tạp dữ liệu có kích thước lớn.
A R N D C Q E G H I L K M F P S T W Y V
A
R
0.425
N
0.277 0.752
D
0.395 0.124 5.076
C
2.489 0.535 0.529 0.063
Q
0.970 2.808 1.696 0.523 0.085
E
1.039 0.364 0.542 5.244 0.003 4.129
G
2.066 0.390 1.438 0.845 0.569 0.268 0.349
H
0.359 2.427 4.509 0.927 0.641 4.814 0.424 0.311
I
0.150 0.127 0.192 0.011 0.321 0.073 0.044 0.009 0.109
L
0.395 0.302 0.068 0.015 0.594 0.582 0.070 0.044 0.366 4.145
K
0.537 6.326 2.145 0.283 0.013 3.234 1.807 0.297 0.697 0.159 0.138
M
1.124 0.484 0.371 0.026 0.894 1.673 0.174 0.140 0.442 4.274 6.312 0.657
F
0.254 0.053 0.090 0.017 1.105 0.036 0.019 0.090 0.682 1.113 2.593 0.024 1.799
P
1.178 0.333 0.162 0.394 0.075 0.624 0.419 0.197 0.509 0.078 0.249 0.390 0.100 0.094
S
4.727 0.858 4.008 1.240 2.784 1.224 0.612 1.740 0.990 0.064 0.182 0.749 0.347 0.362 1.338
T
2.140 0.579 2.001 0.426 1.143 1.080 0.605 0.130 0.584 1.034 0.303 1.137 2.020 0.165 0.571 6.472
W
0.181 0.594 0.045 0.030 0.670 0.236 0.078 0.268 0.597 0.112 0.620 0.050 0.696 2.457 0.095 0.249 0.141
Y
0.219 0.314 0.612 0.135 1.166 0.257 0.120 0.055 5.307 0.233 0.300 0.132 0.481 7.804 0.090 0.401 0.246 3.152
V
2.548 0.171 0.084 0.038 1.959 0.210 0.245 0.077 0.119 10.649 1.703 0.185 1.899 0.655 0.297 0.098 2.188 0.190 0.249
0.079 0.056 0.042 0.053 0.013 0.041 0.072 0.057 0.022 0.062 0.099 0.065 0.023 0.042 0.044 0.061 0.053 0.012 0.034 0.069
Các phương pháp ước lượng ma trận Q
• Phương pháp đếm
• Phương pháp đầu tiên do Dayhoff đề xuất đếm số lượng thay
thế các axit amin trong tập dữ liệu đầu vào để ước lượng các
tham số của mô hình (Dayhoff và Schwartz, 1978). Ví dụ mô
hình JTT
• Phương pháp cực đại hợp lý (maximum likelihood – ML ):
đang được sử dụng phổ biến và cho kết quả tốt hơn.
• Phương pháp cực đại hợp lý sẽ xác định mô hình thay thế axit
amin 𝑄 và các cây phân loài sao cho giá trị hợp lý 𝐿 𝑄 𝑻; 𝑫 =
𝑃 𝑫 𝑄; 𝑇 đạt giá trị lớn nhất, trong đó 𝑃 𝑫 𝑄; 𝑇 là xác xuất
điều kiện của dữ liệu D đối với mô hình Q và tập các cây T
• Phương pháp IQ-TREE dựa trên ML đang được sử dụng rộng
rãi cho kết quả rất tốt.
Phương pháp Qmaker
(Bui Quang Minh, Dang Cao Cuong, Le Sy Vinh, Robert Lanfear, 2021, QMaker:
Fast and Accurate Method to Estimate Empirical Models of Protein Evolution,
Syst. Biol. 70(5):1046–1060)
Phương pháp nQMaker
(CUONG CAO DANG, BUI QUANG MINH , HANON MCSHEA, JOANN MASEL , JENNIFER ELEANOR
JAMES, LE SY VINH, AND ROBERT LANFEAR: nQMaker: Estimating Time Nonreversible Amino Acid
Substitution Models, Syst. Biol. 0(0):1–14, 2022)
Bài toán cần giải quyết
• Simulation
• Mixture model
• Áp dụng kết quả cho các hệ gene mới gần đây: covid-19, đậu
mùa khỉ, adeno virus, ..
Simulation
• Giả lập các đa sắp hàng để đánh giá các phương pháp ước lượng
mô hình
T
So sánh các cây Ti
với T gốc
Simulation
• Các tham số cho quá trình simulate dữ liệu:
• Mô hình thay thế các gene: LG, WAG, JTT
• Cây phân loài T
• Độ dài sắp hàng
• Tỉ lệ biến đổi insert/delete trên chuỗi.
• Kích thước biến đổi insert/delete
• Tốc độ biến đổi tại các vị trí
• Concatenated alignment: giả lập 1 sắp hàng được tạo thành từ
nhiều gene, mỗi gene lại tuân theo 1 mô hình thay thế và các
tham số khác nhau.
Mixture model
• Các đa sắp hàng thường có đặc tính sinh học, vật lý khác nhau.
Vì vậy dùng 1 model sẽ khó thỏa mãn hết các sự biến đổi của
từng gene trong đa sắp hàng. Ví dụ tốc độ biến đổi của từng vị
trí là khác nhau.
• Cần xây dựng phương pháp dùng kết hợp nhiều model tốc độ
biến đổi để mô hình hóa cho từng vị trí trên sắp hàng.
• Khi đó công thức tính giá trị hợp lý sẽ có thêm thành phần tốc
độ 𝜌𝑐 của nhóm c trong C nhóm tốc độ, các tốc độ này tuân theo
phân phối gamma
𝐿 𝑇, 𝑸, 𝛼; 𝐷 =
𝑖 1 ≤𝑐≤𝐶
1
𝐶
𝐿(𝑇, 𝜌𝑐𝑸; 𝐷𝑖)
Các vấn đề cần nghiên cứu
• Khảo sát tổng quan về các phương pháp ước lượng mô hình
• Khảo sát chi tiết về phương pháp ước lượng mô hình thay thế
axít amin
• Nghiên cứu phương pháp tạo dữ liệu mô phỏng từ đó đánh giá
các mô hình ước lượng axít amin
• Đề xuất phương pháp kết hợp các mô hình biến đổi axít amin
(mixture model)
• Thiết kế mô hình áp dụng và thực nghiệm, đánh giá các mô hình
trên với các bộ dữ liệu virus mới được công bố: covid 19, đậu
mùa khỉ, vv
Phương pháp nghiên cứu
• Nghiên cứu, khảo sát các tài liệu khoa học liên quan đến quá
trình biến đổi axít amin
• Thu thập các dữ liệu axít amin
• Thiết kế các mô hình và thực nghiệm đánh giá các kết quả
• Công bố các bài báo khoa học quốc gia, quốc tế
Dự kiến kết quả nghiên cứu
• Công bố ít nhất 3 bài báo khoa học trên các tạp chí, hội nghị uy
tín quốc tế
Dự kiến kế hoạch thực hiện
• Tháng 1-3: khảo sát các nội dung về mô hình ước lượng thay
thế axít amin
• Tháng 4-6: nghiên cứu chi tiết về các mô hình đã được chứng
minh đúng và hiệu quả: LG, WAG, JTT
• Tháng 7-15: simulation, công bố bài báo khoa học số 1
• Tháng 16-24: mixture model, công bố bài báo khoa học số 2
• Tháng 25-31: thực nghiệm trên các hệ gene của các dòng virus:
covid 19, adeno, đậu mùa khỉ, vv. Công bố bài báo khoa học số
3
• Tháng 31-36: hoàn thiện và bảo vệ luận án
Kiến nghị
• Cán bộ hướng dẫn:
• PGS.TS Lê Sỹ Vinh
• TS. Đặng Cao Cường
Trân trọng cảm ơn.

More Related Content

Similar to Xây dựng và đánh giá các phương pháp.pptx

Chapter 4 kiem dinh thong ke
Chapter 4 kiem dinh thong keChapter 4 kiem dinh thong ke
Chapter 4 kiem dinh thong kepmxuandba
 
BÁO CÁO KHOA HỌC- LINH.pptx
BÁO CÁO KHOA HỌC- LINH.pptxBÁO CÁO KHOA HỌC- LINH.pptx
BÁO CÁO KHOA HỌC- LINH.pptxKhiBui
 
4.ANOVA - YẾN.pdf
4.ANOVA - YẾN.pdf4.ANOVA - YẾN.pdf
4.ANOVA - YẾN.pdfNhtLmNguyn3
 
TÀI LIỆU VẬN DỤNG CAO ÔN THI THPT MÔN SINH HỌC BỘ 1900 CÂU HỎI TRẮC NGHIỆM CH...
TÀI LIỆU VẬN DỤNG CAO ÔN THI THPT MÔN SINH HỌC BỘ 1900 CÂU HỎI TRẮC NGHIỆM CH...TÀI LIỆU VẬN DỤNG CAO ÔN THI THPT MÔN SINH HỌC BỘ 1900 CÂU HỎI TRẮC NGHIỆM CH...
TÀI LIỆU VẬN DỤNG CAO ÔN THI THPT MÔN SINH HỌC BỘ 1900 CÂU HỎI TRẮC NGHIỆM CH...Nguyen Thanh Tu Collection
 
Dai cuong ve sac ky sac ky long khoi pho lc ms lai thi thu trang truong dai h...
Dai cuong ve sac ky sac ky long khoi pho lc ms lai thi thu trang truong dai h...Dai cuong ve sac ky sac ky long khoi pho lc ms lai thi thu trang truong dai h...
Dai cuong ve sac ky sac ky long khoi pho lc ms lai thi thu trang truong dai h...Nguyen Thanh Tu Collection
 
Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...
Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...
Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Liên quan và điều hòa chuyển hóa
Liên quan và điều hòa chuyển hóaLiên quan và điều hòa chuyển hóa
Liên quan và điều hòa chuyển hóaLam Nguyen
 
Chuong iii lythuyet_mau
Chuong iii lythuyet_mauChuong iii lythuyet_mau
Chuong iii lythuyet_mauPhạm Thạch
 
Chuong iii lythuyet_mau
Chuong iii lythuyet_mauChuong iii lythuyet_mau
Chuong iii lythuyet_mauPhạm Thạch
 
Luận án: Dao động ngẫu nhiên phi tuyến bằng tiêu chuẩn sai số - Gửi miễn phí ...
Luận án: Dao động ngẫu nhiên phi tuyến bằng tiêu chuẩn sai số - Gửi miễn phí ...Luận án: Dao động ngẫu nhiên phi tuyến bằng tiêu chuẩn sai số - Gửi miễn phí ...
Luận án: Dao động ngẫu nhiên phi tuyến bằng tiêu chuẩn sai số - Gửi miễn phí ...Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Bai giang sac ky long hieu nang cao hplc 13102017
Bai giang sac ky long hieu nang cao hplc 13102017Bai giang sac ky long hieu nang cao hplc 13102017
Bai giang sac ky long hieu nang cao hplc 13102017Nguyen Thanh Tu Collection
 
Chương 2 Cấu trúc chức năng gene.pptx
Chương 2 Cấu trúc chức năng gene.pptxChương 2 Cấu trúc chức năng gene.pptx
Chương 2 Cấu trúc chức năng gene.pptxNguyenThanh346617
 
BAI GIANG PHAN TICH MOI TRUONG GV PHAN QUANG HUY HOANG.pdf
BAI GIANG PHAN TICH MOI TRUONG GV PHAN QUANG HUY HOANG.pdfBAI GIANG PHAN TICH MOI TRUONG GV PHAN QUANG HUY HOANG.pdf
BAI GIANG PHAN TICH MOI TRUONG GV PHAN QUANG HUY HOANG.pdfNguyen Thanh Tu Collection
 
2. Phân tích định lượng.pdf
2. Phân tích định lượng.pdf2. Phân tích định lượng.pdf
2. Phân tích định lượng.pdfFred Hub
 

Similar to Xây dựng và đánh giá các phương pháp.pptx (20)

Chapter 4 kiem dinh thong ke
Chapter 4 kiem dinh thong keChapter 4 kiem dinh thong ke
Chapter 4 kiem dinh thong ke
 
Nghiên Cứu Mô Hình Hồi Quy Gamma Bậc 1 [Gar(1)] Ứng Dụng Trong Lãnh Vực Thủy ...
Nghiên Cứu Mô Hình Hồi Quy Gamma Bậc 1 [Gar(1)] Ứng Dụng Trong Lãnh Vực Thủy ...Nghiên Cứu Mô Hình Hồi Quy Gamma Bậc 1 [Gar(1)] Ứng Dụng Trong Lãnh Vực Thủy ...
Nghiên Cứu Mô Hình Hồi Quy Gamma Bậc 1 [Gar(1)] Ứng Dụng Trong Lãnh Vực Thủy ...
 
BÁO CÁO KHOA HỌC- LINH.pptx
BÁO CÁO KHOA HỌC- LINH.pptxBÁO CÁO KHOA HỌC- LINH.pptx
BÁO CÁO KHOA HỌC- LINH.pptx
 
4.ANOVA - YẾN.pdf
4.ANOVA - YẾN.pdf4.ANOVA - YẾN.pdf
4.ANOVA - YẾN.pdf
 
TÀI LIỆU VẬN DỤNG CAO ÔN THI THPT MÔN SINH HỌC BỘ 1900 CÂU HỎI TRẮC NGHIỆM CH...
TÀI LIỆU VẬN DỤNG CAO ÔN THI THPT MÔN SINH HỌC BỘ 1900 CÂU HỎI TRẮC NGHIỆM CH...TÀI LIỆU VẬN DỤNG CAO ÔN THI THPT MÔN SINH HỌC BỘ 1900 CÂU HỎI TRẮC NGHIỆM CH...
TÀI LIỆU VẬN DỤNG CAO ÔN THI THPT MÔN SINH HỌC BỘ 1900 CÂU HỎI TRẮC NGHIỆM CH...
 
PPNCKT_Chuong 3 p3
PPNCKT_Chuong 3 p3PPNCKT_Chuong 3 p3
PPNCKT_Chuong 3 p3
 
Luận án: Thiết kế, sàng lọc một số dẫn xuất flavonoid, HAY
Luận án: Thiết kế, sàng lọc một số dẫn xuất flavonoid, HAYLuận án: Thiết kế, sàng lọc một số dẫn xuất flavonoid, HAY
Luận án: Thiết kế, sàng lọc một số dẫn xuất flavonoid, HAY
 
Dai cuong ve sac ky sac ky long khoi pho lc ms lai thi thu trang truong dai h...
Dai cuong ve sac ky sac ky long khoi pho lc ms lai thi thu trang truong dai h...Dai cuong ve sac ky sac ky long khoi pho lc ms lai thi thu trang truong dai h...
Dai cuong ve sac ky sac ky long khoi pho lc ms lai thi thu trang truong dai h...
 
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đLuận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
 
Nghiên cứu biến đổi số lượng bản sao ADN ti thể ở bệnh nhân ung thư vú.doc
Nghiên cứu biến đổi số lượng bản sao ADN ti thể ở bệnh nhân ung thư vú.docNghiên cứu biến đổi số lượng bản sao ADN ti thể ở bệnh nhân ung thư vú.doc
Nghiên cứu biến đổi số lượng bản sao ADN ti thể ở bệnh nhân ung thư vú.doc
 
Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...
Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...
Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...
 
Bai tap lon_lo_nhiet_do_7266
Bai tap lon_lo_nhiet_do_7266Bai tap lon_lo_nhiet_do_7266
Bai tap lon_lo_nhiet_do_7266
 
Liên quan và điều hòa chuyển hóa
Liên quan và điều hòa chuyển hóaLiên quan và điều hòa chuyển hóa
Liên quan và điều hòa chuyển hóa
 
Chuong iii lythuyet_mau
Chuong iii lythuyet_mauChuong iii lythuyet_mau
Chuong iii lythuyet_mau
 
Chuong iii lythuyet_mau
Chuong iii lythuyet_mauChuong iii lythuyet_mau
Chuong iii lythuyet_mau
 
Luận án: Dao động ngẫu nhiên phi tuyến bằng tiêu chuẩn sai số - Gửi miễn phí ...
Luận án: Dao động ngẫu nhiên phi tuyến bằng tiêu chuẩn sai số - Gửi miễn phí ...Luận án: Dao động ngẫu nhiên phi tuyến bằng tiêu chuẩn sai số - Gửi miễn phí ...
Luận án: Dao động ngẫu nhiên phi tuyến bằng tiêu chuẩn sai số - Gửi miễn phí ...
 
Bai giang sac ky long hieu nang cao hplc 13102017
Bai giang sac ky long hieu nang cao hplc 13102017Bai giang sac ky long hieu nang cao hplc 13102017
Bai giang sac ky long hieu nang cao hplc 13102017
 
Chương 2 Cấu trúc chức năng gene.pptx
Chương 2 Cấu trúc chức năng gene.pptxChương 2 Cấu trúc chức năng gene.pptx
Chương 2 Cấu trúc chức năng gene.pptx
 
BAI GIANG PHAN TICH MOI TRUONG GV PHAN QUANG HUY HOANG.pdf
BAI GIANG PHAN TICH MOI TRUONG GV PHAN QUANG HUY HOANG.pdfBAI GIANG PHAN TICH MOI TRUONG GV PHAN QUANG HUY HOANG.pdf
BAI GIANG PHAN TICH MOI TRUONG GV PHAN QUANG HUY HOANG.pdf
 
2. Phân tích định lượng.pdf
2. Phân tích định lượng.pdf2. Phân tích định lượng.pdf
2. Phân tích định lượng.pdf
 

Xây dựng và đánh giá các phương pháp.pptx

  • 1. XÂY DỰNG VÀ ĐÁNH GIÁ CÁC PHƯƠNG PHÁPƯỚC LƯỢNG MÔ HÌNH BIẾN ĐỔIAXITAMIN CHO CÁC TẬPDỮ LIỆU LỚN Người báo cáo: Nguyễn Huy Tình Cán bộ hướng dẫn: PGS.TS Lê Sỹ Vinh TS. Đặng Cao Cường
  • 2. Nội dung • Giới thiệu chung • Bài toán cần giải quyết • Phương pháp nghiên cứu • Kế hoạch nghiên cứu, triển khai • Kiến nghị
  • 3. Giới thiệu chung • DNA và axít amin • Mô hình hóa quá trình biến đổi axít amin • Bài toán ước lượng mô hình biến đổi axít amin
  • 4. ADN và axít amin • Trong sinh học phân tử, ADN (Acid Deoxyribo Nucleic) là một đoạn gen mang thông tin di truyền cần thiết cho quá trình tổng hợp protein cũng như quá trình hoạt động sinh trưởng, phát triển của các loài sinh vật. • ADN có cấu tạo xoắn kép được tạo thành từ 4 đơn vị nhỏ hơn gọi là nucleotít: A, T, G, C. • Axít amin là một hợp chất hữu cơ được cấu tạo bởi ba thành phần: nhóm amin (-NH2), nhóm cacboxyl (-COOH) và nhóm biến đổi R quyết định tính chất của axít amin
  • 5. ADN và axít amin • Mối quan hệ giữa nucleotide và axít amin được thể hiện qua quá trình tổng hợp protein • Trong một chuỗi nucleotide mã hóa protein, mỗi bộ ba nucleotide liên tiếp được gọi là một bộ ba (codon). Mỗi codon có thể mã hóa một axít amin hoặc là tín hiệu kết thúc của một quá trình tổng hợp protein
  • 6. Danh sách các axít amin STT Tên axít amin Tên viết tắt (3 ký tự) Tên viết tắt (1 ký tự) 1 Alanine Ala A 2 Arginine Arg R 3 Asparagine Asn N 4 Aspartic Asp D 5 Cysteine Cys C 6 Glutamine Gln Q 7 Glutamic Glu E 8 Glycine Gly G 9 Histidine His H 10 Isoleucine Ile I 11 Leucine Leu L 12 Lysine Lys K 13 Methionine Met M 14 Phenylalanine Phe F 15 Proline Pro P 16 Serine Ser S 17 Threonine Thr T 18 Tryptophan Trp W 19 Tyrosine Tyr Y 20 Valine Val V
  • 7. Các phép biến đổi trên chuỗi axít amin • Trong quá trình tiến hóa, hệ gen của sinh vật bị biến đổi để tạo ra các sinh vật mới thích nghi hơn với môi trường sống • Có 3 loại biến đổi chính là: • Thay thế: một axít amin này bị thay thế bằng một axít amin khác. • Xoá: một hoặc một số axít amin bị xoá khỏi chuỗi protein. • Chèn: một hoặc một số axít amin được chèn vào chuỗi protein.
  • 8. Sắp hàng đa chuỗi axít amin • Quá trình biến đổi làm cho các chuỗi axít amin tương đồng khác nhau cả về nội dung cũng như độ dài. • Sắp hàng đa chuỗi sẽ giúp làm rõ các phép biến đổi giữa các chuỗi axít amin 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Người E H D - N D E M C Q L K P L P Tinh tinh F H D R - D E M C Q L K P L P Khỉ đột F G D R - D E M C Q L K P L P Vượn F G D R - V H M C Q L K P L P
  • 9. Cây tiến hóa • Cây phân loài (cây tiến hóa) là một dạng sơ đồ phân nhánh thể hiện quá trình tiến hóa của các loài sinh vật và cho biết sự tương đồng và khác biệt về giữa chúng. • Các sinh vật liên kết với nhau trong cây được cho là có cùng một tổ tiên chung. • Xác định cây phân loài là bài toán trung tâm của sinh học tiến hóa
  • 10. Mô hình hóa quá trình biến đổi axít amin • Quá trình biến đổi này là ngẫu nhiên và liên tục theo thời gian với tập trạng thái S = {A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V} • Mô hình Markov: • Độc lập • Đồng nhất • Liên tục • Ổn định • Thuận nghịch
  • 11. Mô hình hóa quá trình biến đổi axít amin • Gọi 𝛱 = 𝜋𝑖 với i = 1,..,20 là véc tơ tần số xuất hiện của 20 axít amin, khi đó 𝑖=1 20 𝜋𝑖 = 1 và các 𝜋𝑖 không đổi theo thời gian • Gọi 𝐏 𝑡 = {𝑝𝑖𝑗 𝑡 , 𝑖 ∈ 𝐒, 𝑗 ∈ 𝐒} là ma trận xác suất chuyển giữa các axít amin sau một khoảng thời gian 𝑡. Ta có: 𝑗∈𝑺 𝑝𝑖𝑗 𝑡 = 1 • 𝐏 𝑡 cũng thỏa mãn công thức Chapman-Kolmogorov: 𝐏 𝑡 + 𝑠 = 𝐏 𝑡 + 𝐏(𝑠) • Với giá trị ∆𝑡 nhỏ, ma trận xác suất chuyển 𝐏(∆𝑡) có thể được tính xấp xỉ tuyến tính theo khai triển Taylor như sau 𝐏 ∆𝑡 ≈ 𝐏 0 + ∆𝑡 ∗ 𝐐 • Trong đó 𝐐 = {𝑞𝑖𝑗 , 𝑖 ∈ 𝑺, 𝑗 ∈ 𝑺} là ma trận tốc độ biến đổi tức thì (instantaneous substitution rate matrix) giữa các axít amin
  • 12. Ma trận Q • Ma trận tốc độ biến đổi tức thì 𝐐 có thể được biểu diễn bởi ma trận hoán đổi 𝐑 = {𝑟𝑖𝑗} và vectơ tần số xuất hiện 𝚷 = {𝜋𝑖} như sau: 𝑞𝑖𝑗 = 𝜋𝑗𝑟𝑖𝑗 𝑛ế𝑢 𝑖 ≠ 𝑗 − 𝑥≠𝑖 𝑞𝑖𝑥 𝑛ế𝑢 𝑖 = 𝑗 • Viết gọn: 𝐐 = 𝚷 ∗ 𝐑 • Chúng ta có thể ước lượng 𝚷 và 𝐑 thay cho ước lượng Q • Số tham số cần ước lượng của 𝚷 là 19 do véc tơ 𝚷 có 20 thành phần nhưng tổng của 20 thành phần bằng 1. Số tham số cần ước lượng của 𝐑 là 19 * 20/2 - 1 = 189. Do 𝐑 là ma trận đối xứng và được chuẩn hóa. • Tổng tham số ước lượng Q: 208
  • 13. Ma trận Q • Điểm khác biệt giữa mô hình thay thế nucleotide và axít amin là số lượng tham số của mô hình. Mô hình nucleotide tổng quát có 8 tham số trong khi mô hình thay thế axít amin có 208 tham số. • Cần được ước lượng dựa trên các tạp dữ liệu có kích thước lớn.
  • 14. A R N D C Q E G H I L K M F P S T W Y V A R 0.425 N 0.277 0.752 D 0.395 0.124 5.076 C 2.489 0.535 0.529 0.063 Q 0.970 2.808 1.696 0.523 0.085 E 1.039 0.364 0.542 5.244 0.003 4.129 G 2.066 0.390 1.438 0.845 0.569 0.268 0.349 H 0.359 2.427 4.509 0.927 0.641 4.814 0.424 0.311 I 0.150 0.127 0.192 0.011 0.321 0.073 0.044 0.009 0.109 L 0.395 0.302 0.068 0.015 0.594 0.582 0.070 0.044 0.366 4.145 K 0.537 6.326 2.145 0.283 0.013 3.234 1.807 0.297 0.697 0.159 0.138 M 1.124 0.484 0.371 0.026 0.894 1.673 0.174 0.140 0.442 4.274 6.312 0.657 F 0.254 0.053 0.090 0.017 1.105 0.036 0.019 0.090 0.682 1.113 2.593 0.024 1.799 P 1.178 0.333 0.162 0.394 0.075 0.624 0.419 0.197 0.509 0.078 0.249 0.390 0.100 0.094 S 4.727 0.858 4.008 1.240 2.784 1.224 0.612 1.740 0.990 0.064 0.182 0.749 0.347 0.362 1.338 T 2.140 0.579 2.001 0.426 1.143 1.080 0.605 0.130 0.584 1.034 0.303 1.137 2.020 0.165 0.571 6.472 W 0.181 0.594 0.045 0.030 0.670 0.236 0.078 0.268 0.597 0.112 0.620 0.050 0.696 2.457 0.095 0.249 0.141 Y 0.219 0.314 0.612 0.135 1.166 0.257 0.120 0.055 5.307 0.233 0.300 0.132 0.481 7.804 0.090 0.401 0.246 3.152 V 2.548 0.171 0.084 0.038 1.959 0.210 0.245 0.077 0.119 10.649 1.703 0.185 1.899 0.655 0.297 0.098 2.188 0.190 0.249 0.079 0.056 0.042 0.053 0.013 0.041 0.072 0.057 0.022 0.062 0.099 0.065 0.023 0.042 0.044 0.061 0.053 0.012 0.034 0.069
  • 15. Các phương pháp ước lượng ma trận Q • Phương pháp đếm • Phương pháp đầu tiên do Dayhoff đề xuất đếm số lượng thay thế các axit amin trong tập dữ liệu đầu vào để ước lượng các tham số của mô hình (Dayhoff và Schwartz, 1978). Ví dụ mô hình JTT • Phương pháp cực đại hợp lý (maximum likelihood – ML ): đang được sử dụng phổ biến và cho kết quả tốt hơn. • Phương pháp cực đại hợp lý sẽ xác định mô hình thay thế axit amin 𝑄 và các cây phân loài sao cho giá trị hợp lý 𝐿 𝑄 𝑻; 𝑫 = 𝑃 𝑫 𝑄; 𝑇 đạt giá trị lớn nhất, trong đó 𝑃 𝑫 𝑄; 𝑇 là xác xuất điều kiện của dữ liệu D đối với mô hình Q và tập các cây T • Phương pháp IQ-TREE dựa trên ML đang được sử dụng rộng rãi cho kết quả rất tốt.
  • 16. Phương pháp Qmaker (Bui Quang Minh, Dang Cao Cuong, Le Sy Vinh, Robert Lanfear, 2021, QMaker: Fast and Accurate Method to Estimate Empirical Models of Protein Evolution, Syst. Biol. 70(5):1046–1060)
  • 17. Phương pháp nQMaker (CUONG CAO DANG, BUI QUANG MINH , HANON MCSHEA, JOANN MASEL , JENNIFER ELEANOR JAMES, LE SY VINH, AND ROBERT LANFEAR: nQMaker: Estimating Time Nonreversible Amino Acid Substitution Models, Syst. Biol. 0(0):1–14, 2022)
  • 18. Bài toán cần giải quyết • Simulation • Mixture model • Áp dụng kết quả cho các hệ gene mới gần đây: covid-19, đậu mùa khỉ, adeno virus, ..
  • 19. Simulation • Giả lập các đa sắp hàng để đánh giá các phương pháp ước lượng mô hình T So sánh các cây Ti với T gốc
  • 20. Simulation • Các tham số cho quá trình simulate dữ liệu: • Mô hình thay thế các gene: LG, WAG, JTT • Cây phân loài T • Độ dài sắp hàng • Tỉ lệ biến đổi insert/delete trên chuỗi. • Kích thước biến đổi insert/delete • Tốc độ biến đổi tại các vị trí • Concatenated alignment: giả lập 1 sắp hàng được tạo thành từ nhiều gene, mỗi gene lại tuân theo 1 mô hình thay thế và các tham số khác nhau.
  • 21. Mixture model • Các đa sắp hàng thường có đặc tính sinh học, vật lý khác nhau. Vì vậy dùng 1 model sẽ khó thỏa mãn hết các sự biến đổi của từng gene trong đa sắp hàng. Ví dụ tốc độ biến đổi của từng vị trí là khác nhau. • Cần xây dựng phương pháp dùng kết hợp nhiều model tốc độ biến đổi để mô hình hóa cho từng vị trí trên sắp hàng. • Khi đó công thức tính giá trị hợp lý sẽ có thêm thành phần tốc độ 𝜌𝑐 của nhóm c trong C nhóm tốc độ, các tốc độ này tuân theo phân phối gamma 𝐿 𝑇, 𝑸, 𝛼; 𝐷 = 𝑖 1 ≤𝑐≤𝐶 1 𝐶 𝐿(𝑇, 𝜌𝑐𝑸; 𝐷𝑖)
  • 22. Các vấn đề cần nghiên cứu • Khảo sát tổng quan về các phương pháp ước lượng mô hình • Khảo sát chi tiết về phương pháp ước lượng mô hình thay thế axít amin • Nghiên cứu phương pháp tạo dữ liệu mô phỏng từ đó đánh giá các mô hình ước lượng axít amin • Đề xuất phương pháp kết hợp các mô hình biến đổi axít amin (mixture model) • Thiết kế mô hình áp dụng và thực nghiệm, đánh giá các mô hình trên với các bộ dữ liệu virus mới được công bố: covid 19, đậu mùa khỉ, vv
  • 23. Phương pháp nghiên cứu • Nghiên cứu, khảo sát các tài liệu khoa học liên quan đến quá trình biến đổi axít amin • Thu thập các dữ liệu axít amin • Thiết kế các mô hình và thực nghiệm đánh giá các kết quả • Công bố các bài báo khoa học quốc gia, quốc tế
  • 24. Dự kiến kết quả nghiên cứu • Công bố ít nhất 3 bài báo khoa học trên các tạp chí, hội nghị uy tín quốc tế
  • 25. Dự kiến kế hoạch thực hiện • Tháng 1-3: khảo sát các nội dung về mô hình ước lượng thay thế axít amin • Tháng 4-6: nghiên cứu chi tiết về các mô hình đã được chứng minh đúng và hiệu quả: LG, WAG, JTT • Tháng 7-15: simulation, công bố bài báo khoa học số 1 • Tháng 16-24: mixture model, công bố bài báo khoa học số 2 • Tháng 25-31: thực nghiệm trên các hệ gene của các dòng virus: covid 19, adeno, đậu mùa khỉ, vv. Công bố bài báo khoa học số 3 • Tháng 31-36: hoàn thiện và bảo vệ luận án
  • 26. Kiến nghị • Cán bộ hướng dẫn: • PGS.TS Lê Sỹ Vinh • TS. Đặng Cao Cường

Editor's Notes

  1. Độc lập với quá khứ: quá trình biến đổi từ axít amin X sang Y không phụ thuộc vào quá trình biến đổi trước đó của X Đồng nhất: tốc độ biến đổi của axít amin X là đồng nhất trên cả quá trình biến đổi Liên tục: quá trình biến đổi có thể diễn ra ở bất kì thời điểm nào Ổn định: tần số của các axít amin là không thay đổi theo thời gian Thuận nghịch: tốc độ biến đổi từ I sang J bằng tốc độ từ J sang I
  2. Q là ma trận 20x20, qij là tốc độ biến đổi tức thì từ axít amin i sang axít amin j
  3. Ma trận PI thường được chuẩn hóa bởi hệ số muy để tổng số lượng biến đổi giữa các axit amin trong một dvi thời gian = 1
  4. Ma trận PI thường được chuẩn hóa bởi hệ số muy để tổng số lượng biến đổi giữa các axit amin trong một dvi thời gian = 1
  5. Ví dụ về 2 thành phần 𝚷 và 𝐑 của mô hình LG
  6. - Hạn chế chính của phương pháp đếm là nó không xử lý được các đa biến đổi, các biến đổi song song, hay các biến đổi ngược cho nên chỉ có thể áp dụng cho các tập dữ liệu đầu vào chứa các trình tự protein có độ tương đồng cao. Phương pháp này không còn phù hợp để ước lượng các mô hình từ các tập dữ liệu có kích thước lớn chứa nhiều trình tự protein với độ tương đồng khác nhau.
  7. Mỗi vị trí sẽ thuộc về 1 trong các loại 𝑐 ∈ 1, 2, ..,𝐶 với tốc độ 𝜌 𝑐 . Tác giả Yang (Yang, 1993) đã tiếp cận bài toán với giả định xác xuất của các vị trí là bằng nhau (bằng 1 𝐶 ) và tốc độ 𝜌 𝑐 tuân theo tham số α của phân bố gamma thường được sử dụng để phân tích các tập dữ liệu.