Ice dw-v contest2010

•Download as PPTX, PDF•

0 likes•453 views

Nguyen Thanh

Data & Analytics

Đơn vị: Adtech
Thành viên: Trần Văn Giang,
Nguyễn Trọng Thành

 Đặt vấn đề về bài toán.
 Các giải pháp truyền thống.
 Các giải pháp về Data Warehouse (DW).
 Giải pháp ICE.
 Kết quả đạt được.
 Đánh giá.

 Yêu cầu:
◦ Dữ liệu cập nhật/tính toán nhanh.
◦ Có khả năng lưu trữ/tính toán dữ liệu lớn (hàng 100 tỷ
rows).
◦ Tối ưu chi phí tài nguyên hệ thống, maintains.
◦ Tính tương thích & ổn định.

 Trên thế giới có rất nhiều giải pháp DW, với nhiều
công nghệ đặc thù cho từng giải pháp.

◦ Tốc độ load data vào table rất nhanh. 1 server thông
thường cho tốc độ khoảng 60->80GB/h.
◦ Data up to 50TB.
◦ Open source: cho phép install trên cả windows ,Linux,…
(32 & 64 bit).
◦ Chỉ cần setup lên 1 server là chạy tốt.

 Ứng dụng cho bài toán của Admicro:
◦ Máy chủ 2U 2CPU Quad Cores, 32Gb RAM, HDD 6TB
RAID10.
◦ Dữ liệu log hàng ngày khoảng 500M rows ~
100GB raw data (Peak 1.6B rows ~400Gb/day).
◦ Dữ liệu hiện đang lưu trữ: 90 tỷ bản ghi, dữ liệu
>1TB (đã nén).
◦ Thời gian xử lý 2->5 phút.

 Sử dụng ICE giúp giảm số servers… chi phí tối
thiểu. Thời điểm hiện tại ICE là phù hợp với
Admicro.
 Nhưng ICE chưa phải là giải pháp lâu dài. (chưa
hỗ trợ distributed, HA, giới hạn data size,… ).
 Trong tương lai với data hàng PB thì sẽ chuyển
sang các nền tảng phân tán như Hbase,
HyperTable, Cassandra…

http://www.infobright.org/
http://blog.nahurst.com/visual-guide-to-nosql-systems?c=1
http://www.slideshare.net/jrosoff/scalable-event-analytics-
with-mongodb-ruby-on-rails
http://nosql-database.org/

Similar to Ice dw-v contest2010

SFD 2013 Hanoi: Phần mềm nguồn mở và dự tính khí hậu 100 nămVu Hung Nguyen

Giải Pháp Lưu trữ quang UDO-Ultra Density Optical (thích hợp cho lưu trữ số t...UDO _ Uutra Density Optical - Lưu trữ quang UDO

Chg1. Tong quan ve CNTT.pdfNguyễn Thị Hương Lý

Nền tảng thuật toán của AI, Machine Learning, Big DataHong Ong

Dịch vụ cho thuê serverThảo Phạm

Hadoop trong triển khai Big DataNguyễn Duy Nhân

HadoopPhương Thi Hoàng

MD1-Hardware.pdfSangDo27

Nhom 16 big dataDuy Phan

Chuong2 nmthToai Nguyen Cong

Dsd04 staVăn Đào Tiến

Bai1-Tongquan.pptxHuyTin20

Sancuuongtxhn

1 giới thiệu-cài đặt oraclehoangdinhhanh88

056 giao trinh thvp2011Torres Pham

Các thuật ngữ viết tắt trong tin họcRosie2505

Slide môn Đảm bảo an toàn thông tinducmanhkthd

cấu trúc máy tính Chuong7Thay Đổi

Similar to Ice dw-v contest2010 (18)

SFD 2013 Hanoi: Phần mềm nguồn mở và dự tính khí hậu 100 năm

Giải Pháp Lưu trữ quang UDO-Ultra Density Optical (thích hợp cho lưu trữ số t...

Chg1. Tong quan ve CNTT.pdf

Nền tảng thuật toán của AI, Machine Learning, Big Data

Dịch vụ cho thuê server

Hadoop trong triển khai Big Data

Hadoop

MD1-Hardware.pdf

Nhom 16 big data

Chuong2 nmth

Dsd04 sta

Bai1-Tongquan.pptx

San

1 giới thiệu-cài đặt oracle

056 giao trinh thvp2011

Các thuật ngữ viết tắt trong tin học

Slide môn Đảm bảo an toàn thông tin

cấu trúc máy tính Chuong7

Ice dw-v contest2010

1. Đơn vị: Adtech Thành viên: Trần Văn Giang, Nguyễn Trọng Thành

2.  Đặt vấn đề về bài toán.  Các giải pháp truyền thống.  Các giải pháp về Data Warehouse (DW).  Giải pháp ICE.  Kết quả đạt được.  Đánh giá.

3.  Yêu cầu: ◦ Dữ liệu cập nhật/tính toán nhanh. ◦ Có khả năng lưu trữ/tính toán dữ liệu lớn (hàng 100 tỷ rows). ◦ Tối ưu chi phí tài nguyên hệ thống, maintains. ◦ Tính tương thích & ổn định.

5.  Trên thế giới có rất nhiều giải pháp DW, với nhiều công nghệ đặc thù cho từng giải pháp.

8. ◦ Tốc độ load data vào table rất nhanh. 1 server thông thường cho tốc độ khoảng 60->80GB/h. ◦ Data up to 50TB. ◦ Open source: cho phép install trên cả windows ,Linux,… (32 & 64 bit). ◦ Chỉ cần setup lên 1 server là chạy tốt.

9.  Ứng dụng cho bài toán của Admicro: ◦ Máy chủ 2U 2CPU Quad Cores, 32Gb RAM, HDD 6TB RAID10. ◦ Dữ liệu log hàng ngày khoảng 500M rows ~ 100GB raw data (Peak 1.6B rows ~400Gb/day). ◦ Dữ liệu hiện đang lưu trữ: 90 tỷ bản ghi, dữ liệu >1TB (đã nén). ◦ Thời gian xử lý 2->5 phút.

10.  Sử dụng ICE giúp giảm số servers… chi phí tối thiểu. Thời điểm hiện tại ICE là phù hợp với Admicro.  Nhưng ICE chưa phải là giải pháp lâu dài. (chưa hỗ trợ distributed, HA, giới hạn data size,… ).  Trong tương lai với data hàng PB thì sẽ chuyển sang các nền tảng phân tán như Hbase, HyperTable, Cassandra…

11. http://www.infobright.org/ http://blog.nahurst.com/visual-guide-to-nosql-systems?c=1 http://www.slideshare.net/jrosoff/scalable-event-analytics- with-mongodb-ruby-on-rails http://nosql-database.org/

12. Câu hỏi liên quan?

Editor's Notes

-Nhanh: Số liệu tính toán phải nhanh để quyết định treo/hạ kịp thời các banners đặt quota (clicks/impressions) theo thời gian. Cung giong nhu cac he thong Q/C lon tren TG, la cho phep KH dat ngan sach theo ngay. Neu he thong ra quet dinh cham tre se gay vuot ngan sach cua KH, kem theo ton tai nguyen QC (ma dang le phai nhuong cho cho banners khac) -Phân tích dữ liệu quảng cáo từ 2->5k active banners. 500 triệu -> 1 tỷ bản ghi/ngày (~100->200GB raw data/ngày). Visitor, Click, impression, location, OS,…? Click fraud, loyalty…
Neu 1 node thi chet, config nhieu nodes thi: Row –oriented:tỷ lệ nén thấp do mix nhiều data type -> Disk I/O cao -> giảm performance. Chưa kể phải thường xuyên nâng cấp dung lượng HDD Khi table lớn: thì index cũng lớn theo -> việc sử dụng index ko còn hiệu quả nữa. Do sử dụng index.
Document – Oriented: MongoDB, Terastore,… Key - value model: SimpleDB, Redis… D-O: phù với những bài toán mà dữ liệu lưu có cấu trúc như JSON, XML. More: MongoDB high performance, high concurrency. Poor query, ko load from file=> kho khan khi load vao (giam performance neu custom code)… K-V: Thông thường support get, put & delete. Tỷ lệ nén dữ liệu thấp, ko hỗ trợ những phép tính phức tạp (sum, count, where…)
Đặt tiêu chí: high performance, open source, yêu cầu cấu hình phần cứng ko cao – chi phí tối thiểu. Nếu áp dụng các điều kiện này có thể thấy BigTable, Cassandra, … đòi hỏi trên hệ thống nhiều nodes mới có hiệu quả => đắt … Column –Oriented: Cấu trúc dữ liệu theo dạng grid, dữ liệu được lưu trong các data node. Advance optimizer . MySQL server layer. Yêu cầu phần cứng thấp. Với ý tưởng là giảm tối thiểu disk I/O, chỉ truy xuất vào vùng data cần cho mỗi query, performance ko bị giảm kể cả khi table lên hàng trăm tỷ rows. Ưu điểm của Model này là cho phép tỷ lệ nén data lên rất cao, vì tối ưu thuật toán nén cho từng data type. Chạy trên 1 server đơn lẻ, ko cần setup 1 cluster với nhiều nodes.
- Kế thừa MySQL server layer nên tương thích với các client/API hỗ trợ MySQL. - Sử dụng ngôn ngữ chuẩn SQL đơn giản. - Tỷ lệ nén rất cao: 10->40 lần điều này rất có ích khi lượng data log lớn, tiết kiệm HDD, giảm I/O -> tăng performance.
-Nếu áp dụng giải pháp distributed cần 8->12 nodes. -Maintains + hosting… tăng. -Vấn đề HA mình cũng đã tự implement = cách load đồng thời lên 2 nodes. Adtech: nghien cuu dua ra giai phap phu hop voi bai toan Admicro. -: la high performance, Minimize cost. -Master duoc cong nghe minh su dung.
-Nếu áp dụng giải pháp distributed cần 8->12 nodes. -Maintains + hosting… tăng. -Vấn đề HA mình cũng đã tự implement = cách load đồng thời lên 2 nodes.

Ice dw-v contest2010

Recommended

Recommended

More Related Content

Similar to Ice dw-v contest2010

Similar to Ice dw-v contest2010 (18)

Ice dw-v contest2010

Editor's Notes