More Related Content
Similar to AVA: The deep learning platform based on Alluxio in Qiniu AI Lab
Similar to AVA: The deep learning platform based on Alluxio in Qiniu AI Lab (20)
More from Alluxio, Inc. (20)
AVA: The deep learning platform based on Alluxio in Qiniu AI Lab
- 6. 深度学习平台 AVA
标注 数据集 训练任务 模型
深度学习平台 AVA
Alluxio 分布式调度系统
七⽜牛KODO Ceph RBD GPU 迭代训练
容器器化技术
基础设施
- 7. 深度学习平台 AVA 存储服务演进历程
⽯石器器时代
资源
• 物理理机
• 本地存储
特征
• ⽆无法共享
• 容量量上限
⿊黑铁时代
资源
• kubernetes
• NFS
特征
• 读写性能低
• 冷热数据
⻘青铜时代
资源
• kubernetes
• ceph RBD
特征
• ⽆无法共享
• 容量量上限
⽩白银时代
资源
• kubernetes
• cephfs+Alluxio
特征
• ⽅方便便共享
• 海海量量容量量
- 8. ALLUXIO使⽤用范式
worker worker worker
RAM
worker worker worker
RAM
Kubernetes Flex Volume
Application
bucket bucket bucket
FUSE
/a1 /b1 /c1
Application
bucket bucket bucket
FUSE
/a1 /b1 /c1
Application
bucket bucket bucket
FUSE
/a1 /b1 /c1
- 11. ALLUXIO-优化篇
⼤大⽂文件 persist 优化
worker 1
block a1 block b1
worker 2
block a2 block a3
worker N
block am block x1
…
worker 1
block b1block a1
…
block am
tempfile
worker 1
block a1 block b1
worker 2
block a2 block a3
worker N
block am block x1
…
worker 2
block a2block a1
…
block am
stream
- 16. ALLUXIO-ceph 对⽐比
Alluxio
• 对接云存储
• ⽆无容量量限制
• 内存级加速
• 元数据存储引擎瓶颈
• posix 接⼝口⽀支持不不完整
• 只⽀支持覆盖写
ceph
• ⽀支持对象存储、⽂文件系统、块存储
• quota
• kubernetes 原⽣生⽀支持
• kernel 客户端
• 容量量上线
• cephfs ⼤大规模⽂文件性能问题
• 数据清理理困难
• 多副本,数据冗余
• 扩容艰难