Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Cloudera企业数据中枢平台

378 Aufrufe

Veröffentlicht am

企业大数据平台

Veröffentlicht in: Technologie
  • Loggen Sie sich ein, um Kommentare anzuzeigen.

Cloudera企业数据中枢平台

  1. 1. 1© Cloudera, Inc. All rights reserved. Cloudera企业数据中枢平台 挖掘企业数据价值 李建伟|⼤数据架构师@Cloudera
  2. 2. 2© Cloudera, Inc. All rights reserved. Apache Hadoop开启技术变⾰之⻔ ©2014 Cloudera, Inc. All rights reserved. Hadoop⽅式传统⽅式 3万美元/TB 昂贵且不可持续 • Scale Up,难以扩展 • ⺴络、I/O成为瓶颈 • 擅⻓处理结构化/关系型数据 • 难以处理新增的领域和数据类型 昂贵的专⽤的服务器+存储 / 昂贵的专⽤软件 Network 数据存储 (SAN, NAS) 计算 (RDBMS, EDW) 300-1000美元/TB 经济实⽤ • Scale out,易于扩展 • 近乎⽆限容量、超⾼效率 • 可以处理各种数据 • 结构化、半结构化、⾮结构化 标准商⽤x86服务器 / 开源软件 计算 内存 存储计算 内存 存储 计算 内存 存储
  3. 3. 3© Cloudera, Inc. All rights reserved. Cloudera-Hadoop的领导者 创⽴ 2008成⽴于美国硅⾕, 原 技术 ⾼管创⽴ Hadoop之⽗ Doug Cutting任Cloudera⾸席架构师 市场第⼀ 全球市场70%份额 标准领导者 贡献了超过⼀半以上Hadoop⽣态源码 最多案例 数千家企业级⽤户典型⽤例 最⼤⽣态系统 2100多家合作伙伴 ⾦牌培训 业界知名的培训,全球排名前20的科技公司的技术⼈员 100%参加过Cloudera培训 服务保障 最具经验的专业售后服务团队,提供5X8或7X24⽀持 丰富的知识库共享,主动⽀持、预测⽀持
  4. 4. 4© Cloudera, Inc. All rights reserved. 能力服务层 工具及增强 应用及接口 计算引擎层 底层基础层 存储层 分布式文件系统 HDFS 分布式计算框架 MapReduce NoSQL数据库 HBase 基础类库 Common 统一协调平台 Zookeeper 文件访问接口 FUSE/WebHDFS /NFS 数据ETL Sqoop 实时数据传输 Flume 结构化数据库 Hive 工作流 Oozie 数据挖掘算法库 Mahout 用户使用界面 HUE MPP执行引擎 Impala 编译测试工具 BigTop 部署工具 Whirr MapReduce管道 Pig 序列化 Avro 全文检索 Search 统一管理层 用户安全管理 Sentry 资源管理 YARN 记录访问管理 RecordService 列式文件格式 Parquent Hybrid存储 KUDU 消息队列 Kafka 流处理 Storm 内存计算引擎 Spark 文本搜索引擎 Solr Pig数学处理库 DataFu 管道管理工具 Crunch 数据SDK Kite Cloudera发起 Cloudera有 Committer Apache⼤数据开源社区技术创新⼒
  5. 5. 5© Cloudera, Inc. All rights reserved. Cloudera企业数据中心 数据治理 运维管理 CDH – 100% 开源 商业版 公有云 数据中心 所有X86服务器 部署 云应⽤迁移 Navigator Optimizer 传统数据库 迁移到 Hadoop Cloudera Data Science Workbench (CDSW) R, Python, Scala Data Science at Scale PaaS 私有云 数据加⼯、处理 发现与分析 在线服务 统⼀数据服务 存储 批处理 流处理 SQL 全⽂检索 建模 在线 资源管理— YARN, Zookeeper 安全管理— SENTRY + Record Service MR, HIve, Pig Spark Streaming Impala Solr Spark MLLib HBase HDFS Kudu HBase 数据接⼊ — Sqoop, Flume, Kafka 分布式⽂件系统 关系数据 NoSQL Cloudera Navigator 安全 审计 溯源 加密 Cloudera Manager 管理 监控 诊断 集成 Cloudera Director 云上⼤数 据
  6. 6. 6© Cloudera, Inc. All rights reserved. 统⼀平台:⼀个平台,多种计算框架 •批处理 •流处理 •交互式分析 •端到端的分析流程 •访问更多的数据 •更多多用户放到到数据 •用户访问数据方式更多安全及管理 处理 接⼊ Sqoop, Flume 转换 MapReduce, Hive, Pig, Spark 发现 分析 Impala 全⽂检索 Solr 建模 机器学习 SAS, R, Spark, Mahout 服务 NoSQL HBase 流处理 Spark Streaming ⽆限存储HDFS, HBase YARN, Cloudera Manager, Cloudera Navigator
  7. 7. 7© Cloudera, Inc. All rights reserved. 当前Hadoop平台上的存储组件概括 HDFS的强项: • ⾼效的顺序扫描能⼒ • ⽀持⾼吞吐的数据追加 HBase的强项: • ⾼效的按⾏随机存取能⼒ • ⽀持数据的修改 可以“⻥”和“熊掌”兼得吗? • 如何实现对实时变化的数据集做⾼效的 数据分析呢(Fast Analysis on Fast Data)?
  8. 8. 8© Cloudera, Inc. All rights reserved. •扫描⼤数据量时吞吐率⾼(列式存储和多副 本机制) ⺫标: 相对Parquet的扫描性能差距在2x之内 •访问少量数据时延时低(主键索引和多数占 优复制机制) ⺫标: SSD上读写延时不超过1毫秒 •类似的数据库语义(初期⽀持单⾏记录的 ACID) •关系数据模型 •SQL查询 •“NoSQL”⻛格的扫描/插⼊/更新(Java客户端) Kudu的设计⺫标
  9. 9. 9© Cloudera, Inc. All rights reserved. 当前Hadoop实时数据分析的现状 但是怎样处理下面的问 题? ● 怎么有效处理转换过程中的错误? ● 如何定义将HBase数据转换成 Parquet格式作业的周期? ● 从数据进入到报表中能体现之间的 时延如何量化? ● 作业流程怎么保障不被其他操作打 断? 最新的数据分区 最近的数据分区 历史数据 HBase Parquet文 件 积累了足够数 据吗? 将Hbase存 储的数据 重新组织 为Parqet格 式 • 等待数据文件的生成 • 在Impala中构建新的分区并导入数 据 流入数据 (消息系统) 报表需求 Impala on HDFS
  10. 10. 10© Cloudera, Inc. All rights reserved. 使⽤Kudu的Hadoop实时数据分析 改进点: ● 只要一套系统 ● 不需要后台定时的批处理任务 ● 轻松应对数据迟到和数据修正 ● 新数据立即用于在分析和业务运营 历史和实时数据 流入数据 (消息系统) 报表需求 Storage in Kudu
  11. 11. 11© Cloudera, Inc. All rights reserved. Cloudera Impala 业界领先的基于Hadoop的MPP引擎 简单 复用已有的SQL技术及BI工具 高并发 专为即席查询做优化的数据引擎 快 10-100倍 集成,安全 统一集成在Cloudera EDH计算框架 里,并提供一致的安全特性 Enterprise Data Hub Security and Administration Unlimited Storage Process 发现 Model Serve
  12. 12. 12© Cloudera, Inc. All rights reserved. 灵活 开发、共享数据 弹性扩容 不灵活 封闭、孤立的系统 难于扩展 分析型数据库技术对⽐ ETL Systems 批处理性能 单一用户 编程访问 企业BI分析 数据灵活性 Analytic Database 交互式 性能 多并发 BI 兼容 SQL Hadoop Tools EDW Modern Analytic DB Silo Database BigSQL Monolithic Analytic DB
  13. 13. 13© Cloudera, Inc. All rights reserved. ⾼效-Impala与其他产品性能对⽐ 0 50 100 150 200 250 300 350 Impala Spark SQL Presto Hive-on-Tez 时间(秒) 单一用户及10个并发用户Imapla与其他产品对比 (越低越好) 单一用户,5 10个并发, 11 单一用户,25 10个并发, 120 10个并发,302 10个并发,202 单一用户,37 单一用户,77 5.0x 10.6x 7.4x 27.4x 15.4x 18.3x IBM Research SQL-on-Hadoop VLDB 论⽂所验证: “Impala’s database architecture provides significant performance gains”
  14. 14. 14© Cloudera, Inc. All rights reserved. Impala性能优势 •⾮MapReduce; 没有JVM; 本机语⾔ •内存计算技术 •优化的⽂件格式(Parquet) •基于C++语⾔编写,为CPU指令优化 •中间结果保持到硬盘 •饱和磁盘读取操作,避免IO瓶颈 •基于成本的联接顺序优化 •HDFS缓存
  15. 15. 15© Cloudera, Inc. All rights reserved. Cloudera Data Science Workbench 企业⾃服务数据科学平台 R, Python, & Spark Use the most powerful tools on a unified platform. 分布式分析 Run analysis 10X faster and across a scalable cluster. 自动的分析流程 Schedule and monitor analytics pipelines.
  16. 16. 16© Cloudera, Inc. All rights reserved. 机器学习算法 • 逻辑回归 • 决策树 • 随机森林 • Gradient-boosted tree • 神经网络 • 贝叶斯 分类 算法 • 线性回归 • 决策树 • 随机森林 • Gradient-boosted tree • Survival regression • Isotonic regression 回归 算法 •K-means Gaussian mixture Power iteration clustering (PIC) Latent Dirichlet allocation (LDA) Bisecting k-means Streaming k-means 聚类算 法 •协同过滤 推荐算 法 •FP-Growth 关联规 则
  17. 17. 17© Cloudera, Inc. All rights reserved. R Studio Sparklyr •从R访问Spark •通过R调⽤Spark Mllib, H2O机器学 习算法
  18. 18. 18© Cloudera, Inc. All rights reserved. 易管理: Cloudera Manager 端到端管理工具: • 管理 • 监控 • 诊断 • 集成 主要特性 • 零宕机滚动升级 • 容灾备份/恢复 • HA • 安全管理 • 运行报告 • 多租户管理 • …
  19. 19. 19© Cloudera, Inc. All rights reserved. 统一数据治理 审计 溯源 统一元数据 统一策略 Search Define Analyze Profile 自服务探索及分析 快速查找相关数据集 Audit Track Encrypt Manage Keys 满足监管要求的治 理及管控 保护敏感数据 Report Optimize Migrate Maintain Models 活动数据优化 配置集群提高效率 Classify Steward Backup Retain 数据生命周期管理 集群性能最大化 数据治理:Cloudera Navigator
  20. 20. 20© Cloudera, Inc. All rights reserved. Full text search across HDFS See file schema Column Level lineage Table Level lineage Table metadata with technical description Tags for easy search and sharing Custom key/values Table metadata with business description Download lineage Who created it, when, where
  21. 21. 21© Cloudera, Inc. All rights reserved. Cloudera Navigator Optimizer
  22. 22. 22© Cloudera, Inc. All rights reserved. 端到端数据治理⽅案 Cloudera Navigator + 合作伙伴 溯源 审计 元数据 扩展集成
  23. 23. 23© Cloudera, Inc. All rights reserved. 易管理:Cloudera Director 可移植性: 多种云基础架构 私有云 物理机 公有云 * 云体验: • ⾃服务 • 弹性、按需部署 • 追踪使⽤情况、收费 缩短获取商务信息周期 • ⼀键部署Hadoop集群 • 避免⼤数据云端的拷⻉
  24. 24. 24© Cloudera, Inc. All rights reserved. 安全 Cloudera是Hadoop安 全的领导者 独特的产品能⼒: •⼲泛的,统⼀的安全机制 •全⾯的安全组件 •没有性能损耗 •与Intel合作,在芯⽚层⾯优化性能 •符合监管规范 •唯⼀通过PCI认证的Hadoop⼚家 1. 外围组件 基于标准的⾝份认证 安全及管理 ⽆限存储 处理 发现 建模 服务 2. 访问 统⼀的基于⾓⾊的授权机制 4. 数据 透明的加密、解密 3. 可⻅性 提供审核及监管功能
  25. 25. 25© Cloudera, Inc. All rights reserved. 认证 •遵循集中管理⽤户⾝份认证的策略 •基于业界标准的认证系统, Active Directory, Keberos, LDAP •基于界⾯的向导式配置管理,避免出 错,降低后期维护成本 认证 哪些人可以访问Hadoop集 群 技术概念: 授权 网络隔离 Kerberos | AD/LDAP
  26. 26. 26© Cloudera, Inc. All rights reserved. Sentry-集中的授权策略管理 Sentry Perm. Read Access to Transactions. Date… Where Country = US Sentry Perm. Read Access to Customers.C ustomerID… Where Country = US Sentry Role U.S. Customer Transaction Analysis Group Tier 1 Customer Support Reps Sam Smith Group Tier 1 Broker Analysts Martha Jones Cust. ID SS N Phone Countr y 6758493 329-44- 9847 US 09:22:03 16-Feb- 2015 344-22- 9876 EU 5768459 585-11- 2345 US Date/Tim e Cust. ID Trad e Countr y 11:33:01 16-Feb- 2015 Sell US 09:22:03 16-Feb- 2015 344- 22- 9876 EU 13:45:24 16-Feb- 2015 Buy US
  27. 27. 27© Cloudera, Inc. All rights reserved. 审计 审计 数据来源及去处 技术概念: 审计 血统 Cloudera Navigator
  28. 28. 28© Cloudera, Inc. All rights reserved. 数据加密及秘钥管理 Cloudera 方案: • 所有数据可加密: HDFS, HBase, 元数据 , 日志文件, 数据接入途径 • Navigator Key Trustee :秘钥管理 • Cloudera Manager统一管理 • 秘钥可以通过硬件秘钥(HSMs)存储 Manager Navigator Impala Hive HDFS HBase Sentry Navigator Key Trustee Log Files Metadata Store Encrypted Data Encryption Key Legend Ingest Paths
  29. 29. 29© Cloudera, Inc. All rights reserved. 开放的⽣态系统 数据 Cloudera Enterprise Data Hub 安全及管理 无限存储 处理 发现 模型 服务 应用 集成商 基础架构 • 2100多个合作伙伴 • 保障与已有的信息基础设施 投资兼容 • ⼤⼤降低技术⻔槛 • 最⼤化数据价值 支撑
  30. 30. 30© Cloudera, Inc. All rights reserved. 完备的培训与认证体系 管理员 4 天 MapRed uce开发 4 天 Spark & Hadoop 开发 4 天 Spark & Hadoop ⾼级开发 4 天 Hbase开 发 3 天 Spark开 发 3 t天⼤数据应 ⽤ 4 天 全⽂检索 3 天 数据分析 师 4 天 数据科学 3 天 Scala⼊ ⻔ 1 天 Python⼊ ⻔ Cloudera 基础 1 天 Cloudera Manager 1 天 专属培训 公开课 定制培训 培训积分
  31. 31. 31© Cloudera, Inc. All rights reserved. 遍布全球的技术⽀持 北京 上海 广州
  32. 32. 32© Cloudera, Inc. All rights reserved. 技术创新 新项⺫ 已有项⺫ *CDH ⽀持项⺫ Core Hadoop (HDFS, MapReduce) Solr Pig Core Hadoop HBase ZooKeeper Solr Pig Core Hadoop Hive Mahout HBase ZooKeeper Solr Pig Core Hadoop Sqoop Avro Hive Mahout HBase ZooKeeper Solr Pig Core Hadoop Flume Bigtop Oozie HCatalog Hue Sqoop Avro Hive Mahout HBase ZooKeeper Solr Pig YARN Core Hadoop Spark Tez Impala Kafka Drill Flume Bigtop Oozie HCatalog Hue Sqoop Avro Hive Mahout HBase ZooKeeper Solr Pig YARN Core Hadoop Parquet Sentry Spark Tez Impala Kafka Drill Flume Bigtop Oozie HCatalog Hue Sqoop Avro Hive Mahout HBase ZooKeeper Solr Pig YARN Core Hadoop Knox Flink Parquet Sentry Spark Tez Impala Kafka Drill Flume Bigtop Oozie HCatalog Hue Sqoop Avro Hive Mahout HBase ZooKeeper Solr Pig YARN Core Hadoop Kudu* Record Service* Ibis* Falcon Knox Flink Parquet* Sentry* Spark* Tez Impala* Kafka* Drill Flume* Bigtop* Oozie* Hcatalog* Hue* Sqoop* Avro* Hive* Mahout* Hbase* ZooKeeper* Solr* Pig* YARN* Core Hadoop* 2006 2008 2009 2010 2011 2012 20132007 2014 2016
  33. 33. 33© Cloudera, Inc. All rights reserved. Thank you

×