数据科学分析协作平台CDSW

1© Cloudera, Inc. All rights reserved.
Cloudera Data Science Workbench
企业级数据科学家自助分析合作平台
李建伟|大数据架构师@Cloudera

议程
• 数据科学及其面临的挑战
• CDSW功能介绍
• CDSW原理及架构
• 基于CDSW实现客户流失预警
• Q&A

客户流失预警

‹#›© Cloudera, Inc. All rights reserved.
•KS, 128, 415, 382-4657, no, yes, 25, 265.1, 110, 45.07, 197.4, 99, 16.78, 244.7, 91, 11.01, 10, 3, 2.7, 1, False.
•OH, 107, 415, 371-7191, no, yes, 26, 161.6, 123, 27.47, 195.5, 103, 16.62, 254.4, 103, 11.45, 13.7, 3, 3.7, 1, False.
•NJ, 137, 415, 358-1921, no, no, 0, 243.4, 114, 41.38, 121.2, 110, 10.3, 162.6, 104, 7.32, 12.2, 5, 3.29, 0, False.
•OH, 84, 408, 375-9999, yes, no, 0, 299.4, 71, 50.9, 61.9, 88, 5.26, 196.9, 89, 8.86, 6.6, 7, 1.78, 2, False.
•OK, 75, 415, 330-6626, yes, no, 0, 166.7, 113, 28.34, 148.3, 122, 12.61, 186.9, 121, 8.41, 10.1, 3, 2.73, 3, True
客户时间，号码，国际漫游，语⾳邮箱，留⾔个数，⽩天电话分钟，⽩天电话次数，⽩
天电话费⽤，晚上…,半夜…, 客服电话次数，是否流失？
客户流失预警-数据

设备维护的三种⽅式
维修维护
• 设备出现故障后⼈⼯维修
• 被动响应
预防维护
• 定期对设备进⾏维护
• 定期响应
预测维护
• 持续监控设备的运⾏指标，
根据异常情况进⾏干预维护
• 主动响应
业务价值
被动主动
⼤多数企业利⽤这两种⽅式

• 通过传感器实时监控设备的状态及性能指标
• 检测异常变量，模式可能导致潜在的故障，预测设备何时会发生故障
• 制定相应的检修，维护计划
降低成本
减少宕机时间
提升质量

1
预测性维护的业务价值
通过实时数据预测，预防
系统宕机，减少宕机时间
50%
50%
维修&更换预测&预防
预测性维护减少设备维
护成本10%到40%
40%
减少宕机时间
- 数据源: 麦肯锡
降低成本

能源
» 设备故障预测
» 提高生产效率
» 降低成本
风力发电
案例分析
• ⻛机整体状态评估
• 测⻛仪健康状态评估
• ⻛机内部齿轮箱状态评估
• ⻛机外部部件状态评估

⻛机故障预测

开放的数据科学⼯具集

数据科学面临的挑战
数据工程数据科学 (Exploratory) 生产(Operational)
Data Governance
⼤部分的数据科学算法
在个⼈的⼯具上⼩规模
数据上运⾏，⽅案很难
复制
很少的模型进⼊⽣
产阶段
不同的部⻔，团队对⼯
具，编程语⾔有不同的
需求
需要在不同系统之间进
⾏⼤量数据拷⻉

数据科学家遇到的问题
数据访问
l 企业内部的数据由于安全的限制
不能访问⼤数据集群的数据
l 已有的数据分析⼯具不能对接企
业的Hadoop系统
平台扩展
n 个⼈电脑提供有限的存储及
计算能⼒
n 基于抽样数据进⾏建模
n 模型训练时间⻓(基于SAS的
模型训练8⼩时)
⽤户体验
l 软件⼯具版本维护困难
l Python vs R
l Python 2.7 vs 3.5
l 开发的模型很难上⽣产环境
l Notebooks ⼯具很难对接⼤数
据技术

IT团队遇到的问题
• 多租户管理:
• 多个软件的管理及软件的依赖关系管理
• 软件的版本管理
• 数据⼯程师与数据科学家的集群共享
• 安全监管:
• 通过Notebook⼯具，失去数据⾎统关系分析
• 数据质量与数据拷⻉:
• 本地数据拷⻉过期
• 多个数据集拷⻉

Hadoop与机器学习
提升数据科学效率，缩短挖掘数据价值时间
数据资源数据消化分布存储和处理数据分析和智能（机器学习）
Apache Kafka
Stream or batch ingestion of IoT
data
Apache Sqoop
Ingestion of data from relational
sources
Apache HDFS
Storage (HDFS) & deep batch
processing
Apache Kudu
Storage & serving for fast changing
data
Apache HBase
NoSQL data store for real time
applications
Apache Impala
MPP SQL for fast analytics
Cloudera Search
Real time searchIoT数据
企业内部数据安全, 扩展& 易管理
部署灵活:
数据中⼼云
Apache Spark
Stream & iterative processing, ML

Hadoop与机器学习
提升数据科学效率，缩短挖掘数据价值时间
• 更多的数据，不止更好的算法
• 更多种类数据，不止结构化数据
• 更多计算引擎, 不止基于Schema的SQL引擎
• 易于水平扩展 vs 垂直扩展
• 一个平台，多个计算框架，支持批处理，流处理，数据服务等 vs 多个系统

https://medium.com/@KevinSchmidtBiz/data-engineer-vs-data-scientist-vs-business-analyst-b68d201364bc

企业级⾃服务数据科学平台
• 基于Hadoop进⾏数据科学分析
• 数据集中存放在HDFS
• 利⽤Spark, Impala及其他Hadoop计算引擎
• 解决分析“烟囱”问题
• ⾃服务协作平台
• 在浏览器上运⾏Python, R及Scala
• ⾃定义项⺫软件，环境变量
• 数据分析过程合作，分析结果共享
• 满⾜企业⽤户需求
• 业务部⻔⾃服务数据探索分析
• 保证数据安全前提下的数据分析(Kerberos)
• 部署灵活：数据中⼼，云

Cloudera企业数据中心
数据治理运维管理
CDH – 100% 开源商业版
公有云
数据中心
所有X86服务器
部署
云应⽤迁移
Navigator
Optimizer
传统数据库
迁移到
Hadoop
Cloudera Data Science Workbench (CDSW)
R, Python, Scala
Data Science at Scale
PaaS
私有云
数据加⼯、处理发现与分析在线服务
统⼀数据服务
存储
批处理流处理 SQL 全⽂检索建模在线
资源管理— YARN, Zookeeper
安全管理— SENTRY + Record Service
MR,
HIve, Pig
Spark
Streaming
Impala Solr Spark
MLLib
HBase
HDFS Kudu HBase
数据接⼊ — Sqoop, Flume, Kafka
分布式⽂件系统关系数据 NoSQL
Cloudera
Navigator
安全
审计
溯源
加密
Cloudera
Manager
管理
监控
诊断
集成
Cloudera
Director
云上⼤数
据

端到端的数据科学流程
数据工程数据科学(Exploratory) 生产 (Operational)
数据清洗
特征选择
数据可视化及
分析
模型训练及测
试
生产模型准备
离线应用
在线应有
模型
服务
开发工具: IDEs/Notebooks, 合作运维工具: 版本控制, 定期作业, 工作流, 模型发布
Data Governance数据转换
数据预处理
数据获取
模型质量
模型试验

开发
集成工具
运维
作业管理

功能特性－数据预处理
支持多种类
型数据源，
简化了数据
建模、分析
前大量繁重、
重复的数据
加工、清洗
工作

功能特性－开发模型
使用最强大的工具，包括R，Python，SQL，
Spark等，来构建数据科学和高级分析解决方
案，加速数据科学从探索到部署。

功能特性－数据可视化
自动部署模型程序，发布数据可视化图表，实现数据科学家和业务团
队紧密合作，构建分析管道和模型，为企业带来更深入的洞察。

功能特性－作业调度管理
构建及管理R，Python，SQL，Spark等的ETL和模型分析工作流。构建
分析基础架构，实现无限制的分析。

CDSW部署架构
Cloudera Manager
HTTP
Users
CDH
Nodes
CDH
Nodes
CDH
Nodes
CDH Cluster 1
Cloudera Manager
CDH
Nodes
CDH
Nodes
CDH Cluster 2
CDSW Application
CDSW
Nodes
CDSW
Nodes
CDSW
Nodes
CDH
Nodes
Config
Spark, Impala,
Hive, HDFS, etc.
•做为“edge node cluster”运⾏
• 在Docker + Kubernetes
• CDH 5.11, Spark 2.0+
•或者是AWS等云环境
• 使⽤虚拟镜像VMs/AMIs
• 脚本化安装
•安全策略⽀持
LDAP/SAML/Kerberos

CDWS软件架构
CDH
Gateway
CDH
Node
CDH
Node
CDH
Node
Cloudera Manager
CDSW
Worker Node
Spark, Impala,
Hive, HDFS, …
CDH
Gateway
CDSW
Master Node
Docker
Application Pods
Engine Pods
Kubernetes
Cloudera Manager Agent
CDSW 应用组件及用户负载
容器调度服务
容器运行环境
Local management of CDH services
CDH
Gateway
CDSW
Worker Node

CDSW + Spark Architecture

• 操作系统: RHEL/CentOS 7.2
• 硬件配置
• 1个主CDSW节点, 0个或多个CDSW从节点
• CPU: 16+ CPU (vCPU) 核
• 内存: 32+ GB
• 硬盘:
• Root Volume: 100+ GB
• Docker Image Block Device(s): 500+ GB
• Application Block Device(s) (Master Node Only): 500+ GB
• 网络:
• 通配域名, 例如： *.cdsw.company.com
• 禁用防火墙
• 建议: 8 CPU cores and 16GB of RAM/用户
⺴关节点要求

建模流程

获取数据

特征抽取&特征转换

训练数据集&测试数据集

模型效果评估

模型效果评估: ROC

模型效果评估

Thank you

数据科学分析协作平台CDSW

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie 数据科学分析协作平台CDSW

Ähnlich wie 数据科学分析协作平台CDSW (20)

数据科学分析协作平台CDSW