SlideShare ist ein Scribd-Unternehmen logo
1 von 38
Downloaden Sie, um offline zu lesen
2018년 04월
MS Azure ML Studio
신용카드 부정사용 검출 테스트
타임게이트 연구소
Agenda
• 신용카드 부정사용 테스트 데이터 (Kaggle)
• Azure Machine Learning Studio
• 신용카드 부정사용 검출 웹서비스 제작
• 결과 비교
• 웹서비스 배포 및 테스트
신용카드 부정사용 테스트 데이터
신용카드 사용 데이터 – 2010설립, 2017년 Google 인수
발췌 : https://www.kaggle.com/agpickersgill/credit-card-fraud-detection/data
• 유럽 카드사 2013년 9월 2일치 데이터
• 전체 284,807 건 중 부정사용 492건
• (Time, Amount, Class)를 제외한 필드를 PCA를
사용해 V1~V28 로 변형
• Label field 는 Class
신용카드 부정사용 데이터 – 유럽 카드사 2013년 2일치 데이터
발췌 : https://www.kaggle.com/agpickersgill/credit-card-fraud-detection/data
부정사용 여부
• 1 : 부정사용
• 0: 정상사용
Azure ML Studio
Azure Machine Learning – 애저 머신러닝 지원 도구
발췌 : https://docs.microsoft.com/ko-kr/azure/machine-learning/
데이터 탐색, 모델 개발,
배포를 손쉽게 관리할 수
있는 서비스 (Cloud/On-
Premise 지원)
Azure Machine Learning
웹서비스 개발 도구
DS(Data Science)용
가상머신 배포 서비스
Azure Machine Learning Stuido – GUI 기반 머신러닝 모델 개발툴
발췌 : https://docs.microsoft.com/ko-kr/azure/machine-learning/studio/studio-overview-diagram
Azure Machine Learning Studio– https://studio.azureml.net
발췌 : https://studio.azureml.net/
Azure
계정으로
로그인
부정사용 검출 웹서비스 제작
Machine Learning 모델 개발 절차
1. 데이터 Upload (Dataset 생성)
2. Experiment 생성
3. Machine Learning 모델 작성
① 데이터셋 블록 추가
② 데이터 전처리(정규화, 합산 필드 생성 등) 블록 추가
③ 데이터 분할(split – 훈련용, 테스트용) 블록 추가
④ Train 블록과 ML(Machine Learning) 모델 블록 추가
⑤ 채점 블록과 평가 블록 추가
4. 훈련된 모델 테스트 및 배포
부정사용 검출 웹서비스 제작 – 데이터 업로드
발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
생성하기
부정사용 검출 웹서비스 제작 – 데이터 업로드
데이터 셋 생성
발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
데이터 셋 파일 찾기
부정사용 검출 웹서비스 제작 – 데이터 업로드
데이터 파일 선택
발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
OK 버튼
부정사용 검출 웹서비스 제작 – 생성된 데이터셋
업로드된 데이터 셋
발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
부정사용 검출 웹서비스 제작 – experiment 생성
생성 버튼
부정사용 검출 웹서비스 제작 – Blank Experiment 생성
발췌 : https://www.kaggle.com/agpickersgill/credit-card-fraud-detection/data
부정사용 검출 웹서비스 제작 – Experiment 생성
Experiment 이름 입력
부정사용 검출 웹서비스 제작 – 데이터셋 선택
데이터셋 선택
Drag & Drop
부정사용 검출 웹서비스 제작 – 데이터 정규화 블록 추가
데이터 정규화 블록
블록 연결
정규화 방법 선택
정규화 대상 컬럼 선택
부정사용 검출 웹서비스 제작 – 데이터 분할 블록 추가
데이터 분할 블록
블록 연결
분할 비율 선택
(일반적으로 8:2 혹은 7:3)
부정사용 검출 웹서비스 제작 – Train Model 블록 추가
모델 훈련 블록
블록 연결
(연결점 확인 필요)
Label 컬럼 선택
부정사용 검출 웹서비스 제작 – ML 모델 블록 추가
ML(Machine Learning) 모델 블록
블록 연결
(연결점 위치 주목)
훈련 모델 매개변수 선택
부정사용 검출 웹서비스 제작 – 모델 채점 블록 추가
모델 채점 블록
블록 연결
(연결점 주목)
부정사용 검출 웹서비스 제작 – 비교 평가 블록 추가
비교평가 블록
블록 연결
부정사용 검출 웹서비스 제작 – 모델 훈련 수행
훈련 수행
결과 비교
머신러닝 정확도 측정 관련 용어
• Sensitivity(Recall) = TP/(TP+FN)
• Specificity = TN/(TN+FP)
• Precision = TP/(TP+ FP)
• Sensitivity 와 Specificity (반비례 관계)
 참/거짓 비율이 다를 경우
• Sensitivity와 Precision (반비례 관계)
 참/거짓 비율이 비슷할 경우
( 참, 거짓 비율이 차이가 크면, 예측의 집합의 비율은
해석에 문제가 생길 가능성)
• ROC(Receiver Operating Characteristic)
 오적중 확률에 따른 적중확률 변화
• Accuracy = (TP+TN)/(TP+TN+FP+FN)
• F1-score =
2*(Precision*Recall)/(Precision+Recall)
실제 True
(부정사용)
실제 False
(정상 사용)
예측 True
(예측 부정 사용)
TP
(True Positive)
FP
(False Positive)
예측 False
(예측 정상 사용)
FN
(False Negative)
TN
(True Negative)
블록 연결
결과 비교 – 평가 점수 확인
평가 스코어
• Sensitivity(Recall) = 0.771
• Accuracy = 0.999
• Precision = 0.955
• F1 = 0.853
• AUC = 0.940
결과 비교 – 평가 점수 확인
웹 서비스 배포 및 테스트
Predictive 웹서비스 생성
웹 서비스 배포 – 웹서비스 생성
생성된 웹서비스 모델
웹 서비스 배포 – 웹서비스 생성
웹서비스 테스트 수행
웹 서비스 배포 – 웹서비스 모델 검증을 위한 테스트 수행
웹서비스 테스트 수행 후 deploy
웹서비스 호출을 위한 API Key
웹 서비스 배포 – 생성된 웹서비스 테스트
웹서비스 테스트용 웹페이지
• 웹서비스 Request/Response 정보
• 샘플 클라이언트 코드
웹 서비스 배포 – 웹서비스 테스트 화면
웹 서비스 배포 – 웹서비스 Request/Response 확인
Address
서울특별시 성동구 아차산로 17
11층 (성수동 1가, 서울숲엘타워)
우편번호 04789
Telephone
Tel : (02)575-0409
Fax: (02)6003-1987

Weitere ähnliche Inhalte

Ähnlich wie Azure ml studio_fraud_detection

Ähnlich wie Azure ml studio_fraud_detection (20)

HR Analytics - 퇴직가능성예측모델
HR Analytics - 퇴직가능성예측모델HR Analytics - 퇴직가능성예측모델
HR Analytics - 퇴직가능성예측모델
 
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링
 
Deep Learning for AI (1)
Deep Learning for AI (1)Deep Learning for AI (1)
Deep Learning for AI (1)
 
권기훈_포트폴리오
권기훈_포트폴리오권기훈_포트폴리오
권기훈_포트폴리오
 
웹서버 부하테스트 실전 노하우
웹서버 부하테스트 실전 노하우웹서버 부하테스트 실전 노하우
웹서버 부하테스트 실전 노하우
 
실전 서버 부하테스트 노하우
실전 서버 부하테스트 노하우 실전 서버 부하테스트 노하우
실전 서버 부하테스트 노하우
 
[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance Tuning[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance Tuning
 
딥러닝(Deep Learing) using DeepDetect
딥러닝(Deep Learing) using DeepDetect딥러닝(Deep Learing) using DeepDetect
딥러닝(Deep Learing) using DeepDetect
 
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
 
[AWS Innovate 온라인 컨퍼런스] Amazon SageMaker 신규 기능을 활용한 다양한 ML 모델 실험해 보기 - 서지혜, A...
[AWS Innovate 온라인 컨퍼런스] Amazon SageMaker 신규 기능을 활용한 다양한 ML 모델 실험해 보기 - 서지혜, A...[AWS Innovate 온라인 컨퍼런스] Amazon SageMaker 신규 기능을 활용한 다양한 ML 모델 실험해 보기 - 서지혜, A...
[AWS Innovate 온라인 컨퍼런스] Amazon SageMaker 신규 기능을 활용한 다양한 ML 모델 실험해 보기 - 서지혜, A...
 
머신러닝과 사이킷런의 이해
머신러닝과 사이킷런의 이해머신러닝과 사이킷런의 이해
머신러닝과 사이킷런의 이해
 
Openface
OpenfaceOpenface
Openface
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"
S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"
S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"
 
사용자 스토리 대상 테스트 설계 사례(테스트기본교육 3장 3절)
사용자 스토리 대상 테스트 설계 사례(테스트기본교육 3장 3절)사용자 스토리 대상 테스트 설계 사례(테스트기본교육 3장 3절)
사용자 스토리 대상 테스트 설계 사례(테스트기본교육 3장 3절)
 
언론사에 구글 애널리틱스 도입하기 - 강의 1주차
언론사에 구글 애널리틱스 도입하기 - 강의 1주차언론사에 구글 애널리틱스 도입하기 - 강의 1주차
언론사에 구글 애널리틱스 도입하기 - 강의 1주차
 
Predictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryxPredictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryx
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical Methodology
 
주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)
 

Mehr von TIMEGATE

Mehr von TIMEGATE (7)

OpenSource License
OpenSource LicenseOpenSource License
OpenSource License
 
하이퍼레저 패브릭 실습자료
하이퍼레저 패브릭 실습자료하이퍼레저 패브릭 실습자료
하이퍼레저 패브릭 실습자료
 
Ethereum 스마트 컨트랙트 보안
Ethereum 스마트 컨트랙트 보안Ethereum 스마트 컨트랙트 보안
Ethereum 스마트 컨트랙트 보안
 
시계열분석의 이해
시계열분석의 이해시계열분석의 이해
시계열분석의 이해
 
하이퍼레저 프로젝트 개요
하이퍼레저 프로젝트 개요하이퍼레저 프로젝트 개요
하이퍼레저 프로젝트 개요
 
마이크로소프트 QnA Maker를 이용한 챗봇 만들기
마이크로소프트  QnA Maker를 이용한 챗봇 만들기마이크로소프트  QnA Maker를 이용한 챗봇 만들기
마이크로소프트 QnA Maker를 이용한 챗봇 만들기
 
통계의 힘 (도서정리)
통계의 힘 (도서정리)통계의 힘 (도서정리)
통계의 힘 (도서정리)
 

Azure ml studio_fraud_detection

  • 1. 2018년 04월 MS Azure ML Studio 신용카드 부정사용 검출 테스트 타임게이트 연구소
  • 2. Agenda • 신용카드 부정사용 테스트 데이터 (Kaggle) • Azure Machine Learning Studio • 신용카드 부정사용 검출 웹서비스 제작 • 결과 비교 • 웹서비스 배포 및 테스트
  • 4. 신용카드 사용 데이터 – 2010설립, 2017년 Google 인수 발췌 : https://www.kaggle.com/agpickersgill/credit-card-fraud-detection/data • 유럽 카드사 2013년 9월 2일치 데이터 • 전체 284,807 건 중 부정사용 492건 • (Time, Amount, Class)를 제외한 필드를 PCA를 사용해 V1~V28 로 변형 • Label field 는 Class
  • 5. 신용카드 부정사용 데이터 – 유럽 카드사 2013년 2일치 데이터 발췌 : https://www.kaggle.com/agpickersgill/credit-card-fraud-detection/data 부정사용 여부 • 1 : 부정사용 • 0: 정상사용
  • 7. Azure Machine Learning – 애저 머신러닝 지원 도구 발췌 : https://docs.microsoft.com/ko-kr/azure/machine-learning/ 데이터 탐색, 모델 개발, 배포를 손쉽게 관리할 수 있는 서비스 (Cloud/On- Premise 지원) Azure Machine Learning 웹서비스 개발 도구 DS(Data Science)용 가상머신 배포 서비스
  • 8. Azure Machine Learning Stuido – GUI 기반 머신러닝 모델 개발툴 발췌 : https://docs.microsoft.com/ko-kr/azure/machine-learning/studio/studio-overview-diagram
  • 9. Azure Machine Learning Studio– https://studio.azureml.net 발췌 : https://studio.azureml.net/ Azure 계정으로 로그인
  • 11. Machine Learning 모델 개발 절차 1. 데이터 Upload (Dataset 생성) 2. Experiment 생성 3. Machine Learning 모델 작성 ① 데이터셋 블록 추가 ② 데이터 전처리(정규화, 합산 필드 생성 등) 블록 추가 ③ 데이터 분할(split – 훈련용, 테스트용) 블록 추가 ④ Train 블록과 ML(Machine Learning) 모델 블록 추가 ⑤ 채점 블록과 평가 블록 추가 4. 훈련된 모델 테스트 및 배포
  • 12. 부정사용 검출 웹서비스 제작 – 데이터 업로드 발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets 생성하기
  • 13. 부정사용 검출 웹서비스 제작 – 데이터 업로드 데이터 셋 생성 발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets 데이터 셋 파일 찾기
  • 14. 부정사용 검출 웹서비스 제작 – 데이터 업로드 데이터 파일 선택 발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets OK 버튼
  • 15. 부정사용 검출 웹서비스 제작 – 생성된 데이터셋 업로드된 데이터 셋 발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
  • 16. 부정사용 검출 웹서비스 제작 – experiment 생성 생성 버튼
  • 17. 부정사용 검출 웹서비스 제작 – Blank Experiment 생성 발췌 : https://www.kaggle.com/agpickersgill/credit-card-fraud-detection/data
  • 18. 부정사용 검출 웹서비스 제작 – Experiment 생성 Experiment 이름 입력
  • 19. 부정사용 검출 웹서비스 제작 – 데이터셋 선택 데이터셋 선택 Drag & Drop
  • 20. 부정사용 검출 웹서비스 제작 – 데이터 정규화 블록 추가 데이터 정규화 블록 블록 연결 정규화 방법 선택 정규화 대상 컬럼 선택
  • 21. 부정사용 검출 웹서비스 제작 – 데이터 분할 블록 추가 데이터 분할 블록 블록 연결 분할 비율 선택 (일반적으로 8:2 혹은 7:3)
  • 22. 부정사용 검출 웹서비스 제작 – Train Model 블록 추가 모델 훈련 블록 블록 연결 (연결점 확인 필요) Label 컬럼 선택
  • 23. 부정사용 검출 웹서비스 제작 – ML 모델 블록 추가 ML(Machine Learning) 모델 블록 블록 연결 (연결점 위치 주목) 훈련 모델 매개변수 선택
  • 24. 부정사용 검출 웹서비스 제작 – 모델 채점 블록 추가 모델 채점 블록 블록 연결 (연결점 주목)
  • 25. 부정사용 검출 웹서비스 제작 – 비교 평가 블록 추가 비교평가 블록 블록 연결
  • 26. 부정사용 검출 웹서비스 제작 – 모델 훈련 수행 훈련 수행
  • 28. 머신러닝 정확도 측정 관련 용어 • Sensitivity(Recall) = TP/(TP+FN) • Specificity = TN/(TN+FP) • Precision = TP/(TP+ FP) • Sensitivity 와 Specificity (반비례 관계)  참/거짓 비율이 다를 경우 • Sensitivity와 Precision (반비례 관계)  참/거짓 비율이 비슷할 경우 ( 참, 거짓 비율이 차이가 크면, 예측의 집합의 비율은 해석에 문제가 생길 가능성) • ROC(Receiver Operating Characteristic)  오적중 확률에 따른 적중확률 변화 • Accuracy = (TP+TN)/(TP+TN+FP+FN) • F1-score = 2*(Precision*Recall)/(Precision+Recall) 실제 True (부정사용) 실제 False (정상 사용) 예측 True (예측 부정 사용) TP (True Positive) FP (False Positive) 예측 False (예측 정상 사용) FN (False Negative) TN (True Negative)
  • 29. 블록 연결 결과 비교 – 평가 점수 확인
  • 30. 평가 스코어 • Sensitivity(Recall) = 0.771 • Accuracy = 0.999 • Precision = 0.955 • F1 = 0.853 • AUC = 0.940 결과 비교 – 평가 점수 확인
  • 31. 웹 서비스 배포 및 테스트
  • 32. Predictive 웹서비스 생성 웹 서비스 배포 – 웹서비스 생성
  • 33. 생성된 웹서비스 모델 웹 서비스 배포 – 웹서비스 생성
  • 34. 웹서비스 테스트 수행 웹 서비스 배포 – 웹서비스 모델 검증을 위한 테스트 수행 웹서비스 테스트 수행 후 deploy
  • 35. 웹서비스 호출을 위한 API Key 웹 서비스 배포 – 생성된 웹서비스 테스트 웹서비스 테스트용 웹페이지 • 웹서비스 Request/Response 정보 • 샘플 클라이언트 코드
  • 36. 웹 서비스 배포 – 웹서비스 테스트 화면
  • 37. 웹 서비스 배포 – 웹서비스 Request/Response 확인
  • 38. Address 서울특별시 성동구 아차산로 17 11층 (성수동 1가, 서울숲엘타워) 우편번호 04789 Telephone Tel : (02)575-0409 Fax: (02)6003-1987