Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

6_Association_rule_碩士班第六次.pdf

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Nächste SlideShare
4 association rule
4 association rule
Wird geladen in …3
×

Hier ansehen

1 von 37 Anzeige

Weitere Verwandte Inhalte

Ähnlich wie 6_Association_rule_碩士班第六次.pdf (20)

Anzeige

6_Association_rule_碩士班第六次.pdf

  1. 1. 國立臺北護理健康大學 NTUNHS Association Rule Orozco Hsu 2022-12-19 1
  2. 2. About me • Education • NCU (MIS)、NCCU (CS) • Work Experience • Telecom big data Innovation • AI projects • Retail marketing technology • User Group • TW Spark User Group • TW Hadoop User Group • Taiwan Data Engineer Association Director • Research • Big Data/ ML/ AIOT/ AI Columnist 2
  3. 3. Tutorial Content 3 Apriori 與練習 實務應用 (中醫乳癌證型進行關聯法則) Homework 關聯法則介紹
  4. 4. Code • Download code • https://github.com/orozcohsu/ntunhs_2022_02 • Folder • 20221219 4
  5. 5. 建立環境 • 切換執行環境 5
  6. 6. 建立環境 • 安裝套件 • pip install mlxtend • pip install xlrd 6
  7. 7. 建立環境 • 開啟 jupyterlab 7
  8. 8. 關聯法則介紹 • 擁有大量數據的交易資料庫中,找尋數據間彼此的關聯,找到讓 人意想不到的結果 • 經典的 Walmart 尿布與啤酒的故事,這兩種不著關係的商品放 在一起銷售,竟然可以增加營業額 8 肉眼看不出來的!!
  9. 9. 關聯法則介紹 • 關聯法則會進行以下兩個步驟: • 找出頻繁項集(Frequent item sets) • 經常一起出現的物品集合。 • 透過 Apriori。 • 產生關聯規則(Association Rules from frequent item sets) • 表達數據之間的可能存在很強關聯性。 • 須滿足定義(Min Support 或 Min confidence)。 9
  10. 10. 關聯法則介紹 • 從銷售紀錄中發現 {B, C, E} 三項物品一起出現頻率高,就是所謂 的頻繁項集;分析 {B, E} 一起出現的關聯,就稱為關聯規則 • 關聯的強弱由支持度 (Support)與信心水準(Confidence)來計算 10 發票號碼 購買商品 1 {A, C, D} 2 {B, C, E} 3 {A, B, C, E} 4 {B, E} 5 {A} 6 {A, B, C, D, E}
  11. 11. 關聯法則介紹 • 常見關聯分析應用 • PCHOME 推薦相關書籍 • Disneys+ 影片推薦 • 蝦皮雙11最強購物節 • 電商雙12商品特惠組合 11 本文並未介紹推薦系統演算法,請同學自行研究
  12. 12. 關聯法則介紹 • 支持度 (Support) • 如果總共的交易數據有200筆, 香腸這項商品出現的次數有20筆, 那它的 支持度為50/200 = 1/4, 也就是香腸的支持度為25%。 • 信心水準(置信度)(Confidence) • Range: [0, 1] • 表示兩物品同時出現的條件機率,簡單來說就是在已經出現商品B的情況 下,出現商品A的機率。 12 Confidence(A -> B) = 條件機率: 條件機率 - 維基百科,自由的百科全書 (wikipedia.org) • P(A|B),讀作「A在B發生的條件下發生的機率」 • 兩個事件共同發生的機率。A與B的聯合機率表示 為 P ( A ∩ B ) 或者 P ( A , B ) 或者 P ( A B )
  13. 13. 關聯法則介紹 • 提升度(Lift) • Range: [0, ∞] • 表示出現商品A的情況下,出現商品B的機率,但會看出只出現商品B的 機率的問題,提升度 (Lift) 代表著數據間的關聯性。 13 Lift(A -> B) = Confidence(A -> B) / P(B) = P(B|A) / P(B) Lift > 1 表示數據間越相關,呈正相關 Lift = 1 表示兩數據獨立,不相關 Lift < 1 表示兩數據呈負相關
  14. 14. 關聯法則介紹 • Leverage 和 Conviction • 該值越大越好,表示越相關。 • Leverage (槓桿率) • Range: [-1, 1] • Conviction (確信度) • Range: [0, ∞] 14 P(A,B)-P(A)P(B) P(A)P(B)/P(A,B)
  15. 15. 關聯法則介紹 • 最低支持度 (Min Support) 與最小信心水準(置信度) (Min Confidence)。 • 一般我們支持度定義 50%,也就是說購買商品集 {A, B} 至少出現總次數的 50%以上,才算是頻繁項集,才會納入計算。 15 設定太低的話,會導致關聯分析的結果出現太多的關聯規則, 太高的話,關聯規則太少,都不利我們參考分析結果做決策。
  16. 16. Apriori 與練習 • 優點 • 計算方式簡單,容易理解。 • 數據中只需要關聯數據即可計算。 • 缺點 • 數據量大時,運算效率低。 • 如遇到多維度(multi-dimensional association rules)需要額外進行資料處理。 • 假設條件 • 當產品B為頻繁出現時,它的子集也會是頻繁的,如 {B, C} 或 {B, C, E}。 16
  17. 17. Apriori 與練習 • multi-dimensional association rules • 數據為連續型資料 age, pay, purchases 三個維度資料,透過數據離散化、分 箱法等,把連續資料轉換成類別資料,最後再透過 Apriori 處理。 • 購買 Apple 的情況下,age為[青年]與pay[低] 機率? • 購買 Apple 的情況下,age為[青年]與pay[中] 機率? • … 17 age [青年、中年、老年] pay [低、中、高] purchase [Apple, Orange….]
  18. 18. Apriori 與練習 18 參考: https://chwang12341.medium.com 4 3 全部進行排列組合
  19. 19. 19 已發生事件下 伴隨發生的事件 支持度 信心水準 其他metric
  20. 20. Apriori 與練習 • 分析結果 20 (PAPER CUPS 與 PAPER PLATES )、(PAPER NAPKINS 與 PAPER CUPS )經常一起購買
  21. 21. Apriori 與練習 • 分析結果 21 英國人喜歡收集不同顏色的茶具
  22. 22. Apriori 與練習 • 分析結果 22 都是小朋友上學需要的東西,一起購買也很合理
  23. 23. Apriori 與練習 • 分析結果 23 因為客製化(CULTERY DOLLY GIRL 與 CULTERY CIRCUS PARADE )經常一起購買
  24. 24. Apriori 與練習 • MLXTEND 機器學習套件: • http://rasbt.github.io/mlxtend/ 24 apriori_practice.ipynb 請注意觀察銷售數據集的特色!!
  25. 25. 總結 • Apriori 演算法多次掃描交易數據庫,I/O是很大的瓶頸,每次利 用候選頻繁項集產生頻繁項集。 • 另一種演算法,解決 Apriori 頻繁掃描數據問問題 (FP-growth)。 • https://baike.baidu.com/item/FP-growth/9800372 25
  26. 26. 總結 • 探討 Apriori 的算法用於平行計算等領域 • https://www.researchgate.net/publication/316749396_Parallel_Impl ementation_of_Apriori_Algorithm_Based_on_MapReduce 26 Searching frequent patterns in transactional databases is considered as one of the most important data mining problems and Apriori is one of the typical algorithms for this task. Developing fast and efficient algorithms that can handle large volumes of data becomes a challenging task due to the large databases. In this paper, we implement a parallel Apriori algorithm based on MapReduce, which is a framework for processing huge datasets on certain kinds of distributable problems using a large number of computers (nodes). The experimental results demonstrate that the proposed algorithm can scale well and efficiently process large datasets on commodity hardware. 本文並未介紹 MapReduce 概念,同學可自行研究
  27. 27. 利用中醫證型進行關聯法則 • 中醫藥治療乳腺癌由著廣泛的適應症與獨特的優勢。 • 調整機體氣血、陰陽、臟腑功能的平衡。 • 根據不同的臨床症候進行辯證論治。 • 先證而治: • 後續證候尚未出現之前,需要截斷惡性病情的哪些後續證候。 • 症狀之間的關聯關係與諸多症狀間的規律性,並且依據規則分析病因、 預防病情發展以及未來臨床診治提供有效借鑒。 27 中醫證型是由病因、病位、病性、病勢等觀念所組成
  28. 28. 研究目的 • 進構數據模型,採用關聯法則,調整模型輸入參數,獲取各中醫 證型與TNM分期之間的關係。 28
  29. 29. 關聯法則模型總體流程圖 29 問卷調查 原始數據 數據預處理 關聯法則 建立模型 模型分析 模型 應用 應用結果 模型優化 (調整參數) 1. 剔除不需要的欄位 2. 證型係數計算方式: 該證型分數/該證型總分 3. 數據離散化 (採用分群演算法),進行貼標
  30. 30. 30 序號 屬性名稱 屬性描述 1 實際年齡 A1:<=30歲;A2:31-40歲;A3:41-50歲;A4:51-60歲;A5:61-70歲;A6:>=71歲 2 發病年齡 a1:<=30歲;a2:31-40歲;a3:41-50歲;a4:51-60歲;a5:61-70歲;a6:>=71歲 3 第一次月經年齡 C1:<=12歲;C2:13-15歲;C3:>=16歲 4 既往月經是否規律 D1:月經規律;D2:月經提前;D3:月經延遲;D4:月經不規律 5 是否經痛 Y:是;N:否 6 是否絕經 Y:是;N:否 … … … 64 肝氣鬱結證得分 總分41分 (透過診斷量表取得分數) 65 熱毒蘊結證得分 總分44分 (透過診斷量表取得分數) 66 冲任失調症得分 總分41分 (透過診斷量表取得分數) 67 氣血兩虛證得分 總分43分 (透過診斷量表取得分數) 68 脾胃虛弱證得分 總分43分 (透過診斷量表取得分數) 69 肝腎陰虛證得分 總分38分 (透過診斷量表取得分數) 70 TNM分期 H:I;H2:II;H3:III;H4:IV 71 確診候幾年發現轉移 BU0:無轉移;BU1:x<=3年;BU2:3年<x<=5年;BU3:>5年 72 轉移部位 R1:骨;R2:肺;R3:腦;R4:肝;R5:其他;R0:無轉移 73 病程階段 S1:圍手術期;S2:圍化療期S3:圍放療期S4:鞏固期 v v v v v v v v v v
  31. 31. 乳腺癌證型 31 證型 主要症狀 肝氣鬱結證 乳房腫塊,時覺脹痛,情緒憂鬱或急躁,心煩易怒、苔薄白或薄黃,脈弦滑 熱毒蘊結證 乳房腫塊,增大迅速,疼痛,間或紅腫,甚則潰爛,惡臭,或發熱,心煩口乾,便祕, 小便短赤,舌暗紅,有瘀斑,苔黃膩,脈弦數 冲任失調證 乳房腫塊,月經前脹痛明顯或月經不調,腰腿痠軟,煩勞體倦,五心煩熱,口乾舌燥, 舌淡,苔少,脈細無力 氣血兩虛證 乳房腫塊,與胸壁黏連,推之不動,頭暈目眩,短氣乏力,面色蒼白,消瘦納呆,舌 淡,脈沉細無力 脾胃虛弱證 納呆或腹脹,便溏或便秘,舌淡,苔白膩,脈細弱 肝腎陰虛證 頭暈目眩,腰膝痠軟,目澀夢多,咽乾口噪,大便乾結,月經紊亂或停經,舌紅,苔 少脈細數
  32. 32. 診斷量表取得分數 32
  33. 33. 分群臨界點的規劃 33 分群質心值 利用 python rolling 函數,計算兩兩質心平均值 兩兩質心
  34. 34. 數據離散化 34 肝氣鬱結證型 熱毒蘊結證型 冲任失調證型 氣血兩虛證型 脾胃虛弱證型 肝腎陰虛證型 病患數量 病患數量 病患數量 病患數量 病患數量 病患數量 執行K-means後,計算的臨界點
  35. 35. 實作 • 中醫乳癌證型關聯法則 35 apriori_breast_cancer_practice.ipynb
  36. 36. 結果分析 36 肝氣鬱結證型係數處於 A3 (0.257724,0.351843] 且 肝腎陰虛證型係數處於 F4 (0.354643, INF] 時,這樣的發生機率為 7.96%,TNM 診斷為 H4 期的可能性為 88% 乳癌 H4 期病患有較突出的肝腎陰虛、肝氣鬱結、冲任失調臨床表現,其信心水準高達 8成 以上 如《張氏醫通》所說:「氣不耗,歸精於腎而為精,精不泄,歸精於肝而化清血。」 博客來-養肝護肝嚴選治療:中醫圖解快速養護臟腑之源>內容連載 (books.com.tw)
  37. 37. Homework • 依照 breast_cancer_apriori_practice.ipynb • 修改 metric 參數,查看有無變化。 • 修該 min_support、min_threshold 參數,調整產生規則的數量。 • 將 consequents 改為轉移部位等欄位,探討中醫乳腺癌證型。 37

×