SlideShare ist ein Scribd-Unternehmen logo
1 von 36
Karar Ağaçları(Decision Tree)
Reyhan KOÇ
İÇERİK
 Karar Ağacı Nedir?
 Karar Ağacı Özellikleri
 Karar Ağacı Çalışma Algoritması
 Avantajları
 Dezavantajları
 Örnek Çalışmalar
Tarihçesi
 Morgan ve Sonquist tarafından Michigan Üniversitesi'nde
1970'li yılların başlarında kullanılan AID (Automatic Detector)
karar ağacı ilk algoritma ve yazılımdır.
 Bu yöntem 60 yılı aşkın süredir kullanımdadır.
Karar Ağacı Nedir ?
 Karar ağacı ağaç yapısı şeklinde sınıflandırıcı algoritmasıdır.
 Karar Agaçları tümevarımlı mantığın programlama ortamına taşındıgı basit
fakat çok yaygın bir metoddur.
 Ayrık değerli parametrelerle çalışır.Gürültüye karşı dayanıklı bir algoritmadır.
 C4.5 karar ağacı algoritması ailesi içinde en popüler algoritmadır.
 Karar ağacı algortimalarının dayandıgı tüme varımlı felsefeye dair temel sezgi
öğrenme özellikleriyle oluşturulacak karar ağacının olabidiğince küçük
olmasının iyi olcağı yönündedir.
Karar Ağacı Elemanları
 İç Karar Düğümleri: Giriş verilerinin test edildiği, soruların sorulduğu ve hangi
yöne yöneleceklerini belirleyen karar düğümleri
 Dal: Bu soruların cevaplarını temsil eder
 Uç Yapraklar: Kategorin bulunduğu sınıf etiketleri .
(2) Hangi Düğümden Devam Edeceksin?
(3) Ne zaman Duracaksın/ Sonuca Ulaşacaksın?
(1) Hangisinden Başla? (root)
Rastgele oluşturulmuş karar ağacı örneği
Özellikler
 Eğiticili öğrenme (Supervised learning) algoritması
 Kullanımı yaygın
 ürettikleri kuralların kolay anlaşılır olması
 kolay uygulanabilir olmaları
 hem kategorik hem de sayısal verileri işleyebilirler
Algortimanın Adımları
1-Her öznitelik üzerinde bölme için bilgi kazancını hesapla(entropy(variance) azalma).
2-Yeni bir düğüm için en fazla bilgi kazancını veren özniteliği seç.
3-Bu özniteliğe dayalı olması eğitim verisini böl.
4-Alt düğümlere kadar hepsi için (Adım 1=>3) özyinelemeli olarak işlemi yineleyin.
Karar Ağaçlarında Karar
Düğümlerini Oluşturacak
Ey İyi Nitelik Neden
Seçilir?  Kök düğümde ağacın dengeli bir şekilde
dallanması ve sınıflandırma algoritmasının
verimli olması için özellikler içinden en uygun
olanı seçilir.
 Kök düğüm için uygulanan algoritma iç karar
düğümleri içinde söz konusudur.
Karar Ağaçlarında Karar Düğümlerini
Oluşturacak En İyi Nitelik Nasıl Seçilir?
Shannon ve Weaver tarafından ilk defa tanımlanan Enformasyon Teorisi ile
bütün sistemdeki beklenen değeri hesaplayabiliyoruz.
Claude Elwood Shannon Warren Weaver
Entorpi
 p1, p2,.., pm toplamları 1 olan olasılıklar.
 örnekler aynı sınıfa aitse entropi=0
 örnekler sınıflar arasında eşit dağılmışsa entropi=1
 örnekler sınıflar arasında rastgele dağılmışsa 0<entropi<1
Entropi formülü
E(S) = - p(P)log2 p(P) – p(N)log2 p(N)
İnformation
Gain(Bilgi Kazancı)
 Bilgi kazancı entopide ki beklenen azalmayı ölçer.
 Bu şekilde bizim için uygun olan özellik seçimini gerçekleştirebiliyoruz.
Bilgi Kazancı=Sistemin Enformasyon Değeri – Özelliğin Enformasyon Değeri
Örnek:
H(S)-H(V1)=>1-0.6887=0.3113
H(S)-H(V2)=>1-1=0
V1 Seçilir.
Karar Ağaçları: Haftasonu Örneği
Weekend
(Example)
Weather Parents Money Decision
(Category
W1 Sunny Yes Rich Cinema
W2 Sunny No Rich Tennis
W3 Windy Yes Rich Cinema
W4 Rainy Yes Poor Cinema
W5 Rainy No Rich Stay in
W6 Rainy Yes Poor Cinema
W7 Windy No Poor Cinema
W8 Windy No Rich Shopping
W9 Windy Yes Rich Cinema
W10 Sunny No Rich Tennis
 1. Adım: Veri setinden öğrenme kümesi oluşturulur.
Karar Ağaçları: Haftasonu örneği
 2. Adım: Veri setindeki en ayırt edici nitelik belirlenir ve ağacın kökü olarak alınır.
 3. Adım: Ağacın çocuk düğümü olan A düğümüne ait alt veri kümesi belirlenir.
Haftasonu Örneği:Entropy
 Haftasonu veri kümesindeki 10 örnekten
 6 örnek için karar sinema
 2 örnek için karar tenis oynamak
 1 örnek için karar evde kalmak ve
 1 örnek için karar alışverişe gitmek olduğuna göre
 Entropy: H(T)= - (6/10) log2(6/10) - (2/10) log2(2/10) - (1/10) log2(1/10) - (1/10) log2(1/10)
H(S)= 1,571
Haftasonu Örneği :Bilgi Kazancı
 Gain(weather)= ?
 Sunny=3 (1 Cinema, 2 Tennis)
 Windy=4 (3 Cinema, 1 Shopping)
 Rainy=3 (2 Cinema, 1 Stay in)
 Entropy(Tsunny)= - (1/3) log2 (1/3) - (2/3) log2 (2/3)=0,918
 Entropy(Twindy)= - (3/4) log2 (3/4) - (1/4) log2 (1/4) =0,811
 Entropy(Trainy)= - (2/3) log2 (2/3) - (1/3) log2 (1/3) =0,918
 Gain(weather) = Entropy(T)- ((P(sunny)Entropy(Tsunny) +
P(windy) Entropy(Twindy)+ P(rainy) Entropy(Trainy) )
=1,571- ((3/10)Entropy(Tsunny)+(4/10)Entropy(Twindy)+ (3/10)Entropy(Trainy))
Gain(T, weather) =0,70
Haftasonu Örneği :Bilgi Kazancı
 Gain(T, parents)= ?
 Yes=5 (5 Cinema)
 No =5 (2 Tennis, 1 Cinema, 1 Shopping, 1 Stay in)
 Entropy(Tyes)= - (5/5) log2 (5/5) = 0
 Entropy(Tno)= - (2/5) log2 (2/5) - 3(1/5) log2 (1/5) =1,922
 Gain(T, parents) = Entropy(T)- ((P(yes)Entropy(Tyes) +
P(no) Entropy(Tno))
=1,571- ((5/10)Entropy(Tyes)+(5/10)Entropy(Tno))
Gain(T, parents)=0,61
Haftasonu Örneği :Bilgi Kazancı
 Gain(T, money)= ?
 Rich=7 (3 Cinema, 2 Tennis, 1 Shopping, 1 Stay in)
 Poor=3 (3 Cinema)
 Entropy(Trich)= 1,842
 Entropy(Tpoor)= 0
 Gain(T, money) = Entropy(T)- ((P(rich)Entropy(Trich) +
P(poor) Entropy(Tpoor))
=1,571- ((5/10)Entropy(Trich)+(5/10)Entropy(Tpoor))
Gain(T, money)=0,2816
Haftasonu Örneği :Bilgi Kazancı
 Gain(T, weather) =0,70
 Gain(T, parents)=0,61
 Gain(T, money)=0,2816
 Weather özelliği en büyük bilgi kazancını sağladığı için ağacın
kökünde yer alacak özellik olarak seçilir. Bu özellik en ayırt edici
özellik olarak bulunmuş olur.
Haftasonu Örneği
 3. Adım: Ağacın çocuk düğümü olan A düğümüne ait alt veri kümesi
belirlenir.
 Her alt küme için tekrar bilgi kazancı hesaplanarak en ayırt edici özellik
belirlenir.
Haftasonu Örneği
 Yeni düğüm için en ayırt edici özellik Parents olarak belirlenmiştir. Bu
işlemler her düğüm için aşağıdaki durumlardan biri oluşuncaya kadar
devam eder
 Örneklerin hepsi aynı sınıfa ait
 Örnekleri bölecek özellik kalmamış
 Kalan özelliklerin değerini taşıyan örnek yok
Veriye Aşırı Uyumun Önüne Geçme
 Eğitim verilerini en iyi sınıflandıracak şekle kadar her dalını
derinleştirir.
 Bu mantıklı bir stratejiyken, veriler arasında gürültü varsa
zorluklara sebep olabilir.
 Gürültü varken, her yaprak saf (pure) olana dek bölünmeye izin
vermek, veriyi ezberleyen (overfitting) çok büyük bir karar ağacı
oluşmasına neden olabilir.
 Sonuç olarak , eğitim verilerinden bağımsız test verileri ile ölçülen
doğruluk önce artar sonra ise azalır.
Ne Yapmalıyız ?
Budamanın Gerekliliği
 Budanmış ağaçlar daha kısa ve daha az karmaşık olma eğilimindedirler.
 Daha kolay anlaşılırlar.
 Genellikle daha hızlıdırlar.
 Test verilerini sınıflamada daha başarılıdırlar.
Budama (Pruning)
 Karar ağacı uygulamasında overfitting’i önleyen yöntemler iki
gruba ayrılırlar:
 Pre-pruning (erken budama)
 Post-pruning (geç budama)
 Hangi yaklaşım daha geçerlidir?
 ilki daha direk bir yaklaşım gibi görünürken
 ikincisi pratikte daha kabul edilir sayılmaktadır.
Pre-Pruning
 Ağacın büyümesini erken durduran yaklaşımlar (eğitim verilerini çok iyi
sınıflayan noktaya erişmeden önce)
 Bir düğüme ulaşan örnek sayısı, eğitim verilerinin belirli bir yüzdesinden
daha küçükse o düğüm artık bölünmez.
 Az sayıda örneğe bağlı olarak alınan kararlar genelleme hatasını artırır.
 Daha hızlı çözüm.
Post Pruning
 Ağacın veriye oturmasına izin veren ve daha sonra ağacı budayan
yaklaşımlar.
 Karar ağaçlarında uygulanan “greedy” algoritması: her adımda bir
düğüm ekler, geriye dönüp başka bir seçenek düşünmez.
 Bu durumun tek istinası: gereksiz alt ağaçların bulunup
budanmasıdır.
 Daha doğru çözüm.
Ağaç Budama
Büyütülmüş Ağaç Budanmış Ağaç
Avantajları
 Karar ağacı oluşturmak zahmetsiz
 Küçük ağaçları yorumlamak kolay
 Anlaşılabilir kurallar oluşturulabilir
 Ayrık nitelik değerleri için kullanılabilir
Dezavatajları
 Sürekli nitelik değerlerini tahmin etmekte cok başarılı değil
 Sınıf sayısı fazla ve öğrenme kümesi örnekleri sayısı az olduğunda model oluşturmada
çok başarılı değil.
 Büyük öğrenme kümeleri için
 ağaç oluşturma karmaşıklığı fazla,
 ağaç budama karmaşıklığı fazla
Örnek Çalışmalar
Bu çalışmada, İMKB100 sanayi ve hizmet sektöründe faaliyette bulunan173 işletmenin
2004–2006 yıllarına ait yıllık finansal göstergelerinden yararlanarak VM tekniklerinden
birisi olan karar ağaçları tekniği, CHAID algoritması uygulanarak seçilen finansal
göstergelere göre firmaları ayıran en önemli değiskenler araştırılmaktadır.
Bu şirketlerin, 2004–2006 yıllarına ait bilanço ve gelir tablolarına ilişkin veriler İMKB’nin
ağ sayfasından elde edilmiştir. İMKB100 sanayi ve hizmet sektöründe faaliyet gösteren firmaları
ayırmada etkili olan en önemli karlılık, likitide,varlık kullanım etkinligi,
sermaye yapısı ve isletme büyüklügü degiskenleri arastırılmaktadır.
KARAR AĞACI ALGORiTMALARI VE iMKB VERiLERİ ÜZERiNE BiR UYGULAMA
Yrd.Doç.Dr.Ali Sait ALBAYRAK Ögr.Gör.Sebnem KOLTAN YILMAZ
Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi
KARAR AĞAÇLARI VE FRAKTALANALİZ KULLANARAK HİSTOPATOLOJİK
İMGELERİN SINIFLANDIRILMASI
İbrahim TÜRKOĞLU ve Suat TORAMAN
Bu çalışmada, histopatolojik* imgelerden çeşitli hastalıkların tanınması işleminde, hekime
yardımcı olacak ve kolaylık sağlayacak bir karar destek sistemi tasarlanmıştır.
Geliştirilen karar destek sistemi, örüntü tanıma temellidir. Örüntü tanıma sürecinin, özellik çıkarım
aşaması Fraktal analiz ve sınıflandırma aşaması içinse karar ağaçları kullanılmıştır.
Hepatitli hastaların histopatolojik imgeleri ile geliştirilen sistemin başarısı değerlendirilmiştir.
50 hasta verisi üzerinde geliştirilen sistemin doğruluk yüzdesi %92 olarak bulunmuştur.
Örnek Çalışmalar
Elektronik ve Bilgisayar Eğitimi Bölümü, Teknik Eğitim Fakültesi, Fırat Üniversitesi, 23119, Elazığ
*Histopatoloji, doku ve organların doğal yapısında oluşan lezyonların mikroskobisini inceleyen bir bilim dalıdır.
Kaynakça
 Kai Zhang ,Ph. D. graduate Department of computer Science and Engineering Hong Kong University of Science and
Technology
 Decision Tree Algorithm Comp328 tutorial 1
 Tom Mitchell , E. Fredkin University Professor
 http://www.cs.princeton.edu/courses/archive/spr07/cos424/papers/mitchell-dectrees.pdf
 Yrd.Doç.Dr.Songül Albayrak ,Yıldız Teknik Üniversitesi ,Bilgisayar Müh. Bölümü
 Veri madenciliği- Sınıflama ve Kümeleme Yöntemleri
 Toby Breckon ,School of Engineering and Computing Sciences Durham University
 http://www.slideshare.net/potaters/bmva-ss-2014breckonml
 Yrd. Doç. Dr. Umut ORHAN ,Çukurova Üniversitesi Mühendislik Mimarlık Fakültesi,Bilgisayar Mühendisliği Bölümü
 Makine Öğrenmesi
 Şadi Evren ŞEKER ,Assoc. Prof. at İstanbul Şehir Üniversitesi
 https://www.youtube.com/watch?v=z_PCJeDOFOk
 Prof.Dr. Yılmaz KILIÇASLAN,Trakya University,Faculty of Engineering and Architecture Department of Computer
Engineering
 Choosing Attributes

Weitere ähnliche Inhalte

Was ist angesagt?

Deep learning tutorial 9/2019
Deep learning tutorial 9/2019Deep learning tutorial 9/2019
Deep learning tutorial 9/2019Amr Rashed
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaireBoris Guarisma
 
Lect9 Decision tree
Lect9 Decision treeLect9 Decision tree
Lect9 Decision treehktripathy
 
RandomForestとR package
RandomForestとR packageRandomForestとR package
RandomForestとR packageShuma Ishigami
 
Topsis-Çok kriterli karar verme
Topsis-Çok kriterli karar vermeTopsis-Çok kriterli karar verme
Topsis-Çok kriterli karar vermeSelin Kadıoğlu
 
Math in Machine Learning / PCA and SVD with Applications
Math in Machine Learning / PCA and SVD with ApplicationsMath in Machine Learning / PCA and SVD with Applications
Math in Machine Learning / PCA and SVD with ApplicationsKenji Hiranabe
 
Smart Data Slides: Machine Learning - Case Studies
Smart Data Slides: Machine Learning - Case StudiesSmart Data Slides: Machine Learning - Case Studies
Smart Data Slides: Machine Learning - Case StudiesDATAVERSITY
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-Tomoshige Nakamura
 
Decision tree, softmax regression and ensemble methods in machine learning
Decision tree, softmax regression and ensemble methods in machine learningDecision tree, softmax regression and ensemble methods in machine learning
Decision tree, softmax regression and ensemble methods in machine learningAbhishek Vijayvargia
 
Robust Low-rank and Sparse Decomposition for Moving Object Detection
Robust Low-rank and Sparse Decomposition for Moving Object DetectionRobust Low-rank and Sparse Decomposition for Moving Object Detection
Robust Low-rank and Sparse Decomposition for Moving Object DetectionActiveEon
 
Tenenbaum review-20140704-1600
Tenenbaum review-20140704-1600Tenenbaum review-20140704-1600
Tenenbaum review-20140704-1600Tatsuji Takahashi
 
整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチKentaro Kanamori
 
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1hirokazutanaka
 
運用粒子群最佳化之Fpga模糊控制器設計~電機大師黃聰亮教授演講投影片
運用粒子群最佳化之Fpga模糊控制器設計~電機大師黃聰亮教授演講投影片運用粒子群最佳化之Fpga模糊控制器設計~電機大師黃聰亮教授演講投影片
運用粒子群最佳化之Fpga模糊控制器設計~電機大師黃聰亮教授演講投影片vincent8899
 
Vodafone analiz gamze
Vodafone analiz gamzeVodafone analiz gamze
Vodafone analiz gamzegmzakca
 

Was ist angesagt? (20)

Deep learning tutorial 9/2019
Deep learning tutorial 9/2019Deep learning tutorial 9/2019
Deep learning tutorial 9/2019
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaire
 
Lect9 Decision tree
Lect9 Decision treeLect9 Decision tree
Lect9 Decision tree
 
RandomForestとR package
RandomForestとR packageRandomForestとR package
RandomForestとR package
 
Topsis-Çok kriterli karar verme
Topsis-Çok kriterli karar vermeTopsis-Çok kriterli karar verme
Topsis-Çok kriterli karar verme
 
Math in Machine Learning / PCA and SVD with Applications
Math in Machine Learning / PCA and SVD with ApplicationsMath in Machine Learning / PCA and SVD with Applications
Math in Machine Learning / PCA and SVD with Applications
 
Smart Data Slides: Machine Learning - Case Studies
Smart Data Slides: Machine Learning - Case StudiesSmart Data Slides: Machine Learning - Case Studies
Smart Data Slides: Machine Learning - Case Studies
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-
 
Decision tree, softmax regression and ensemble methods in machine learning
Decision tree, softmax regression and ensemble methods in machine learningDecision tree, softmax regression and ensemble methods in machine learning
Decision tree, softmax regression and ensemble methods in machine learning
 
Yapay Sinir Ağları
Yapay Sinir AğlarıYapay Sinir Ağları
Yapay Sinir Ağları
 
Robust Low-rank and Sparse Decomposition for Moving Object Detection
Robust Low-rank and Sparse Decomposition for Moving Object DetectionRobust Low-rank and Sparse Decomposition for Moving Object Detection
Robust Low-rank and Sparse Decomposition for Moving Object Detection
 
DeepLearningTutorial
DeepLearningTutorialDeepLearningTutorial
DeepLearningTutorial
 
Tenenbaum review-20140704-1600
Tenenbaum review-20140704-1600Tenenbaum review-20140704-1600
Tenenbaum review-20140704-1600
 
整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ
 
Distributed ADMM
Distributed ADMMDistributed ADMM
Distributed ADMM
 
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
 
運用粒子群最佳化之Fpga模糊控制器設計~電機大師黃聰亮教授演講投影片
運用粒子群最佳化之Fpga模糊控制器設計~電機大師黃聰亮教授演講投影片運用粒子群最佳化之Fpga模糊控制器設計~電機大師黃聰亮教授演講投影片
運用粒子群最佳化之Fpga模糊控制器設計~電機大師黃聰亮教授演講投影片
 
Ysa matlab
Ysa matlabYsa matlab
Ysa matlab
 
Deep learning
Deep learningDeep learning
Deep learning
 
Vodafone analiz gamze
Vodafone analiz gamzeVodafone analiz gamze
Vodafone analiz gamze
 

Ähnlich wie Karar ağaçlari

Karar ağaçları ve entropi kds
Karar ağaçları ve entropi kdsKarar ağaçları ve entropi kds
Karar ağaçları ve entropi kdsOğuzhan Oğuz
 
Yzm 2116 - Bölüm 2 (Algoritma Analizi)
Yzm 2116  - Bölüm 2 (Algoritma Analizi)Yzm 2116  - Bölüm 2 (Algoritma Analizi)
Yzm 2116 - Bölüm 2 (Algoritma Analizi)Deniz KILINÇ
 
Deney tasarımı (rapor)
Deney tasarımı (rapor)Deney tasarımı (rapor)
Deney tasarımı (rapor)Habip TAYLAN
 
İlişkisel Veritabanı Sistemleri ve NoSQL
İlişkisel Veritabanı Sistemleri ve NoSQLİlişkisel Veritabanı Sistemleri ve NoSQL
İlişkisel Veritabanı Sistemleri ve NoSQLMurat Azimli
 
Clustering Analysis DBSCAN & SOM
Clustering Analysis DBSCAN & SOMClustering Analysis DBSCAN & SOM
Clustering Analysis DBSCAN & SOMÖmer Can Koç
 

Ähnlich wie Karar ağaçlari (10)

Karar ağaçları ve entropi kds
Karar ağaçları ve entropi kdsKarar ağaçları ve entropi kds
Karar ağaçları ve entropi kds
 
ML_3.pdf
ML_3.pdfML_3.pdf
ML_3.pdf
 
Yzm 2116 - Bölüm 2 (Algoritma Analizi)
Yzm 2116  - Bölüm 2 (Algoritma Analizi)Yzm 2116  - Bölüm 2 (Algoritma Analizi)
Yzm 2116 - Bölüm 2 (Algoritma Analizi)
 
Deney tasarımı (rapor)
Deney tasarımı (rapor)Deney tasarımı (rapor)
Deney tasarımı (rapor)
 
İlişkisel Veritabanı Sistemleri ve NoSQL
İlişkisel Veritabanı Sistemleri ve NoSQLİlişkisel Veritabanı Sistemleri ve NoSQL
İlişkisel Veritabanı Sistemleri ve NoSQL
 
Capacity Planning
Capacity PlanningCapacity Planning
Capacity Planning
 
Deney tasarımı
Deney tasarımıDeney tasarımı
Deney tasarımı
 
214
214214
214
 
Clustering Analysis DBSCAN & SOM
Clustering Analysis DBSCAN & SOMClustering Analysis DBSCAN & SOM
Clustering Analysis DBSCAN & SOM
 
Simulasyon
SimulasyonSimulasyon
Simulasyon
 

Karar ağaçlari

  • 2. İÇERİK  Karar Ağacı Nedir?  Karar Ağacı Özellikleri  Karar Ağacı Çalışma Algoritması  Avantajları  Dezavantajları  Örnek Çalışmalar
  • 3. Tarihçesi  Morgan ve Sonquist tarafından Michigan Üniversitesi'nde 1970'li yılların başlarında kullanılan AID (Automatic Detector) karar ağacı ilk algoritma ve yazılımdır.  Bu yöntem 60 yılı aşkın süredir kullanımdadır.
  • 4. Karar Ağacı Nedir ?  Karar ağacı ağaç yapısı şeklinde sınıflandırıcı algoritmasıdır.  Karar Agaçları tümevarımlı mantığın programlama ortamına taşındıgı basit fakat çok yaygın bir metoddur.  Ayrık değerli parametrelerle çalışır.Gürültüye karşı dayanıklı bir algoritmadır.  C4.5 karar ağacı algoritması ailesi içinde en popüler algoritmadır.  Karar ağacı algortimalarının dayandıgı tüme varımlı felsefeye dair temel sezgi öğrenme özellikleriyle oluşturulacak karar ağacının olabidiğince küçük olmasının iyi olcağı yönündedir.
  • 5. Karar Ağacı Elemanları  İç Karar Düğümleri: Giriş verilerinin test edildiği, soruların sorulduğu ve hangi yöne yöneleceklerini belirleyen karar düğümleri  Dal: Bu soruların cevaplarını temsil eder  Uç Yapraklar: Kategorin bulunduğu sınıf etiketleri .
  • 6. (2) Hangi Düğümden Devam Edeceksin? (3) Ne zaman Duracaksın/ Sonuca Ulaşacaksın? (1) Hangisinden Başla? (root)
  • 7. Rastgele oluşturulmuş karar ağacı örneği
  • 8. Özellikler  Eğiticili öğrenme (Supervised learning) algoritması  Kullanımı yaygın  ürettikleri kuralların kolay anlaşılır olması  kolay uygulanabilir olmaları  hem kategorik hem de sayısal verileri işleyebilirler
  • 9. Algortimanın Adımları 1-Her öznitelik üzerinde bölme için bilgi kazancını hesapla(entropy(variance) azalma). 2-Yeni bir düğüm için en fazla bilgi kazancını veren özniteliği seç. 3-Bu özniteliğe dayalı olması eğitim verisini böl. 4-Alt düğümlere kadar hepsi için (Adım 1=>3) özyinelemeli olarak işlemi yineleyin.
  • 10. Karar Ağaçlarında Karar Düğümlerini Oluşturacak Ey İyi Nitelik Neden Seçilir?  Kök düğümde ağacın dengeli bir şekilde dallanması ve sınıflandırma algoritmasının verimli olması için özellikler içinden en uygun olanı seçilir.  Kök düğüm için uygulanan algoritma iç karar düğümleri içinde söz konusudur.
  • 11. Karar Ağaçlarında Karar Düğümlerini Oluşturacak En İyi Nitelik Nasıl Seçilir? Shannon ve Weaver tarafından ilk defa tanımlanan Enformasyon Teorisi ile bütün sistemdeki beklenen değeri hesaplayabiliyoruz. Claude Elwood Shannon Warren Weaver
  • 12. Entorpi  p1, p2,.., pm toplamları 1 olan olasılıklar.  örnekler aynı sınıfa aitse entropi=0  örnekler sınıflar arasında eşit dağılmışsa entropi=1  örnekler sınıflar arasında rastgele dağılmışsa 0<entropi<1 Entropi formülü E(S) = - p(P)log2 p(P) – p(N)log2 p(N)
  • 13. İnformation Gain(Bilgi Kazancı)  Bilgi kazancı entopide ki beklenen azalmayı ölçer.  Bu şekilde bizim için uygun olan özellik seçimini gerçekleştirebiliyoruz. Bilgi Kazancı=Sistemin Enformasyon Değeri – Özelliğin Enformasyon Değeri
  • 15. Karar Ağaçları: Haftasonu Örneği Weekend (Example) Weather Parents Money Decision (Category W1 Sunny Yes Rich Cinema W2 Sunny No Rich Tennis W3 Windy Yes Rich Cinema W4 Rainy Yes Poor Cinema W5 Rainy No Rich Stay in W6 Rainy Yes Poor Cinema W7 Windy No Poor Cinema W8 Windy No Rich Shopping W9 Windy Yes Rich Cinema W10 Sunny No Rich Tennis  1. Adım: Veri setinden öğrenme kümesi oluşturulur.
  • 16. Karar Ağaçları: Haftasonu örneği  2. Adım: Veri setindeki en ayırt edici nitelik belirlenir ve ağacın kökü olarak alınır.  3. Adım: Ağacın çocuk düğümü olan A düğümüne ait alt veri kümesi belirlenir.
  • 17. Haftasonu Örneği:Entropy  Haftasonu veri kümesindeki 10 örnekten  6 örnek için karar sinema  2 örnek için karar tenis oynamak  1 örnek için karar evde kalmak ve  1 örnek için karar alışverişe gitmek olduğuna göre  Entropy: H(T)= - (6/10) log2(6/10) - (2/10) log2(2/10) - (1/10) log2(1/10) - (1/10) log2(1/10) H(S)= 1,571
  • 18. Haftasonu Örneği :Bilgi Kazancı  Gain(weather)= ?  Sunny=3 (1 Cinema, 2 Tennis)  Windy=4 (3 Cinema, 1 Shopping)  Rainy=3 (2 Cinema, 1 Stay in)  Entropy(Tsunny)= - (1/3) log2 (1/3) - (2/3) log2 (2/3)=0,918  Entropy(Twindy)= - (3/4) log2 (3/4) - (1/4) log2 (1/4) =0,811  Entropy(Trainy)= - (2/3) log2 (2/3) - (1/3) log2 (1/3) =0,918  Gain(weather) = Entropy(T)- ((P(sunny)Entropy(Tsunny) + P(windy) Entropy(Twindy)+ P(rainy) Entropy(Trainy) ) =1,571- ((3/10)Entropy(Tsunny)+(4/10)Entropy(Twindy)+ (3/10)Entropy(Trainy)) Gain(T, weather) =0,70
  • 19. Haftasonu Örneği :Bilgi Kazancı  Gain(T, parents)= ?  Yes=5 (5 Cinema)  No =5 (2 Tennis, 1 Cinema, 1 Shopping, 1 Stay in)  Entropy(Tyes)= - (5/5) log2 (5/5) = 0  Entropy(Tno)= - (2/5) log2 (2/5) - 3(1/5) log2 (1/5) =1,922  Gain(T, parents) = Entropy(T)- ((P(yes)Entropy(Tyes) + P(no) Entropy(Tno)) =1,571- ((5/10)Entropy(Tyes)+(5/10)Entropy(Tno)) Gain(T, parents)=0,61
  • 20. Haftasonu Örneği :Bilgi Kazancı  Gain(T, money)= ?  Rich=7 (3 Cinema, 2 Tennis, 1 Shopping, 1 Stay in)  Poor=3 (3 Cinema)  Entropy(Trich)= 1,842  Entropy(Tpoor)= 0  Gain(T, money) = Entropy(T)- ((P(rich)Entropy(Trich) + P(poor) Entropy(Tpoor)) =1,571- ((5/10)Entropy(Trich)+(5/10)Entropy(Tpoor)) Gain(T, money)=0,2816
  • 21. Haftasonu Örneği :Bilgi Kazancı  Gain(T, weather) =0,70  Gain(T, parents)=0,61  Gain(T, money)=0,2816  Weather özelliği en büyük bilgi kazancını sağladığı için ağacın kökünde yer alacak özellik olarak seçilir. Bu özellik en ayırt edici özellik olarak bulunmuş olur.
  • 22. Haftasonu Örneği  3. Adım: Ağacın çocuk düğümü olan A düğümüne ait alt veri kümesi belirlenir.  Her alt küme için tekrar bilgi kazancı hesaplanarak en ayırt edici özellik belirlenir.
  • 23. Haftasonu Örneği  Yeni düğüm için en ayırt edici özellik Parents olarak belirlenmiştir. Bu işlemler her düğüm için aşağıdaki durumlardan biri oluşuncaya kadar devam eder  Örneklerin hepsi aynı sınıfa ait  Örnekleri bölecek özellik kalmamış  Kalan özelliklerin değerini taşıyan örnek yok
  • 24. Veriye Aşırı Uyumun Önüne Geçme  Eğitim verilerini en iyi sınıflandıracak şekle kadar her dalını derinleştirir.  Bu mantıklı bir stratejiyken, veriler arasında gürültü varsa zorluklara sebep olabilir.  Gürültü varken, her yaprak saf (pure) olana dek bölünmeye izin vermek, veriyi ezberleyen (overfitting) çok büyük bir karar ağacı oluşmasına neden olabilir.
  • 25.  Sonuç olarak , eğitim verilerinden bağımsız test verileri ile ölçülen doğruluk önce artar sonra ise azalır.
  • 27. Budamanın Gerekliliği  Budanmış ağaçlar daha kısa ve daha az karmaşık olma eğilimindedirler.  Daha kolay anlaşılırlar.  Genellikle daha hızlıdırlar.  Test verilerini sınıflamada daha başarılıdırlar.
  • 28. Budama (Pruning)  Karar ağacı uygulamasında overfitting’i önleyen yöntemler iki gruba ayrılırlar:  Pre-pruning (erken budama)  Post-pruning (geç budama)  Hangi yaklaşım daha geçerlidir?  ilki daha direk bir yaklaşım gibi görünürken  ikincisi pratikte daha kabul edilir sayılmaktadır.
  • 29. Pre-Pruning  Ağacın büyümesini erken durduran yaklaşımlar (eğitim verilerini çok iyi sınıflayan noktaya erişmeden önce)  Bir düğüme ulaşan örnek sayısı, eğitim verilerinin belirli bir yüzdesinden daha küçükse o düğüm artık bölünmez.  Az sayıda örneğe bağlı olarak alınan kararlar genelleme hatasını artırır.  Daha hızlı çözüm.
  • 30. Post Pruning  Ağacın veriye oturmasına izin veren ve daha sonra ağacı budayan yaklaşımlar.  Karar ağaçlarında uygulanan “greedy” algoritması: her adımda bir düğüm ekler, geriye dönüp başka bir seçenek düşünmez.  Bu durumun tek istinası: gereksiz alt ağaçların bulunup budanmasıdır.  Daha doğru çözüm.
  • 32. Avantajları  Karar ağacı oluşturmak zahmetsiz  Küçük ağaçları yorumlamak kolay  Anlaşılabilir kurallar oluşturulabilir  Ayrık nitelik değerleri için kullanılabilir
  • 33. Dezavatajları  Sürekli nitelik değerlerini tahmin etmekte cok başarılı değil  Sınıf sayısı fazla ve öğrenme kümesi örnekleri sayısı az olduğunda model oluşturmada çok başarılı değil.  Büyük öğrenme kümeleri için  ağaç oluşturma karmaşıklığı fazla,  ağaç budama karmaşıklığı fazla
  • 34. Örnek Çalışmalar Bu çalışmada, İMKB100 sanayi ve hizmet sektöründe faaliyette bulunan173 işletmenin 2004–2006 yıllarına ait yıllık finansal göstergelerinden yararlanarak VM tekniklerinden birisi olan karar ağaçları tekniği, CHAID algoritması uygulanarak seçilen finansal göstergelere göre firmaları ayıran en önemli değiskenler araştırılmaktadır. Bu şirketlerin, 2004–2006 yıllarına ait bilanço ve gelir tablolarına ilişkin veriler İMKB’nin ağ sayfasından elde edilmiştir. İMKB100 sanayi ve hizmet sektöründe faaliyet gösteren firmaları ayırmada etkili olan en önemli karlılık, likitide,varlık kullanım etkinligi, sermaye yapısı ve isletme büyüklügü degiskenleri arastırılmaktadır. KARAR AĞACI ALGORiTMALARI VE iMKB VERiLERİ ÜZERiNE BiR UYGULAMA Yrd.Doç.Dr.Ali Sait ALBAYRAK Ögr.Gör.Sebnem KOLTAN YILMAZ Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi
  • 35. KARAR AĞAÇLARI VE FRAKTALANALİZ KULLANARAK HİSTOPATOLOJİK İMGELERİN SINIFLANDIRILMASI İbrahim TÜRKOĞLU ve Suat TORAMAN Bu çalışmada, histopatolojik* imgelerden çeşitli hastalıkların tanınması işleminde, hekime yardımcı olacak ve kolaylık sağlayacak bir karar destek sistemi tasarlanmıştır. Geliştirilen karar destek sistemi, örüntü tanıma temellidir. Örüntü tanıma sürecinin, özellik çıkarım aşaması Fraktal analiz ve sınıflandırma aşaması içinse karar ağaçları kullanılmıştır. Hepatitli hastaların histopatolojik imgeleri ile geliştirilen sistemin başarısı değerlendirilmiştir. 50 hasta verisi üzerinde geliştirilen sistemin doğruluk yüzdesi %92 olarak bulunmuştur. Örnek Çalışmalar Elektronik ve Bilgisayar Eğitimi Bölümü, Teknik Eğitim Fakültesi, Fırat Üniversitesi, 23119, Elazığ *Histopatoloji, doku ve organların doğal yapısında oluşan lezyonların mikroskobisini inceleyen bir bilim dalıdır.
  • 36. Kaynakça  Kai Zhang ,Ph. D. graduate Department of computer Science and Engineering Hong Kong University of Science and Technology  Decision Tree Algorithm Comp328 tutorial 1  Tom Mitchell , E. Fredkin University Professor  http://www.cs.princeton.edu/courses/archive/spr07/cos424/papers/mitchell-dectrees.pdf  Yrd.Doç.Dr.Songül Albayrak ,Yıldız Teknik Üniversitesi ,Bilgisayar Müh. Bölümü  Veri madenciliği- Sınıflama ve Kümeleme Yöntemleri  Toby Breckon ,School of Engineering and Computing Sciences Durham University  http://www.slideshare.net/potaters/bmva-ss-2014breckonml  Yrd. Doç. Dr. Umut ORHAN ,Çukurova Üniversitesi Mühendislik Mimarlık Fakültesi,Bilgisayar Mühendisliği Bölümü  Makine Öğrenmesi  Şadi Evren ŞEKER ,Assoc. Prof. at İstanbul Şehir Üniversitesi  https://www.youtube.com/watch?v=z_PCJeDOFOk  Prof.Dr. Yılmaz KILIÇASLAN,Trakya University,Faculty of Engineering and Architecture Department of Computer Engineering  Choosing Attributes

Hinweis der Redaktion

  1. Yukarıdaki şekil, kalp krizi geçiren kişilerin çeşitli özellikleri ele alınarak veriler üzerinden öğrenilmesi durumunda hayali olarak elde edilecek sonuçlardır. Diğer bir deyişle, iç düğümlerde (dikdörtgenler) çeşitli girdilere göre ağacın dallanması söz konusudur. Yapraklarda ise sonuç olarak elde edilen değerler gösterilmiştir. Karar ağacı öğrenmesinde, ağacın öğrenilmesi sırasında, üzerinde eğitim yapılan küme, çeşitli özelliklere göre alt kümelere bölünür, bu işlem, özyineli olarak (recursive) tekrarlanır ve tekrarlama işleminin tahmin üzerinde bir etkisi kalmayana kadar sürer. Bu işleme özyineli parçalama (recursive partitioning) ismi verilir.