SlideShare ist ein Scribd-Unternehmen logo
1 von 28
(BAYESIAN NETWORKS)
BAYESCĠ AĞLAR

 Ġnanç ağları (belief networks) olarak da bilinen Bayesci
Ağlar, olasılıksal grafik modelleri ailesinin bir üyesidir.
 Olasılıksal grafik modelleri, ilgilenilen problemin kesin
olmayan tanım kümesi hakkındaki bilgiyi temsil etmek
için kullanılır.
 Bu grafiklerde düğümler (nodes) raslantı değiĢkenlerini,
düğümler arasındaki bağlar (edges) ise raslantı
değiĢkenleri arasındaki olasılıksal bağımlılık durumlarını
gösterir.
BAYESCĠ AĞLAR

 Bayesci ağlar, “Yönlü Dönüşsüz Grafik (Directed
Acyclic Graph [DAG])” olarak bilinen bir grafiksel
model yapısına sahiptir.

 Bu ağlar, bir raslantı değiĢkenleri kümesinin çok
değiĢkenli olasılık dağılımının etkili bir gösteriminin ve
bu
gösterim
üzerinden
çeĢitli
hesaplamaların
yapılmasını sağlar.
 Bayesci ağlar, uzman sistemlerinde, kesin olmayan
uzman görüĢlerinin sisteme girmesini sağlayan önemli
bir yöntemdir.
TEMEL KAVRAMLARKOġULLU OLASILIK, BAYES KURALI



 Bayesci hesaplamalarda kullanılan temel kavram «koĢullu olasılık» tır.
«P(a|b)=x : b olayı bilindiğinde, a olayının gerçekleşme olasılığı x’tir»

P ab

P a,b
P b

 a ve b olayları baĢka bir c olayına koĢullu olabilir.

P a b,c

P a,b|c
P b|c

 Bu durumda ilk eĢitlik için Bayes kuralı:

 Ġkinci eĢitlik için Bayes kuralı: P b a,c

P ba

P ab P b
P a

P a|b,c P b c
P a|c
TEMEL KAVRAMLAR-DAG


kümesi

 DAG yapısı, düğümler
ve yönlendirilmiĢ bağlar
kümesi olmak üzere iki kümeden oluĢur.
 Düğümler, raslantı değiĢkenlerini temsil eder ve daire
biçiminde gösterilir.
 Bağlar ise, değiĢkenler arasındaki doğrudan bağımlılıkları
belirtir ve düğümler arasında çizilen oklarla gösterilir.
 Xi ve Xj , ağdaki iki düğüm olmak üzere, Xi düğümünden Xj
düğümüne doğru çizilen bir bağ, karĢılık geldikleri değiĢkenler
arasındaki istatistiksel bağımlılığın bir göstergesidir.
TEMEL KAVRAMLAR-DAG



 Xi düğümünün, Xj düğümünün ebeveyni (parent);
Xi
düğümünün ise Xi düğümünün çocuğu (child) olduğu
söylenebilir.
 Ayrıca, ağdaki bir düğümden çıkan yol üzerinde yer alan
düğümler kümesi “soy düğümler (descendants)”, bir düğüme
gelen yol üzerinde yer alan düğümler kümesi ise “ata
düğümler (ancestors)” olarak tanımlanabilir.
 DönüĢsüz grafik yapısı, bir düğümün, kendisinin soy ya da ata
düğümü olmasına izin vermez. Bu durum, düğümlerin çok
değiĢkenli olasılık dağılımlarının çarpanlara ayrılmasında
önemlidir.
TEMEL KAVRAMLARKOġULLU BAĞIMSIZLIK



 KoĢullu bağımsızlık, bir değiĢkenin ebeveynlerinin
durumları bilindiğinde, bu değiĢkenin, soy değiĢkenleri
dıĢındaki değiĢkenlerden bağımsız olduğu anlamına
gelmektedir.
 Bu özellik, değiĢkenlerin çok değiĢkenli olasılık dağılımının
hesaplanmasında kullanılan parametre sayısının azalmasını
sağlar.
TEMEL KAVRAMLARKOġULLU BAĞIMSIZLIK



X, Y, Z raslantı değişkenlerinin tanım kümeleri sırasıyla U X ,U Y ,U Z
Bu raslantı değişkenlerinin çok değişkenli olasılık fonksiyonu P X, Y,Z
Bu değişkenlerin aldığı tüm x

UX , y

PX ,Y ,Z x, y,z

UY , z

UZ değerleri için

PX Z x z PY Z y z PZ z

yazılabiliyorsa Z bilindiğinde, X ve Y’nin koşullu bağımsız olduğu söylenir
ve X

X
x

Y Z biçiminde yazılır.

Y Z ise PY Z y z
UX , y

UY , z

0 ve PZ z

0 eşitsizliklerini sağlayan tüm

UZ değerleri için PX Y,Z x y, z

PX Z x z yazılabilir.
TEMEL KAVRAMLARKOġULLU OLASILIK TABLOSU



 Bayesci ağların nitel kısmı olarak tanımlanan DAG yapısına ek
olarak, bu ağların nicel kısmı olarak tanımlanan parametrelerin
belirlenmesi gerekmektedir.
 Bu parametreler, ağdaki her bir düğüme ait koĢullu olasılık
dağılımlarıdır.
 Her bir değiĢken için bu koĢullu olasılıklar, yalnızca kendi
ebeveynlerine bağlı olarak tanımlanır.
 DeğiĢkenler kesikli olduğunda, koĢullu olasılık dağılımları tablo
biçiminde gösterilir.
 Bu tablolarda, ebeveynlerinin aldığı değerlere göre her bir
değiĢkenin aldığı değerler ve bu değerleri alma olasılıkları yer
alır. Bu tablolara “koşullu olasılık tablosu (conditional
probability tables [CPT]) ” adı verilir
BAYESCĠ AĞLARTANIM VE ÖZELLĠKLER
Bir Bayesci ağ, bir V



X1,,Xn

raslantı değişkenleri kümesine ilişkin çok

değişkenli olasılık dağılımını temsil eden bir DAG’dır.

Ağ, G ve

olmak üzere iki bileşenden oluşur ve BN

G,

biçiminde

gösterilir.
İlk bileşen G, düğümlerin X1,, Xn raslantı değişkenlerini, düğümler arasındaki
bağların ise bu değişkenler arasındaki doğrudan bağımlılıkları gösterdiği bir
grafik yapısıdır. G grafiği koşullu bağımsızlık varsayımlarını içerir.
Bayesci ağların ikinci bileşeni

, ağdaki parametrelerin kümesini gösterir. Bu

parametreler, Bayesci ağdaki her bir X i raslantı değişkenine ilişkin koşullu
olasılık dağılımlarıdır.
BAYESCĠ AĞLARTANIM VE ÖZELLĠKLER



Bir

Xi

raslantı değişkeni için koşullu olasılık dağılımı,

ebeveynlerinin kümesi

i

olmak üzere,

xi

i

PBN Xi

i

X i ’nin G’deki

biçiminde tanımlanır.

Bir raslantı değişkeninin verilen Bayesci ağda bir ebeveyni yoksa bu raslantı
değişkeni için koşullu olasılık dağılımı, marjinal olasılık dağılımına karşılık
gelir.
Her bir değişkene ait marjinal ya da koşullu olasılık dağılımları genel olarak
“yerel olasılık dağılımları (local probability distributions)” olarak adlandırılır.
BAYESCĠ AĞLARTANIM VE ÖZELLĠKLER



Bu parametrelerden ve Bayesci ağ yapısından yararlanarak, V

X1,,Xn

için tek bir çok değişkenli olasılık dağılımı tanımlanır ve bu dağılım aşağıdaki
eşitlikten yararlanılarak elde edilir.
Çok değişkenli olasılık dağılımının bu eşitlikten elde edilmesi “zincir kuralı
(chain rule)” olarak adlandırılır .
n

P X1,, Xn

n

P Xi
i 1

i
i 1

Xi

i
BAYESCĠ AĞLARÖRNEK



 Bir kiĢinin belinin incinmesine neden olan olaylar incelenmek istensin.
 Bel incinmesi olayı “Bel (B)” değiĢkeni ile gösterilsin.
 Bel incinmesi bel ağrısına neden olabilir. Bel ağrısı, “Ağrı (A)” değiĢkeni
ile gösterilsin.
 Bel incinmesinin nedeni yanlıĢ yapılan spor aktivitesi olabilir. Bu olay,
“Spor (Sp)” değiĢkeni ile temsil edilsin.
 Diğer bir neden ise, kiĢinin iĢ yerinde oturduğu sandalyenin konforsuz
olması olabilir. KiĢinin sandalyesinin konforsuz olması durumu,
“Sandalye (Sa)” değiĢkeni ile gösterilsin. Bu neden söz konusu
olduğunda, bu kiĢinin iĢ arkadaĢlarının da benzer bir bel problemine
sahip olup olmadıkları da araĢtırılabilir. Bu durumda ilgili değiĢken “İş
Arkadaşı (İa)” olarak alınabilir.
 Bu problemdeki tüm değiĢkenler iki düzeyli ve bu düzeyler “Doğru (D)”
ve “YanlıĢ (Y)” biçimindedir.
•

•

D Sa P İa

Y

P Sp

D P Sp

P A

DB

P A

Sa ve Sp değiĢkenleri
marjinal olarak bağımsızdır
ancak B değiĢkeni
verildiğinde bu değiĢkenler
koĢullu bağımlı olur.

•

Sa değiĢkeni verildiğinde,
Ġa ve B değiĢkenleri koĢullu
bağımsız olur. B
verildiğinde ise A
değiĢkeni, Sa ve Sp
değiĢkenlerinden koĢullu
bağımsız olur.

Y

P B

Y Sa

KoĢullu bağımsızlık
varsayımından
yararlanarak,

•

P İa

D P Sa

Bu örnekte B düğümünün
ebeveynleri Sa ve Sp’dir. A
düğümü, B’nin çocuğu;
Ġa’nın ebeveyni ise Sa’dır.

•

P Sa

Tüm düğümler için CPT,
ilgili düğümün yanında
verilmiĢtir.

D Sa,Sp

P B

Y Sa,Sp

YB

Çok değişkenli olasılık dağılımı:
P Sa,Sp,İa,B,A

P Sa P Sp P İa Sp,Sa P B İa,Sp,Sa P A B,İa,Sp,Sa

Koşullu bağımsızlık özelliğinden yararlanılarak:
P Sa,Sp,İa,B,A

P Sa P Sp P İa Sa P B Sp,Sa P A B

Böylece, modeldeki parametre sayısı

25 1 31 ’den 10’a düşer. Parametre

sayısında bu azalış modeldeki çıkarsamaların, hesaplamaların ve öğrenmenin
gerçekleştirilmesinde büyük kolaylıklar sağlar.
BAYESCĠ AĞLARD-AYRILIK ÖZELLĠĞĠ



 Bir Bayesci ağa yeni bilgi girdiğinde
ağdaki
değiĢkenlerin
bağımsızlık
durumuna
d-ayrılık
özelliğinden
yararlanılarak karar verilir.
 Nedensel bir ağda yer alan iki değiĢken A
ve B olmak üzere, bu değiĢkenler
arasındaki tüm yolları kesen bir C
değiĢkeni varsa ve
 A ile B arasında dizisel (serial) ya da
yayılan (diverging) bağ varsa ve C’nin
durumu biliniyorsa ya da
 A ile B arasında birleĢen (converging)
bağ varsa ve C ya da C’nin soy
düğümleri hakkında herhangi bir
bilgi yoksa,
A ile B değiĢkenlerinin “d-ayrı (d-seperated)”
olduğu söylenebilir. A ile B, d-ayrı değil ise,
“d-bağlı (d-connected)”dır.

Dizisel Bağ:

Ayrılan Bağ:

BirleĢen Bağ:
BAYESCĠ AĞLARDA ÇIKARSAMA


 Bayesci ağlarda çıkarsamalar, ilgilenilen değiĢkenlerin marjinal
dağılımları hesaplanarak (ilgisiz değiĢkenler üzerinden çok
değiĢkenli olasılık dağılımının toplamı alınarak) yapılır.
 Bayesci ağlarda çıkarsamalar en genel anlamda iki Ģekilde
gerçekleĢtirilir.
 Bunlardan ilkinde, bir düğüme ebeveyn düğümleri vasıtasıyla
bağlı olan bilgi düğümlerinden yararlanılarak gerçekleĢtirilir.
Bu hesaplama yöntemi, “yukarıdan aĢağıya çıkarsama” olarak
adlandırılır.
 Diğer çıkarsama yönteminde ise, bir düğüme çocuk düğümleri
vasıtasıyla bağlı olan bilgi düğümlerine dayanır. Bu yöntem
“aĢağıdan yukarıya çıkarsama” olarak adlandırılır
BAYESCĠ AĞLARDA ÇIKARSAMA



Bir kişinin sırt ağrısı çektiği bilindiğinde ofis sandalyelerinin konforsuz olma olasılığı aşağıdaki gibi
hesaplanır.

P Sa D A

P Sa D,A

D

P Sa D,A
P A

D

D

P Sa D P Sp P İa D P B Sp,Sa D P A

D

DB

Sp,İa,B D,Y

P A

P Sa P Sp P İa Sa P B Sp,Sa P A

D

DB

Sp,İa,B,Sa D,Y

Değişkenlerin iki durumu olduğunda dahi, yukarıdaki eşitliklerden de görüldüğü gibi, çok değişkenli olasılık
dağılımı üzerinden marjinal ve koşullu dağılımları hesaplamak zor ve karmaşıktır. Çok değişkenli olasılık
dağılımı üzerinden işlem yapma süresi, değişken sayısına göre üstel olarak artar. Tüm değişkenler
üzerinden toplam alma işlemi “tam çıkarsama (exact inferfence)” olarak bilinir ve zor bir problemdir. Bu
nedenle literatürde, tam çıkarsama problemlerini ağları sınıflandırarak çözen etkili algoritmalar önerilmiştir.
BAYESCĠ AĞLARDA ÇIKARSAMA


 Bayesci ağ yapısının oluĢturulması ve ağdaki parametrelerin
belirlenmesi için uzman görüĢlerinden yararlanılır.
 Ancak, uygun uzman görüĢüne ulaĢmak her zaman mümkün
değildir.
 Güncel uygulamaların çoğunda, konu ile ilgili yeterli uzman
görüĢü elde edilemediği için Bayesci ağların oluĢturulmasında
veri kümesinden yararlanmak gerekmektedir.
 Bu konu “Bayesci ağlarda öğrenme problemi” olarak bilinir ve
veri ile önsel bilgi (uzman görüĢü, nedensel iliĢkiler)
verildiğinde ağ yapısının ve parametrelerin tahmin edilmesi
olarak tanımlanır.
BAYESCĠ AĞLARDA ÖĞRENME


 Ağ yapısının öğrenilmesi, parametrelerin öğrenilmesinden daha zor bir
problemdir. Ayrıca, gizli düğümler ya da kayıp veri gibi kısmi
gözlenebilirlik durumu söz konusu olduğunda baĢka zorluklar da
ortaya çıkar. Genellikle, farklı öğrenme yöntemlerinin önerildiği dört
farklı öğrenme durumu söz konusudur.
Durum BN Yapısı Gözlenebilirlik Önerilen öğrenme yöntemi
1

Biliniyor

Tam

En çok olabilirlik tahmini

2

Biliniyor

Kısmi

EM ya da MCMC

3

Bilinmiyor

Tam

Model uzayının araştırılması

4

Bilinmiyor

Kısmi

EM+Model uzayının araştırılması
BAYESCĠ AĞLARDA ÖĞRENME



 Bayesci ağ yapısının öğrenilmesinde verilen bir D={x1, x2, …, xn}
öğrenme veri kümesi için em uygun «B» Bayesci ağının bulunması
amaçlanır.
 Bunun için de genellikle bir skor fonksiyonundan yararlanılır. Bu skor
fonksiyonlarından en sık kullanılanlar: Bayesci skor fonksiyonu ve en
küçük tanım uzunluğu (minimum discription length-MDL) ilkesine
dayalı bir fonksiyondur.
 MDL ilkesi veriyi özetlemeye dayalı olarak öğrenmeyi gerçekleĢtirir. Bu
ilkede amaç, orijinal verinin en kısa tanımını yapabilmektir.
BAYESCĠ AĞLARDA ÖĞRENME


 B=(G, Θ) bir Bayesci ağ ve D={x1, x2, …, xn} öğrenme veri
kümesi olsun. D verildiğinde B ağına iliĢkin MDL skor
fonksiyonu:
log N
B LL B D
2
 |B|, ağdaki parametre sayısıdır.
 LL(B|D) ise D bilindiğinde B’nin logaritmik olabilirlik
fonksiyonudur:
MDL B D

LL B D

N
i 1

log PB x i
BAYESCĠ AĞ SINIFLANDIRICISI



 Bir Bayesci ağ sınıflandırıcısı, C sınıf değiĢkeni, X1, …, Xn diğer
değiĢkenler olmak üzere X=(X1, …, Xn, C) değiĢken kümesi için bir
Bayesci ağdır.

 Önceki bölümde verilen öğrenme yöntemleri ile belirlenen ve
P(X1, X2, …, Xn, C) olasılığını modelleyen Bayesci ağ B olsun.
 Bu sınıflandırıcı, B modeli üzerinden PB(c| x1, x2, …, xn) sonsal
olasılığını maksimum yapan c sınıflarını belirler.
arg max PB C|X1, X 2 ,, X n
C

 Literatürde, sınıflandırma için kullanılan Bayesci ağ yapısını belirleyen
bir çok farklı yaklaĢım vardır.
BAYESCĠ AĞ SINIFLANDIRICISI –
NAIVE BAYES SINIFLANDIRICISI



 Naive Bayesci ağlarda, her Xi değiĢkeninin tek ebeveyni C sınıf
değiĢkenidir.
 Diğer sınıflandırıcıların aksine, oluĢturulması kolaydır, yapısı
önceden belirlenmiĢtir.
 Tüm Xi değiĢkenlerinin bağımsız olduğu varsayılır. Gerçeğe
çok uygun bir varsayım olmamasına rağmen, değiĢkenler
arasında çok güçlü iliĢkiler olmadığı sürece diğer bir çok
sınıflandırıcıdan daha iyi sonuçlar vermektedir.
BAYESCĠ AĞ SINIFLANDIRICISI – TREE AUGMENTED
NAIVE (TAN) BAYES SINIFLANDIRICISI



 TAN sınıflandırıcısında her bir Xi değiĢkeninin bir ya da iki ebeveyni
vardır. Bunlardan bir tanesi sınıf değiĢkeni C, diğeri ise iliĢkili
olduğu baĢka bir Xj (i≠j) değiĢkenidir.
 DeğiĢkenler arasında Naive Bayes sınıflandırıcısı ile
modellenemeyecek kadar güçlü iliĢkiler olması durumunda TAN
sınıflandırıcısı kullanılır.
 C sınıf değiĢkenine ek olarak değiĢkenler arasına yeni bağlar
eklenebilir ancak bu yeni ağlar ağaç yapısını bozmamalıdır.
BAYESCĠ AĞ SINIFLANDIRICISI – TREE
AUGMENTED NAIVE (TAN) BAYES
SINIFLANDIRICISI



 En iyi TAN sınıflandırıcısını bulmada kullanılan bir algoritmada,
logaritmik olabilirlik fonksiyonu maksimize edilmeye çalıĢılır. Bu
algoritmada temel düĢünce ilk olarak tam bir ağırlıklandırılmıĢ yönsüz
bir grafik oluĢturmaktır. Bu grafikte Xi ile Xj değiĢkeni arasındaki bağ,
C sınıf değiĢkeni verildiğin de Xi ile Xj arasındaki koĢullu karĢılıklı
bilgidir. Daha sonra, farklı bir algoritma (MWST) ile değiĢkenler
arasındaki bağların yönü belirlenir.
BAYESCĠ AĞ SINIFLANDIRICISI – BN AUGMENTED
NAIVE BAYES (BAN) SINIFLANDIRICISI



 BAN sınıflandırıcısının TAN sınıflandırıcısından farkı, değiĢkenler
arasındaki bağların ağaç yapısında olma zorunluluğunun
olmamasıdır.
 MDL skor fonksiyonu ya da CI (conditional independence) testi
yardımıyla BAN’ın sınıflandırma performansı araĢtırılabilir.
BAYESCĠ AĞ SINIFLANDIRICISI – BAYESIAN
MULTI NET



 Bu sınıflandırıcı, C sınıf değiĢkeninin her bir düzeyi için farklı bir
Bayesci ağ oluĢturur.
 BAN sınıflandırıcılarının genelleĢtirilmiĢ halidir.
 C’nin her bir düzeyi için farklı bir grafik yapısı oluĢturulabilir.
 DeğiĢkenler arasındaki iliĢkiler için bir kısıt yoktur.
BAYESCĠ AĞ SINIFLANDIRICISI – GENEL
BAYESCĠ AĞ (GBN)



 Kısıtsız bir BN sınıflandırıcısıdır.
 Bundan önceki sınıflandırıcılarda, sınıf değiĢkeni özel bir
değiĢkendir. GBN, sınıf değiĢkenini düğer değiĢkenlerden
ayırmaz. Sınıf değiĢkeninin tüm değiĢkenlerin ebeveyni
olma zorunluluğu yoktur.

Weitere ähnliche Inhalte

Andere mochten auch

Destek vektör makineleri
Destek vektör makineleriDestek vektör makineleri
Destek vektör makineleriozgur_dolgun
 
Support Vector Machine without tears
Support Vector Machine without tearsSupport Vector Machine without tears
Support Vector Machine without tearsAnkit Sharma
 
Support Vector Machines for Classification
Support Vector Machines for ClassificationSupport Vector Machines for Classification
Support Vector Machines for ClassificationPrakash Pimpale
 
Lecture 2: linear SVM in the Dual
Lecture 2: linear SVM in the DualLecture 2: linear SVM in the Dual
Lecture 2: linear SVM in the DualStéphane Canu
 
Analysis of Classification Techniques based on SVM for Face Recognition
Analysis of Classification Techniques based on SVM for Face RecognitionAnalysis of Classification Techniques based on SVM for Face Recognition
Analysis of Classification Techniques based on SVM for Face RecognitionEditor Jacotech
 
Lecture 1: linear SVM in the primal
Lecture 1: linear SVM in the primalLecture 1: linear SVM in the primal
Lecture 1: linear SVM in the primalStéphane Canu
 
A Multi-Objective Genetic Algorithm for Pruning Support Vector Machines
A Multi-Objective Genetic Algorithm for Pruning Support Vector MachinesA Multi-Objective Genetic Algorithm for Pruning Support Vector Machines
A Multi-Objective Genetic Algorithm for Pruning Support Vector MachinesMohamed Farouk
 
Genetik Algoritma Nasıl Çalışır
Genetik Algoritma Nasıl ÇalışırGenetik Algoritma Nasıl Çalışır
Genetik Algoritma Nasıl ÇalışırEmre Akadal
 
Geneti̇k algori̇tma
Geneti̇k algori̇tmaGeneti̇k algori̇tma
Geneti̇k algori̇tmaOsman Inan
 
How to use SVM for data classification
How to use SVM for data classificationHow to use SVM for data classification
How to use SVM for data classificationYiwei Chen
 
Artificial Intelligence Chapter 9 Negnevitsky
Artificial Intelligence Chapter 9 NegnevitskyArtificial Intelligence Chapter 9 Negnevitsky
Artificial Intelligence Chapter 9 Negnevitskylopanath
 
Support Vector Machines (SVM) - Text Analytics algorithm introduction 2012
Support Vector Machines (SVM) - Text Analytics algorithm introduction 2012Support Vector Machines (SVM) - Text Analytics algorithm introduction 2012
Support Vector Machines (SVM) - Text Analytics algorithm introduction 2012Treparel
 
Tweets Classification using Naive Bayes and SVM
Tweets Classification using Naive Bayes and SVMTweets Classification using Naive Bayes and SVM
Tweets Classification using Naive Bayes and SVMTrilok Sharma
 
Genetic Algorithm by Example
Genetic Algorithm by ExampleGenetic Algorithm by Example
Genetic Algorithm by ExampleNobal Niraula
 
2013-1 Machine Learning Lecture 04 - Michael Negnevitsky - Artificial neur…
2013-1 Machine Learning Lecture 04 - Michael Negnevitsky - Artificial neur…2013-1 Machine Learning Lecture 04 - Michael Negnevitsky - Artificial neur…
2013-1 Machine Learning Lecture 04 - Michael Negnevitsky - Artificial neur…Dongseo University
 
Marketing Research - Perceptual Map
Marketing Research - Perceptual MapMarketing Research - Perceptual Map
Marketing Research - Perceptual MapMinha Hwang
 

Andere mochten auch (20)

Destek vektör makineleri
Destek vektör makineleriDestek vektör makineleri
Destek vektör makineleri
 
Support Vector Machine without tears
Support Vector Machine without tearsSupport Vector Machine without tears
Support Vector Machine without tears
 
Support Vector Machines for Classification
Support Vector Machines for ClassificationSupport Vector Machines for Classification
Support Vector Machines for Classification
 
Lecture 2: linear SVM in the Dual
Lecture 2: linear SVM in the DualLecture 2: linear SVM in the Dual
Lecture 2: linear SVM in the Dual
 
Analysis of Classification Techniques based on SVM for Face Recognition
Analysis of Classification Techniques based on SVM for Face RecognitionAnalysis of Classification Techniques based on SVM for Face Recognition
Analysis of Classification Techniques based on SVM for Face Recognition
 
Lecture 1: linear SVM in the primal
Lecture 1: linear SVM in the primalLecture 1: linear SVM in the primal
Lecture 1: linear SVM in the primal
 
A Multi-Objective Genetic Algorithm for Pruning Support Vector Machines
A Multi-Objective Genetic Algorithm for Pruning Support Vector MachinesA Multi-Objective Genetic Algorithm for Pruning Support Vector Machines
A Multi-Objective Genetic Algorithm for Pruning Support Vector Machines
 
Genetik Algoritma Nasıl Çalışır
Genetik Algoritma Nasıl ÇalışırGenetik Algoritma Nasıl Çalışır
Genetik Algoritma Nasıl Çalışır
 
Geneti̇k algori̇tma
Geneti̇k algori̇tmaGeneti̇k algori̇tma
Geneti̇k algori̇tma
 
How to use SVM for data classification
How to use SVM for data classificationHow to use SVM for data classification
How to use SVM for data classification
 
Artificial Intelligence Chapter 9 Negnevitsky
Artificial Intelligence Chapter 9 NegnevitskyArtificial Intelligence Chapter 9 Negnevitsky
Artificial Intelligence Chapter 9 Negnevitsky
 
About SVM
About SVMAbout SVM
About SVM
 
Svm my
Svm mySvm my
Svm my
 
Support Vector Machine
Support Vector MachineSupport Vector Machine
Support Vector Machine
 
Lecture12 - SVM
Lecture12 - SVMLecture12 - SVM
Lecture12 - SVM
 
Support Vector Machines (SVM) - Text Analytics algorithm introduction 2012
Support Vector Machines (SVM) - Text Analytics algorithm introduction 2012Support Vector Machines (SVM) - Text Analytics algorithm introduction 2012
Support Vector Machines (SVM) - Text Analytics algorithm introduction 2012
 
Tweets Classification using Naive Bayes and SVM
Tweets Classification using Naive Bayes and SVMTweets Classification using Naive Bayes and SVM
Tweets Classification using Naive Bayes and SVM
 
Genetic Algorithm by Example
Genetic Algorithm by ExampleGenetic Algorithm by Example
Genetic Algorithm by Example
 
2013-1 Machine Learning Lecture 04 - Michael Negnevitsky - Artificial neur…
2013-1 Machine Learning Lecture 04 - Michael Negnevitsky - Artificial neur…2013-1 Machine Learning Lecture 04 - Michael Negnevitsky - Artificial neur…
2013-1 Machine Learning Lecture 04 - Michael Negnevitsky - Artificial neur…
 
Marketing Research - Perceptual Map
Marketing Research - Perceptual MapMarketing Research - Perceptual Map
Marketing Research - Perceptual Map
 

Bayes Aglari

  • 2. BAYESCĠ AĞLAR   Ġnanç ağları (belief networks) olarak da bilinen Bayesci Ağlar, olasılıksal grafik modelleri ailesinin bir üyesidir.  Olasılıksal grafik modelleri, ilgilenilen problemin kesin olmayan tanım kümesi hakkındaki bilgiyi temsil etmek için kullanılır.  Bu grafiklerde düğümler (nodes) raslantı değiĢkenlerini, düğümler arasındaki bağlar (edges) ise raslantı değiĢkenleri arasındaki olasılıksal bağımlılık durumlarını gösterir.
  • 3. BAYESCĠ AĞLAR   Bayesci ağlar, “Yönlü Dönüşsüz Grafik (Directed Acyclic Graph [DAG])” olarak bilinen bir grafiksel model yapısına sahiptir.  Bu ağlar, bir raslantı değiĢkenleri kümesinin çok değiĢkenli olasılık dağılımının etkili bir gösteriminin ve bu gösterim üzerinden çeĢitli hesaplamaların yapılmasını sağlar.  Bayesci ağlar, uzman sistemlerinde, kesin olmayan uzman görüĢlerinin sisteme girmesini sağlayan önemli bir yöntemdir.
  • 4. TEMEL KAVRAMLARKOġULLU OLASILIK, BAYES KURALI   Bayesci hesaplamalarda kullanılan temel kavram «koĢullu olasılık» tır. «P(a|b)=x : b olayı bilindiğinde, a olayının gerçekleşme olasılığı x’tir» P ab P a,b P b  a ve b olayları baĢka bir c olayına koĢullu olabilir. P a b,c P a,b|c P b|c  Bu durumda ilk eĢitlik için Bayes kuralı:  Ġkinci eĢitlik için Bayes kuralı: P b a,c P ba P ab P b P a P a|b,c P b c P a|c
  • 5. TEMEL KAVRAMLAR-DAG  kümesi  DAG yapısı, düğümler ve yönlendirilmiĢ bağlar kümesi olmak üzere iki kümeden oluĢur.  Düğümler, raslantı değiĢkenlerini temsil eder ve daire biçiminde gösterilir.  Bağlar ise, değiĢkenler arasındaki doğrudan bağımlılıkları belirtir ve düğümler arasında çizilen oklarla gösterilir.  Xi ve Xj , ağdaki iki düğüm olmak üzere, Xi düğümünden Xj düğümüne doğru çizilen bir bağ, karĢılık geldikleri değiĢkenler arasındaki istatistiksel bağımlılığın bir göstergesidir.
  • 6. TEMEL KAVRAMLAR-DAG   Xi düğümünün, Xj düğümünün ebeveyni (parent); Xi düğümünün ise Xi düğümünün çocuğu (child) olduğu söylenebilir.  Ayrıca, ağdaki bir düğümden çıkan yol üzerinde yer alan düğümler kümesi “soy düğümler (descendants)”, bir düğüme gelen yol üzerinde yer alan düğümler kümesi ise “ata düğümler (ancestors)” olarak tanımlanabilir.  DönüĢsüz grafik yapısı, bir düğümün, kendisinin soy ya da ata düğümü olmasına izin vermez. Bu durum, düğümlerin çok değiĢkenli olasılık dağılımlarının çarpanlara ayrılmasında önemlidir.
  • 7. TEMEL KAVRAMLARKOġULLU BAĞIMSIZLIK   KoĢullu bağımsızlık, bir değiĢkenin ebeveynlerinin durumları bilindiğinde, bu değiĢkenin, soy değiĢkenleri dıĢındaki değiĢkenlerden bağımsız olduğu anlamına gelmektedir.  Bu özellik, değiĢkenlerin çok değiĢkenli olasılık dağılımının hesaplanmasında kullanılan parametre sayısının azalmasını sağlar.
  • 8. TEMEL KAVRAMLARKOġULLU BAĞIMSIZLIK  X, Y, Z raslantı değişkenlerinin tanım kümeleri sırasıyla U X ,U Y ,U Z Bu raslantı değişkenlerinin çok değişkenli olasılık fonksiyonu P X, Y,Z Bu değişkenlerin aldığı tüm x UX , y PX ,Y ,Z x, y,z UY , z UZ değerleri için PX Z x z PY Z y z PZ z yazılabiliyorsa Z bilindiğinde, X ve Y’nin koşullu bağımsız olduğu söylenir ve X X x Y Z biçiminde yazılır. Y Z ise PY Z y z UX , y UY , z 0 ve PZ z 0 eşitsizliklerini sağlayan tüm UZ değerleri için PX Y,Z x y, z PX Z x z yazılabilir.
  • 9. TEMEL KAVRAMLARKOġULLU OLASILIK TABLOSU   Bayesci ağların nitel kısmı olarak tanımlanan DAG yapısına ek olarak, bu ağların nicel kısmı olarak tanımlanan parametrelerin belirlenmesi gerekmektedir.  Bu parametreler, ağdaki her bir düğüme ait koĢullu olasılık dağılımlarıdır.  Her bir değiĢken için bu koĢullu olasılıklar, yalnızca kendi ebeveynlerine bağlı olarak tanımlanır.  DeğiĢkenler kesikli olduğunda, koĢullu olasılık dağılımları tablo biçiminde gösterilir.  Bu tablolarda, ebeveynlerinin aldığı değerlere göre her bir değiĢkenin aldığı değerler ve bu değerleri alma olasılıkları yer alır. Bu tablolara “koşullu olasılık tablosu (conditional probability tables [CPT]) ” adı verilir
  • 10. BAYESCĠ AĞLARTANIM VE ÖZELLĠKLER Bir Bayesci ağ, bir V  X1,,Xn raslantı değişkenleri kümesine ilişkin çok değişkenli olasılık dağılımını temsil eden bir DAG’dır. Ağ, G ve olmak üzere iki bileşenden oluşur ve BN G, biçiminde gösterilir. İlk bileşen G, düğümlerin X1,, Xn raslantı değişkenlerini, düğümler arasındaki bağların ise bu değişkenler arasındaki doğrudan bağımlılıkları gösterdiği bir grafik yapısıdır. G grafiği koşullu bağımsızlık varsayımlarını içerir. Bayesci ağların ikinci bileşeni , ağdaki parametrelerin kümesini gösterir. Bu parametreler, Bayesci ağdaki her bir X i raslantı değişkenine ilişkin koşullu olasılık dağılımlarıdır.
  • 11. BAYESCĠ AĞLARTANIM VE ÖZELLĠKLER  Bir Xi raslantı değişkeni için koşullu olasılık dağılımı, ebeveynlerinin kümesi i olmak üzere, xi i PBN Xi i X i ’nin G’deki biçiminde tanımlanır. Bir raslantı değişkeninin verilen Bayesci ağda bir ebeveyni yoksa bu raslantı değişkeni için koşullu olasılık dağılımı, marjinal olasılık dağılımına karşılık gelir. Her bir değişkene ait marjinal ya da koşullu olasılık dağılımları genel olarak “yerel olasılık dağılımları (local probability distributions)” olarak adlandırılır.
  • 12. BAYESCĠ AĞLARTANIM VE ÖZELLĠKLER  Bu parametrelerden ve Bayesci ağ yapısından yararlanarak, V X1,,Xn için tek bir çok değişkenli olasılık dağılımı tanımlanır ve bu dağılım aşağıdaki eşitlikten yararlanılarak elde edilir. Çok değişkenli olasılık dağılımının bu eşitlikten elde edilmesi “zincir kuralı (chain rule)” olarak adlandırılır . n P X1,, Xn n P Xi i 1 i i 1 Xi i
  • 13. BAYESCĠ AĞLARÖRNEK   Bir kiĢinin belinin incinmesine neden olan olaylar incelenmek istensin.  Bel incinmesi olayı “Bel (B)” değiĢkeni ile gösterilsin.  Bel incinmesi bel ağrısına neden olabilir. Bel ağrısı, “Ağrı (A)” değiĢkeni ile gösterilsin.  Bel incinmesinin nedeni yanlıĢ yapılan spor aktivitesi olabilir. Bu olay, “Spor (Sp)” değiĢkeni ile temsil edilsin.  Diğer bir neden ise, kiĢinin iĢ yerinde oturduğu sandalyenin konforsuz olması olabilir. KiĢinin sandalyesinin konforsuz olması durumu, “Sandalye (Sa)” değiĢkeni ile gösterilsin. Bu neden söz konusu olduğunda, bu kiĢinin iĢ arkadaĢlarının da benzer bir bel problemine sahip olup olmadıkları da araĢtırılabilir. Bu durumda ilgili değiĢken “İş Arkadaşı (İa)” olarak alınabilir.  Bu problemdeki tüm değiĢkenler iki düzeyli ve bu düzeyler “Doğru (D)” ve “YanlıĢ (Y)” biçimindedir.
  • 14. • • D Sa P İa Y P Sp D P Sp P A DB P A Sa ve Sp değiĢkenleri marjinal olarak bağımsızdır ancak B değiĢkeni verildiğinde bu değiĢkenler koĢullu bağımlı olur. • Sa değiĢkeni verildiğinde, Ġa ve B değiĢkenleri koĢullu bağımsız olur. B verildiğinde ise A değiĢkeni, Sa ve Sp değiĢkenlerinden koĢullu bağımsız olur. Y P B Y Sa KoĢullu bağımsızlık varsayımından yararlanarak, • P İa D P Sa Bu örnekte B düğümünün ebeveynleri Sa ve Sp’dir. A düğümü, B’nin çocuğu; Ġa’nın ebeveyni ise Sa’dır. • P Sa Tüm düğümler için CPT, ilgili düğümün yanında verilmiĢtir. D Sa,Sp P B Y Sa,Sp YB Çok değişkenli olasılık dağılımı: P Sa,Sp,İa,B,A P Sa P Sp P İa Sp,Sa P B İa,Sp,Sa P A B,İa,Sp,Sa Koşullu bağımsızlık özelliğinden yararlanılarak: P Sa,Sp,İa,B,A P Sa P Sp P İa Sa P B Sp,Sa P A B Böylece, modeldeki parametre sayısı 25 1 31 ’den 10’a düşer. Parametre sayısında bu azalış modeldeki çıkarsamaların, hesaplamaların ve öğrenmenin gerçekleştirilmesinde büyük kolaylıklar sağlar.
  • 15. BAYESCĠ AĞLARD-AYRILIK ÖZELLĠĞĠ   Bir Bayesci ağa yeni bilgi girdiğinde ağdaki değiĢkenlerin bağımsızlık durumuna d-ayrılık özelliğinden yararlanılarak karar verilir.  Nedensel bir ağda yer alan iki değiĢken A ve B olmak üzere, bu değiĢkenler arasındaki tüm yolları kesen bir C değiĢkeni varsa ve  A ile B arasında dizisel (serial) ya da yayılan (diverging) bağ varsa ve C’nin durumu biliniyorsa ya da  A ile B arasında birleĢen (converging) bağ varsa ve C ya da C’nin soy düğümleri hakkında herhangi bir bilgi yoksa, A ile B değiĢkenlerinin “d-ayrı (d-seperated)” olduğu söylenebilir. A ile B, d-ayrı değil ise, “d-bağlı (d-connected)”dır. Dizisel Bağ: Ayrılan Bağ: BirleĢen Bağ:
  • 16. BAYESCĠ AĞLARDA ÇIKARSAMA   Bayesci ağlarda çıkarsamalar, ilgilenilen değiĢkenlerin marjinal dağılımları hesaplanarak (ilgisiz değiĢkenler üzerinden çok değiĢkenli olasılık dağılımının toplamı alınarak) yapılır.  Bayesci ağlarda çıkarsamalar en genel anlamda iki Ģekilde gerçekleĢtirilir.  Bunlardan ilkinde, bir düğüme ebeveyn düğümleri vasıtasıyla bağlı olan bilgi düğümlerinden yararlanılarak gerçekleĢtirilir. Bu hesaplama yöntemi, “yukarıdan aĢağıya çıkarsama” olarak adlandırılır.  Diğer çıkarsama yönteminde ise, bir düğüme çocuk düğümleri vasıtasıyla bağlı olan bilgi düğümlerine dayanır. Bu yöntem “aĢağıdan yukarıya çıkarsama” olarak adlandırılır
  • 17. BAYESCĠ AĞLARDA ÇIKARSAMA  Bir kişinin sırt ağrısı çektiği bilindiğinde ofis sandalyelerinin konforsuz olma olasılığı aşağıdaki gibi hesaplanır. P Sa D A P Sa D,A D P Sa D,A P A D D P Sa D P Sp P İa D P B Sp,Sa D P A D DB Sp,İa,B D,Y P A P Sa P Sp P İa Sa P B Sp,Sa P A D DB Sp,İa,B,Sa D,Y Değişkenlerin iki durumu olduğunda dahi, yukarıdaki eşitliklerden de görüldüğü gibi, çok değişkenli olasılık dağılımı üzerinden marjinal ve koşullu dağılımları hesaplamak zor ve karmaşıktır. Çok değişkenli olasılık dağılımı üzerinden işlem yapma süresi, değişken sayısına göre üstel olarak artar. Tüm değişkenler üzerinden toplam alma işlemi “tam çıkarsama (exact inferfence)” olarak bilinir ve zor bir problemdir. Bu nedenle literatürde, tam çıkarsama problemlerini ağları sınıflandırarak çözen etkili algoritmalar önerilmiştir.
  • 18. BAYESCĠ AĞLARDA ÇIKARSAMA   Bayesci ağ yapısının oluĢturulması ve ağdaki parametrelerin belirlenmesi için uzman görüĢlerinden yararlanılır.  Ancak, uygun uzman görüĢüne ulaĢmak her zaman mümkün değildir.  Güncel uygulamaların çoğunda, konu ile ilgili yeterli uzman görüĢü elde edilemediği için Bayesci ağların oluĢturulmasında veri kümesinden yararlanmak gerekmektedir.  Bu konu “Bayesci ağlarda öğrenme problemi” olarak bilinir ve veri ile önsel bilgi (uzman görüĢü, nedensel iliĢkiler) verildiğinde ağ yapısının ve parametrelerin tahmin edilmesi olarak tanımlanır.
  • 19. BAYESCĠ AĞLARDA ÖĞRENME   Ağ yapısının öğrenilmesi, parametrelerin öğrenilmesinden daha zor bir problemdir. Ayrıca, gizli düğümler ya da kayıp veri gibi kısmi gözlenebilirlik durumu söz konusu olduğunda baĢka zorluklar da ortaya çıkar. Genellikle, farklı öğrenme yöntemlerinin önerildiği dört farklı öğrenme durumu söz konusudur. Durum BN Yapısı Gözlenebilirlik Önerilen öğrenme yöntemi 1 Biliniyor Tam En çok olabilirlik tahmini 2 Biliniyor Kısmi EM ya da MCMC 3 Bilinmiyor Tam Model uzayının araştırılması 4 Bilinmiyor Kısmi EM+Model uzayının araştırılması
  • 20. BAYESCĠ AĞLARDA ÖĞRENME   Bayesci ağ yapısının öğrenilmesinde verilen bir D={x1, x2, …, xn} öğrenme veri kümesi için em uygun «B» Bayesci ağının bulunması amaçlanır.  Bunun için de genellikle bir skor fonksiyonundan yararlanılır. Bu skor fonksiyonlarından en sık kullanılanlar: Bayesci skor fonksiyonu ve en küçük tanım uzunluğu (minimum discription length-MDL) ilkesine dayalı bir fonksiyondur.  MDL ilkesi veriyi özetlemeye dayalı olarak öğrenmeyi gerçekleĢtirir. Bu ilkede amaç, orijinal verinin en kısa tanımını yapabilmektir.
  • 21. BAYESCĠ AĞLARDA ÖĞRENME   B=(G, Θ) bir Bayesci ağ ve D={x1, x2, …, xn} öğrenme veri kümesi olsun. D verildiğinde B ağına iliĢkin MDL skor fonksiyonu: log N B LL B D 2  |B|, ağdaki parametre sayısıdır.  LL(B|D) ise D bilindiğinde B’nin logaritmik olabilirlik fonksiyonudur: MDL B D LL B D N i 1 log PB x i
  • 22. BAYESCĠ AĞ SINIFLANDIRICISI   Bir Bayesci ağ sınıflandırıcısı, C sınıf değiĢkeni, X1, …, Xn diğer değiĢkenler olmak üzere X=(X1, …, Xn, C) değiĢken kümesi için bir Bayesci ağdır.  Önceki bölümde verilen öğrenme yöntemleri ile belirlenen ve P(X1, X2, …, Xn, C) olasılığını modelleyen Bayesci ağ B olsun.  Bu sınıflandırıcı, B modeli üzerinden PB(c| x1, x2, …, xn) sonsal olasılığını maksimum yapan c sınıflarını belirler. arg max PB C|X1, X 2 ,, X n C  Literatürde, sınıflandırma için kullanılan Bayesci ağ yapısını belirleyen bir çok farklı yaklaĢım vardır.
  • 23. BAYESCĠ AĞ SINIFLANDIRICISI – NAIVE BAYES SINIFLANDIRICISI   Naive Bayesci ağlarda, her Xi değiĢkeninin tek ebeveyni C sınıf değiĢkenidir.  Diğer sınıflandırıcıların aksine, oluĢturulması kolaydır, yapısı önceden belirlenmiĢtir.  Tüm Xi değiĢkenlerinin bağımsız olduğu varsayılır. Gerçeğe çok uygun bir varsayım olmamasına rağmen, değiĢkenler arasında çok güçlü iliĢkiler olmadığı sürece diğer bir çok sınıflandırıcıdan daha iyi sonuçlar vermektedir.
  • 24. BAYESCĠ AĞ SINIFLANDIRICISI – TREE AUGMENTED NAIVE (TAN) BAYES SINIFLANDIRICISI   TAN sınıflandırıcısında her bir Xi değiĢkeninin bir ya da iki ebeveyni vardır. Bunlardan bir tanesi sınıf değiĢkeni C, diğeri ise iliĢkili olduğu baĢka bir Xj (i≠j) değiĢkenidir.  DeğiĢkenler arasında Naive Bayes sınıflandırıcısı ile modellenemeyecek kadar güçlü iliĢkiler olması durumunda TAN sınıflandırıcısı kullanılır.  C sınıf değiĢkenine ek olarak değiĢkenler arasına yeni bağlar eklenebilir ancak bu yeni ağlar ağaç yapısını bozmamalıdır.
  • 25. BAYESCĠ AĞ SINIFLANDIRICISI – TREE AUGMENTED NAIVE (TAN) BAYES SINIFLANDIRICISI   En iyi TAN sınıflandırıcısını bulmada kullanılan bir algoritmada, logaritmik olabilirlik fonksiyonu maksimize edilmeye çalıĢılır. Bu algoritmada temel düĢünce ilk olarak tam bir ağırlıklandırılmıĢ yönsüz bir grafik oluĢturmaktır. Bu grafikte Xi ile Xj değiĢkeni arasındaki bağ, C sınıf değiĢkeni verildiğin de Xi ile Xj arasındaki koĢullu karĢılıklı bilgidir. Daha sonra, farklı bir algoritma (MWST) ile değiĢkenler arasındaki bağların yönü belirlenir.
  • 26. BAYESCĠ AĞ SINIFLANDIRICISI – BN AUGMENTED NAIVE BAYES (BAN) SINIFLANDIRICISI   BAN sınıflandırıcısının TAN sınıflandırıcısından farkı, değiĢkenler arasındaki bağların ağaç yapısında olma zorunluluğunun olmamasıdır.  MDL skor fonksiyonu ya da CI (conditional independence) testi yardımıyla BAN’ın sınıflandırma performansı araĢtırılabilir.
  • 27. BAYESCĠ AĞ SINIFLANDIRICISI – BAYESIAN MULTI NET   Bu sınıflandırıcı, C sınıf değiĢkeninin her bir düzeyi için farklı bir Bayesci ağ oluĢturur.  BAN sınıflandırıcılarının genelleĢtirilmiĢ halidir.  C’nin her bir düzeyi için farklı bir grafik yapısı oluĢturulabilir.  DeğiĢkenler arasındaki iliĢkiler için bir kısıt yoktur.
  • 28. BAYESCĠ AĞ SINIFLANDIRICISI – GENEL BAYESCĠ AĞ (GBN)   Kısıtsız bir BN sınıflandırıcısıdır.  Bundan önceki sınıflandırıcılarda, sınıf değiĢkeni özel bir değiĢkendir. GBN, sınıf değiĢkenini düğer değiĢkenlerden ayırmaz. Sınıf değiĢkeninin tüm değiĢkenlerin ebeveyni olma zorunluluğu yoktur.