2. BAYESCĠ AĞLAR
Ġnanç ağları (belief networks) olarak da bilinen Bayesci
Ağlar, olasılıksal grafik modelleri ailesinin bir üyesidir.
Olasılıksal grafik modelleri, ilgilenilen problemin kesin
olmayan tanım kümesi hakkındaki bilgiyi temsil etmek
için kullanılır.
Bu grafiklerde düğümler (nodes) raslantı değiĢkenlerini,
düğümler arasındaki bağlar (edges) ise raslantı
değiĢkenleri arasındaki olasılıksal bağımlılık durumlarını
gösterir.
3. BAYESCĠ AĞLAR
Bayesci ağlar, “Yönlü Dönüşsüz Grafik (Directed
Acyclic Graph [DAG])” olarak bilinen bir grafiksel
model yapısına sahiptir.
Bu ağlar, bir raslantı değiĢkenleri kümesinin çok
değiĢkenli olasılık dağılımının etkili bir gösteriminin ve
bu
gösterim
üzerinden
çeĢitli
hesaplamaların
yapılmasını sağlar.
Bayesci ağlar, uzman sistemlerinde, kesin olmayan
uzman görüĢlerinin sisteme girmesini sağlayan önemli
bir yöntemdir.
4. TEMEL KAVRAMLARKOġULLU OLASILIK, BAYES KURALI
Bayesci hesaplamalarda kullanılan temel kavram «koĢullu olasılık» tır.
«P(a|b)=x : b olayı bilindiğinde, a olayının gerçekleşme olasılığı x’tir»
P ab
P a,b
P b
a ve b olayları baĢka bir c olayına koĢullu olabilir.
P a b,c
P a,b|c
P b|c
Bu durumda ilk eĢitlik için Bayes kuralı:
Ġkinci eĢitlik için Bayes kuralı: P b a,c
P ba
P ab P b
P a
P a|b,c P b c
P a|c
5. TEMEL KAVRAMLAR-DAG
kümesi
DAG yapısı, düğümler
ve yönlendirilmiĢ bağlar
kümesi olmak üzere iki kümeden oluĢur.
Düğümler, raslantı değiĢkenlerini temsil eder ve daire
biçiminde gösterilir.
Bağlar ise, değiĢkenler arasındaki doğrudan bağımlılıkları
belirtir ve düğümler arasında çizilen oklarla gösterilir.
Xi ve Xj , ağdaki iki düğüm olmak üzere, Xi düğümünden Xj
düğümüne doğru çizilen bir bağ, karĢılık geldikleri değiĢkenler
arasındaki istatistiksel bağımlılığın bir göstergesidir.
6. TEMEL KAVRAMLAR-DAG
Xi düğümünün, Xj düğümünün ebeveyni (parent);
Xi
düğümünün ise Xi düğümünün çocuğu (child) olduğu
söylenebilir.
Ayrıca, ağdaki bir düğümden çıkan yol üzerinde yer alan
düğümler kümesi “soy düğümler (descendants)”, bir düğüme
gelen yol üzerinde yer alan düğümler kümesi ise “ata
düğümler (ancestors)” olarak tanımlanabilir.
DönüĢsüz grafik yapısı, bir düğümün, kendisinin soy ya da ata
düğümü olmasına izin vermez. Bu durum, düğümlerin çok
değiĢkenli olasılık dağılımlarının çarpanlara ayrılmasında
önemlidir.
7. TEMEL KAVRAMLARKOġULLU BAĞIMSIZLIK
KoĢullu bağımsızlık, bir değiĢkenin ebeveynlerinin
durumları bilindiğinde, bu değiĢkenin, soy değiĢkenleri
dıĢındaki değiĢkenlerden bağımsız olduğu anlamına
gelmektedir.
Bu özellik, değiĢkenlerin çok değiĢkenli olasılık dağılımının
hesaplanmasında kullanılan parametre sayısının azalmasını
sağlar.
8. TEMEL KAVRAMLARKOġULLU BAĞIMSIZLIK
X, Y, Z raslantı değişkenlerinin tanım kümeleri sırasıyla U X ,U Y ,U Z
Bu raslantı değişkenlerinin çok değişkenli olasılık fonksiyonu P X, Y,Z
Bu değişkenlerin aldığı tüm x
UX , y
PX ,Y ,Z x, y,z
UY , z
UZ değerleri için
PX Z x z PY Z y z PZ z
yazılabiliyorsa Z bilindiğinde, X ve Y’nin koşullu bağımsız olduğu söylenir
ve X
X
x
Y Z biçiminde yazılır.
Y Z ise PY Z y z
UX , y
UY , z
0 ve PZ z
0 eşitsizliklerini sağlayan tüm
UZ değerleri için PX Y,Z x y, z
PX Z x z yazılabilir.
9. TEMEL KAVRAMLARKOġULLU OLASILIK TABLOSU
Bayesci ağların nitel kısmı olarak tanımlanan DAG yapısına ek
olarak, bu ağların nicel kısmı olarak tanımlanan parametrelerin
belirlenmesi gerekmektedir.
Bu parametreler, ağdaki her bir düğüme ait koĢullu olasılık
dağılımlarıdır.
Her bir değiĢken için bu koĢullu olasılıklar, yalnızca kendi
ebeveynlerine bağlı olarak tanımlanır.
DeğiĢkenler kesikli olduğunda, koĢullu olasılık dağılımları tablo
biçiminde gösterilir.
Bu tablolarda, ebeveynlerinin aldığı değerlere göre her bir
değiĢkenin aldığı değerler ve bu değerleri alma olasılıkları yer
alır. Bu tablolara “koşullu olasılık tablosu (conditional
probability tables [CPT]) ” adı verilir
10. BAYESCĠ AĞLARTANIM VE ÖZELLĠKLER
Bir Bayesci ağ, bir V
X1,,Xn
raslantı değişkenleri kümesine ilişkin çok
değişkenli olasılık dağılımını temsil eden bir DAG’dır.
Ağ, G ve
olmak üzere iki bileşenden oluşur ve BN
G,
biçiminde
gösterilir.
İlk bileşen G, düğümlerin X1,, Xn raslantı değişkenlerini, düğümler arasındaki
bağların ise bu değişkenler arasındaki doğrudan bağımlılıkları gösterdiği bir
grafik yapısıdır. G grafiği koşullu bağımsızlık varsayımlarını içerir.
Bayesci ağların ikinci bileşeni
, ağdaki parametrelerin kümesini gösterir. Bu
parametreler, Bayesci ağdaki her bir X i raslantı değişkenine ilişkin koşullu
olasılık dağılımlarıdır.
11. BAYESCĠ AĞLARTANIM VE ÖZELLĠKLER
Bir
Xi
raslantı değişkeni için koşullu olasılık dağılımı,
ebeveynlerinin kümesi
i
olmak üzere,
xi
i
PBN Xi
i
X i ’nin G’deki
biçiminde tanımlanır.
Bir raslantı değişkeninin verilen Bayesci ağda bir ebeveyni yoksa bu raslantı
değişkeni için koşullu olasılık dağılımı, marjinal olasılık dağılımına karşılık
gelir.
Her bir değişkene ait marjinal ya da koşullu olasılık dağılımları genel olarak
“yerel olasılık dağılımları (local probability distributions)” olarak adlandırılır.
12. BAYESCĠ AĞLARTANIM VE ÖZELLĠKLER
Bu parametrelerden ve Bayesci ağ yapısından yararlanarak, V
X1,,Xn
için tek bir çok değişkenli olasılık dağılımı tanımlanır ve bu dağılım aşağıdaki
eşitlikten yararlanılarak elde edilir.
Çok değişkenli olasılık dağılımının bu eşitlikten elde edilmesi “zincir kuralı
(chain rule)” olarak adlandırılır .
n
P X1,, Xn
n
P Xi
i 1
i
i 1
Xi
i
13. BAYESCĠ AĞLARÖRNEK
Bir kiĢinin belinin incinmesine neden olan olaylar incelenmek istensin.
Bel incinmesi olayı “Bel (B)” değiĢkeni ile gösterilsin.
Bel incinmesi bel ağrısına neden olabilir. Bel ağrısı, “Ağrı (A)” değiĢkeni
ile gösterilsin.
Bel incinmesinin nedeni yanlıĢ yapılan spor aktivitesi olabilir. Bu olay,
“Spor (Sp)” değiĢkeni ile temsil edilsin.
Diğer bir neden ise, kiĢinin iĢ yerinde oturduğu sandalyenin konforsuz
olması olabilir. KiĢinin sandalyesinin konforsuz olması durumu,
“Sandalye (Sa)” değiĢkeni ile gösterilsin. Bu neden söz konusu
olduğunda, bu kiĢinin iĢ arkadaĢlarının da benzer bir bel problemine
sahip olup olmadıkları da araĢtırılabilir. Bu durumda ilgili değiĢken “İş
Arkadaşı (İa)” olarak alınabilir.
Bu problemdeki tüm değiĢkenler iki düzeyli ve bu düzeyler “Doğru (D)”
ve “YanlıĢ (Y)” biçimindedir.
14. •
•
D Sa P İa
Y
P Sp
D P Sp
P A
DB
P A
Sa ve Sp değiĢkenleri
marjinal olarak bağımsızdır
ancak B değiĢkeni
verildiğinde bu değiĢkenler
koĢullu bağımlı olur.
•
Sa değiĢkeni verildiğinde,
Ġa ve B değiĢkenleri koĢullu
bağımsız olur. B
verildiğinde ise A
değiĢkeni, Sa ve Sp
değiĢkenlerinden koĢullu
bağımsız olur.
Y
P B
Y Sa
KoĢullu bağımsızlık
varsayımından
yararlanarak,
•
P İa
D P Sa
Bu örnekte B düğümünün
ebeveynleri Sa ve Sp’dir. A
düğümü, B’nin çocuğu;
Ġa’nın ebeveyni ise Sa’dır.
•
P Sa
Tüm düğümler için CPT,
ilgili düğümün yanında
verilmiĢtir.
D Sa,Sp
P B
Y Sa,Sp
YB
Çok değişkenli olasılık dağılımı:
P Sa,Sp,İa,B,A
P Sa P Sp P İa Sp,Sa P B İa,Sp,Sa P A B,İa,Sp,Sa
Koşullu bağımsızlık özelliğinden yararlanılarak:
P Sa,Sp,İa,B,A
P Sa P Sp P İa Sa P B Sp,Sa P A B
Böylece, modeldeki parametre sayısı
25 1 31 ’den 10’a düşer. Parametre
sayısında bu azalış modeldeki çıkarsamaların, hesaplamaların ve öğrenmenin
gerçekleştirilmesinde büyük kolaylıklar sağlar.
15. BAYESCĠ AĞLARD-AYRILIK ÖZELLĠĞĠ
Bir Bayesci ağa yeni bilgi girdiğinde
ağdaki
değiĢkenlerin
bağımsızlık
durumuna
d-ayrılık
özelliğinden
yararlanılarak karar verilir.
Nedensel bir ağda yer alan iki değiĢken A
ve B olmak üzere, bu değiĢkenler
arasındaki tüm yolları kesen bir C
değiĢkeni varsa ve
A ile B arasında dizisel (serial) ya da
yayılan (diverging) bağ varsa ve C’nin
durumu biliniyorsa ya da
A ile B arasında birleĢen (converging)
bağ varsa ve C ya da C’nin soy
düğümleri hakkında herhangi bir
bilgi yoksa,
A ile B değiĢkenlerinin “d-ayrı (d-seperated)”
olduğu söylenebilir. A ile B, d-ayrı değil ise,
“d-bağlı (d-connected)”dır.
Dizisel Bağ:
Ayrılan Bağ:
BirleĢen Bağ:
16. BAYESCĠ AĞLARDA ÇIKARSAMA
Bayesci ağlarda çıkarsamalar, ilgilenilen değiĢkenlerin marjinal
dağılımları hesaplanarak (ilgisiz değiĢkenler üzerinden çok
değiĢkenli olasılık dağılımının toplamı alınarak) yapılır.
Bayesci ağlarda çıkarsamalar en genel anlamda iki Ģekilde
gerçekleĢtirilir.
Bunlardan ilkinde, bir düğüme ebeveyn düğümleri vasıtasıyla
bağlı olan bilgi düğümlerinden yararlanılarak gerçekleĢtirilir.
Bu hesaplama yöntemi, “yukarıdan aĢağıya çıkarsama” olarak
adlandırılır.
Diğer çıkarsama yönteminde ise, bir düğüme çocuk düğümleri
vasıtasıyla bağlı olan bilgi düğümlerine dayanır. Bu yöntem
“aĢağıdan yukarıya çıkarsama” olarak adlandırılır
17. BAYESCĠ AĞLARDA ÇIKARSAMA
Bir kişinin sırt ağrısı çektiği bilindiğinde ofis sandalyelerinin konforsuz olma olasılığı aşağıdaki gibi
hesaplanır.
P Sa D A
P Sa D,A
D
P Sa D,A
P A
D
D
P Sa D P Sp P İa D P B Sp,Sa D P A
D
DB
Sp,İa,B D,Y
P A
P Sa P Sp P İa Sa P B Sp,Sa P A
D
DB
Sp,İa,B,Sa D,Y
Değişkenlerin iki durumu olduğunda dahi, yukarıdaki eşitliklerden de görüldüğü gibi, çok değişkenli olasılık
dağılımı üzerinden marjinal ve koşullu dağılımları hesaplamak zor ve karmaşıktır. Çok değişkenli olasılık
dağılımı üzerinden işlem yapma süresi, değişken sayısına göre üstel olarak artar. Tüm değişkenler
üzerinden toplam alma işlemi “tam çıkarsama (exact inferfence)” olarak bilinir ve zor bir problemdir. Bu
nedenle literatürde, tam çıkarsama problemlerini ağları sınıflandırarak çözen etkili algoritmalar önerilmiştir.
18. BAYESCĠ AĞLARDA ÇIKARSAMA
Bayesci ağ yapısının oluĢturulması ve ağdaki parametrelerin
belirlenmesi için uzman görüĢlerinden yararlanılır.
Ancak, uygun uzman görüĢüne ulaĢmak her zaman mümkün
değildir.
Güncel uygulamaların çoğunda, konu ile ilgili yeterli uzman
görüĢü elde edilemediği için Bayesci ağların oluĢturulmasında
veri kümesinden yararlanmak gerekmektedir.
Bu konu “Bayesci ağlarda öğrenme problemi” olarak bilinir ve
veri ile önsel bilgi (uzman görüĢü, nedensel iliĢkiler)
verildiğinde ağ yapısının ve parametrelerin tahmin edilmesi
olarak tanımlanır.
19. BAYESCĠ AĞLARDA ÖĞRENME
Ağ yapısının öğrenilmesi, parametrelerin öğrenilmesinden daha zor bir
problemdir. Ayrıca, gizli düğümler ya da kayıp veri gibi kısmi
gözlenebilirlik durumu söz konusu olduğunda baĢka zorluklar da
ortaya çıkar. Genellikle, farklı öğrenme yöntemlerinin önerildiği dört
farklı öğrenme durumu söz konusudur.
Durum BN Yapısı Gözlenebilirlik Önerilen öğrenme yöntemi
1
Biliniyor
Tam
En çok olabilirlik tahmini
2
Biliniyor
Kısmi
EM ya da MCMC
3
Bilinmiyor
Tam
Model uzayının araştırılması
4
Bilinmiyor
Kısmi
EM+Model uzayının araştırılması
20. BAYESCĠ AĞLARDA ÖĞRENME
Bayesci ağ yapısının öğrenilmesinde verilen bir D={x1, x2, …, xn}
öğrenme veri kümesi için em uygun «B» Bayesci ağının bulunması
amaçlanır.
Bunun için de genellikle bir skor fonksiyonundan yararlanılır. Bu skor
fonksiyonlarından en sık kullanılanlar: Bayesci skor fonksiyonu ve en
küçük tanım uzunluğu (minimum discription length-MDL) ilkesine
dayalı bir fonksiyondur.
MDL ilkesi veriyi özetlemeye dayalı olarak öğrenmeyi gerçekleĢtirir. Bu
ilkede amaç, orijinal verinin en kısa tanımını yapabilmektir.
21. BAYESCĠ AĞLARDA ÖĞRENME
B=(G, Θ) bir Bayesci ağ ve D={x1, x2, …, xn} öğrenme veri
kümesi olsun. D verildiğinde B ağına iliĢkin MDL skor
fonksiyonu:
log N
B LL B D
2
|B|, ağdaki parametre sayısıdır.
LL(B|D) ise D bilindiğinde B’nin logaritmik olabilirlik
fonksiyonudur:
MDL B D
LL B D
N
i 1
log PB x i
22. BAYESCĠ AĞ SINIFLANDIRICISI
Bir Bayesci ağ sınıflandırıcısı, C sınıf değiĢkeni, X1, …, Xn diğer
değiĢkenler olmak üzere X=(X1, …, Xn, C) değiĢken kümesi için bir
Bayesci ağdır.
Önceki bölümde verilen öğrenme yöntemleri ile belirlenen ve
P(X1, X2, …, Xn, C) olasılığını modelleyen Bayesci ağ B olsun.
Bu sınıflandırıcı, B modeli üzerinden PB(c| x1, x2, …, xn) sonsal
olasılığını maksimum yapan c sınıflarını belirler.
arg max PB C|X1, X 2 ,, X n
C
Literatürde, sınıflandırma için kullanılan Bayesci ağ yapısını belirleyen
bir çok farklı yaklaĢım vardır.
23. BAYESCĠ AĞ SINIFLANDIRICISI –
NAIVE BAYES SINIFLANDIRICISI
Naive Bayesci ağlarda, her Xi değiĢkeninin tek ebeveyni C sınıf
değiĢkenidir.
Diğer sınıflandırıcıların aksine, oluĢturulması kolaydır, yapısı
önceden belirlenmiĢtir.
Tüm Xi değiĢkenlerinin bağımsız olduğu varsayılır. Gerçeğe
çok uygun bir varsayım olmamasına rağmen, değiĢkenler
arasında çok güçlü iliĢkiler olmadığı sürece diğer bir çok
sınıflandırıcıdan daha iyi sonuçlar vermektedir.
24. BAYESCĠ AĞ SINIFLANDIRICISI – TREE AUGMENTED
NAIVE (TAN) BAYES SINIFLANDIRICISI
TAN sınıflandırıcısında her bir Xi değiĢkeninin bir ya da iki ebeveyni
vardır. Bunlardan bir tanesi sınıf değiĢkeni C, diğeri ise iliĢkili
olduğu baĢka bir Xj (i≠j) değiĢkenidir.
DeğiĢkenler arasında Naive Bayes sınıflandırıcısı ile
modellenemeyecek kadar güçlü iliĢkiler olması durumunda TAN
sınıflandırıcısı kullanılır.
C sınıf değiĢkenine ek olarak değiĢkenler arasına yeni bağlar
eklenebilir ancak bu yeni ağlar ağaç yapısını bozmamalıdır.
25. BAYESCĠ AĞ SINIFLANDIRICISI – TREE
AUGMENTED NAIVE (TAN) BAYES
SINIFLANDIRICISI
En iyi TAN sınıflandırıcısını bulmada kullanılan bir algoritmada,
logaritmik olabilirlik fonksiyonu maksimize edilmeye çalıĢılır. Bu
algoritmada temel düĢünce ilk olarak tam bir ağırlıklandırılmıĢ yönsüz
bir grafik oluĢturmaktır. Bu grafikte Xi ile Xj değiĢkeni arasındaki bağ,
C sınıf değiĢkeni verildiğin de Xi ile Xj arasındaki koĢullu karĢılıklı
bilgidir. Daha sonra, farklı bir algoritma (MWST) ile değiĢkenler
arasındaki bağların yönü belirlenir.
26. BAYESCĠ AĞ SINIFLANDIRICISI – BN AUGMENTED
NAIVE BAYES (BAN) SINIFLANDIRICISI
BAN sınıflandırıcısının TAN sınıflandırıcısından farkı, değiĢkenler
arasındaki bağların ağaç yapısında olma zorunluluğunun
olmamasıdır.
MDL skor fonksiyonu ya da CI (conditional independence) testi
yardımıyla BAN’ın sınıflandırma performansı araĢtırılabilir.
27. BAYESCĠ AĞ SINIFLANDIRICISI – BAYESIAN
MULTI NET
Bu sınıflandırıcı, C sınıf değiĢkeninin her bir düzeyi için farklı bir
Bayesci ağ oluĢturur.
BAN sınıflandırıcılarının genelleĢtirilmiĢ halidir.
C’nin her bir düzeyi için farklı bir grafik yapısı oluĢturulabilir.
DeğiĢkenler arasındaki iliĢkiler için bir kısıt yoktur.
28. BAYESCĠ AĞ SINIFLANDIRICISI – GENEL
BAYESCĠ AĞ (GBN)
Kısıtsız bir BN sınıflandırıcısıdır.
Bundan önceki sınıflandırıcılarda, sınıf değiĢkeni özel bir
değiĢkendir. GBN, sınıf değiĢkenini düğer değiĢkenlerden
ayırmaz. Sınıf değiĢkeninin tüm değiĢkenlerin ebeveyni
olma zorunluluğu yoktur.