2. „A statisztikus gondolkodásmód egyszer majd ugyanolyan
létszükséglet lesz, mint az, hogy valaki írni és olvasni tud.”
(H. G. Wells)
Kutatómunkájához ajánlja a
Studium Alapítvány
7. Ajánlás
A marosvásárhelyi orvostanhallgató és gyógyszerészjelölt szá-
mára, akárcsak más egyetemek számos hallgatója esetében,
megkerülhetetlen kérdés az államvizsga megvédésekor, vagy
akár az azt megelőző TDK során: tartalmaz-e megfelelő sta-
tisztikai számításokat a dolgozata, vagy sem. Írott vagy íratlan
szabály szerint, a bíráló bizottság tagjainak erre a kérdéskörre
is oda kell figyelniük, és a kimerítő statisztikai számításokat
tartalmazó dolgozatokat pozitívan, míg az e téren hiányossá-
gokkal küszködőket negatívan kell értékelniük – legalábbis a
fenti szempontból.
Bár lépések történtek az irányba, hogy a diák elsajátítsa
a számára hasznos biometriai fogalmakat, és azokat alkal-
mazhatóvá tegye a tudományos kutatása során, talán nem
elég teljes és gyakorlatias ez a tevékenység. Emiatt alanyunk
sokszor értetlenül áll a valószínűségek és korrelációk világá-
ban, és számtalan esetben fennhangon hirdeti a szignifikáns
különbségeket anélkül, hogy bármely számítással rendelkezne
e „felelőtlen kijelentés” alátámasztására. Pedig a számokkal
való brillírozás helyett csupán egyetlen dolgot kell megérteni
és alaposan megértetni: még a legszembetűnőbb eredmények,
a legalapvetőbb különbözőségek is nélkülözik a tudományos
jelleget, hogyha alátámasztásukra semmilyen statisztikai ada-
tot sem tudunk felsorakoztatni.
Mi hát a teendő? Egyszerűen annyi, hogy a megírt dolgozat
tudományos színvonalát azáltal kell biztosítani, hogy legalább
egyszerű, hozzáférhető számítások elvégzésére kerüljön sor.
Hogy mi szükséges ehhez? Elsősorban alapismeretek elsa-
játítása a diák részéről és egy számítógép, amely rengeteg
adathalmaz felsorakoztatására képes ugyan, de arra már nem,
7
8. hogy magától eldöntse: mit számítson ki az adott helyzetben,
és hogyan értelmezze az eredményt. Ezért nála mindig fon-
tosabb marad az alkalmazó, aki lehet alapvető ismeretekkel
felvértezett diák, statisztikában jártas barát vagy szakember
egyaránt.
Koncsag Előd tömör, ám lényegre törő jegyzete hiánypótló-
nak tekinthető. Ahhoz segíti hozzá a diáktársat, saját tapasz-
talatából kiindulva, hogy a számítások labirintusában való
tévelygés helyett inkább az egyszerű megértés útját válassza. Ily
módon lehetővé válhat, hogy saját maga elvégezhet egyszerű
számításokat az államvizsga dolgozatához, és nem kell mások
kegyeiért esedeznie. Ráadásul a tudást nem veheti el senki sem
tőle, mindenképpen jó befektetésnek bizonyul.
Dr. Ábrám Zoltán, egyetemi előadótanár
Marosvásárhely, 2006. februárjában
8
9. Előszó helyett
Megfigyeltem, hogy az élettudományok különböző területe-
in tanuló diákok többsége „humán beállítottságú”-nak tartja
magát, és általában óvakodik a matematika ködös területére
tévedni. Márpedig vannak helyzetek, rendszerint tudományos
dolgozat készítésénél, amikor elkerülhetetlenül szembesülünk
bizonyos számításokat igénylő bonyodalmakkal. Azt gondo-
lom, hogy aki – úgymond – nem kedveli a matematikát, az
még egy államvizsga dolgozat miatt sem fog biometria szak-
könyveket tanulmányozni. Manapság, amikor számítógépes
programoknak köszönhetően nem kényszerülünk papír-ceru-
zás számolgatásokra, a felhasználók többségét nem érdekli
igazán a statisztikai eljárások mögötti magyarázat. Ma már
alapszintű statisztikai ismeretek mellett is képesek vagyunk
viszonylag bonyolult biometriai kérdések megválaszolására.
Ezek a megfontolások bátorítottak arra, hogy a biometria alap-
fogalmait „madártávlatból” bemutassam. Az imént mondotta-
kat leszámítva, szándékosan kerültem a hűvösen tudományos
előadásmódot. Ígérem, hogy nem foglak mindenféle leveze-
tésekkel untatni, elég ha tudod, hogy mi mire való, és kész.
Ne tévesszen meg, hogy meglehetősen könnyen emészthető,
olvasmányos a szöveg – ajánlom figyelmedbe Fichte szavait:
„Olvassatok lassan! És még lassabban olvassatok újra valamit!”.
Amúgy, ne stresszeld magad, teljesen benignus szöveg, a bará-
taimnak írtam.
A szerző
9
10.
11. I. Alapfogalmak
Na, lássunk hozzá. Mondjuk, hogy kíváncsiak vagyunk arra,
hogy a patagóniai skizofrén férfiaknak mennyi az átlagélet-
kora. Nem tudunk minden egyes patagóniai skizofrén férfit
megkérdezni, tehát marad az, hogy néhányat (minél többet)
megkérdezünk (27-et találtunk), és azt mondjuk, hogy a többi
is kb. ilyen életkorú lehet.
Alapsokaság, populáció (population): olyan dolgok ösz-
szessége, amelyeknek közös megfigyelhető jellemzőik van-
nak [7]. Esetünkben alapsokaságnak nevezzük az összes
patagóniai skizofrén férfit, bennük az a közös, hogy mind
patagóniaiak, mind skizofrének, és mind férfiak. A kísérlete-
inkben legtöbbször nem ismerjük az alapsokaság elemszámát
(N), sőt, előfordulhat, hogy az végtelen.
Mérőskálák: az alapsokaság minden vizsgálandó tulajdon-
ságáról előre meg kell mondani, hogy milyen skálán méred.
Lehet, hogy neked magától értetődő ez a bekezdés, de hidd el,
nagyon el lehet szúrni a számításokat, ha a statisztika-prog-
ramnál ezt már az elején nem állítod be.
1. Nominális (nominal) skála: kettő vagy több kategória
(osztály) van, és csak az a fontos, hogy minden adat kizáró-
lag csak egy adott osztályba tartozhasson. Pl. szeme színe,
vallási hovatartozása, indián-e, stb. Nyilván, nem lehet valaki
egyszerre indián is és nem-indián is.
2. Ordinális, rendezett, sorrendi (ordinal) skála: annyi-
ban különbözik a nominális skálától, hogy itt sorrendje van
az osztályoknak. Ilyen az iskolai osztályozás. De talán jobb
példa a betegségek stadializálása. Azt kell itt megérteni, hogy
az ordinális skála „lépcsőfokai” közötti távolság nem állandó,
nem mondhatjuk például azt, hogy az emlőrák I. és II. stádiu-
11
12. ma között annyi a távolság, mint a II. és III. stádiuma között.
Vagy: ha az egyik diák négyest kapott, a másik pedig hatost,
attól még ketten együtt nem tudnak tízesre. Ha dönthetsz,
hogy milyen skálán mérj, a sorrendit válaszd, ez informatí-
vabb, mint a nominális skála.
3. Intervallum (interval) skála: annyival több a rendezett
skálánál, hogy itt az egymás utáni értékek között a távolság
azonos. Ezen a skálán mérjük az időt vagy a hőmérsékletet ºC-
ban. Fontos tulajdonsága, hogy nincsen abszolút kitüntetett
nulla érték. Igaz, hogy 30 és 40 ºC között annyi a különbség
mint 20 és 30 ºC között, de azt már nem mondhatjuk, hogy
a 20 ºC-nál kétszer olyan meleg van, mint 10 ºC esetén. Akik
Fahrenheit-ban mérik a hőmérsékletet, azok máshová teszik
a nulla fokot, és ők is ugyanolyan elégedettek a hőmérőikkel,
mint mi.
4. Arányskála (ratio): jól meghatározott nulla érték van,
ezért itt már van értelme valaminek a kétszereséről beszélni,
itt nyugodtan lehet mindenféle műveleteket végezni. Ilyen a
testtömeg, a magasság, de a hőmérséklet is – ha Kelvin fokban
mérjük! Mondanom sem kell, ez a skála a leginformatívabb.
Változó, paraméter (parameter): a populáció valamely
jellemzője, egy bennünket érdeklő tulajdonság [5]. Például a
magasság, testsúly, a nem, a hajszín, indián vagy nem, skizof-
rén vagy nem, stb.
A változó lehet:
I. Minőségi (kvalitatív, kategórikus): minden olyan változó,
amit nominális vagy sorrendi skálán mérünk [9]. Egyszerűen
csoportosítgatsz, mindenféle osztályokba sorolod az adatokat.
Itt nem lehet számszerű kapcsolatokról beszélni, maximum
sorrendbe tudod rakni az osztályokat. Pl. nem, hajszín, telepü-
léstípusok, nemzetiség, igen/nem válaszok, stb.
12
13. II. Mennyiségi (kvantitatív): olyan számlálható vagy mér-
hető adatokról van szó, amelyeket intervallum vagy arányská-
lán mérünk [9]. Két fajtája van:
a) diszkrét: csak bizonyos értékeket vehet fel, pl. feleségeid,
gyerekeid száma nyilván csak egész szám lehet
b) folytonos: adott terjedelemben akármilyen értéket felve-
het. Pl. testsúly.
A továbbiakban gyakran esik majd szó független változókról.
Két értelemben is használjuk ezt a kifejezést:
• Ha egy kísérlet során egy változó (X) tetszőleges értékei
mellett mérjük egy másik változó (Y) értékeit, akkor azt
mondjuk, hogy az előbbi (X) a független (befolyásoló)
változó, az utóbbi (Y) pedig a függő változó (ez lesz az
eredmény). Általában sok független változó befolyásolja
az egy szál függő változónkat.
• Ha két változó nem függ egymástól, akkor azok függetle-
nek, (egymástól) független változók.
Minta (sample): a populáció relatíve kis méretű kiragadott
része, valamilyen előírás (mintavételi eljárás) szerint válogat-
va [7]. 30 elemszám felett nagy, 30 alatt pedig kis mintáról
beszélünk. A mi mintánk 27 emberből áll (n=27), és ha ügye-
sen választottuk ki (azaz reprezentatív és az elemek függetlenek
egymástól), akkor ők statisztikailag korrekt módon képviselik
az összes skizofrén patagóniai férfit. Ha a mintavételezést nem
megfelelően végezzük, nem fogja híven tükrözni az alapsoka-
ság tulajdonságait, és akkor nem ér semmit az egész.
Valószínűségi mintavétel alaptörvénye: ha egy alapsokaság
minden egyes elemének egyforma az esélye, hogy bekerüljön a
mintába, akkor ez a minta reprezentatív lesz erre a populációra
nézve [5]. Egyenlő kiválasztási valószínűségű módszerek [9]:
13
14. • egyszerű véletlen mintavétel: a mintabeli egyedeket a
sokaságból egyszerre és véletlenszerűen választjuk ki,
ügyelve arra, hogy a sokaság minden eleme számára
egyenlő esélyt biztosítsunk a mintába kerülésre. Sorsolás,
véletlenszám-generálás, listáról minden valahányadik
elem kiválasztása stb.
• rétegzett mintavétel: ha a Patagóniai Központi Statisztikai
Hivatalnak (PKSH) köszönhetően ismerjük az iskolázott-
sági adatokat, akkor megtehetjük például, hogy iskolai
végzettség szerinti rétegezést végzünk: ha Patagónia
lakosságának egyharmada végzett egyetemet, akkor kere-
sünk kilenc (27/3=9) egyetemi végzettséggel rendelkező
beteget, vagyis az iskolai végzettség ismert arányszámait
igyekszünk biztosítani a mintánkon belül is. Csak akkor
érdemes rétegzett mintavétellel dolgozni, ha a tényező,
ami szerint rétegezni akarunk, feltehetően befolyásolhatja
az eredményt [13]. Ha azt gondoljuk, hogy az iskolázott-
ság nem befolyásolja a skizofrénia lefolyását, akkor nincs
értelme eszerint rétegezni. Természetesen, többszörösen
rétegzett mintavételezés is végezhető (terület, nem, isko-
lai végzettség, életkor-csoportok, stb.), csak legyen elég
nagy az elemszám, hogy minden csoportban lehessen
számításokat végezni.
• lépcsőzetes mintavétel: a minta kiválasztása több fokozat-
ban történik, például először kisorsolunk néhány megyét,
aztán ezekből a megyékből néhány települést (városok,
falvak aránya a rétegzés szabályai szerint!), ezekből a te-
lepülésekből pedig néhány házszámot (egyszerű véletlen
mintavétellel).
A mintavételezés nagyon sunyi dolog, nagyon oda kell
figyelni rá!
14
15. II. Leíró statisztikai mérőszámok
Sokkal szemléletesebb egy adathalmaz néhány jellemző tulaj-
donságát megadni, mint az elemeit egyenként felsorolni. Az
adatokból viszonylag könnyen kiszámítható paramétereket
leíró statisztikai mérőszámoknak nevezzük. Sok ilyen van,
három legfontosabb csoportjuk [7]:
A. elhelyezkedési paraméterek (measures of central
tendency): azt az értéket igyekeznek megadni, ami körül a
mintánk elemei csoportosulnak. Vagyis keressük a minta
közepét. Ide tartoznak: átlag, medián, módusz.
B. szóródási paraméterek (measures of spread): arról
tájékoztatnak, hogy értékeink mennyire szorosan vagy lazán
helyezkednek el az átlag körül: ferdeség, hegyesség, terjede-
lem, szórás, variancia, kvantilisek.
C. kapcsolati paraméterek (measures of correlation):
előfordul, hogy a minta elemeiről nem csak egyfajta adattal
rendelkezünk, így az összetartozó érték-párok között ösz-
szefüggést mérhetünk (pl. emberek mintájában a testsúly és
testmagasság): korrelációs együttható, rangkorreláció.
Mielőtt elkezdünk számolgatni, ide írom, hogy a 27
patagóniai skizofrén férfi esetében milyen életkorokat mér-
tünk:
1. táblázat. Életkorok (év)
22,9; 23,3; 20,6; 22,3; 22,6; 25,1; 47,8; 32,8; 37,4; 20,8; 43,0;
23,1; 32,3; 36,0; 26,7; 28,1; 42,9; 54,5; 63,2; 8,9; 29,2; 43,7;
47,2; 36,2; 31,9; 33,6; 26,1
15
16. �
���������������
�
�
�
�
�
�
�
�
���� ���� ���� ���� ���� ���� ���� ���� ���� ���� ���� ����
������������
1. ábra. Hisztogram: életkorok megoszlása
A. Elhelyezkedési paraméterek
1. Átlag (mean): Most vagy soha, össze kell haverkodni a ∑
[szumma] jellel. Ez a jel arra jó, hogy ne kelljen leírni, hogy
(x1+ x2+ x3+ x4+ x5+ x6+ x7+ x8+ x9)/n, hanem elég, ha azt írom,
hogy: a minta számtani átlaga:
ahol összesen n darab (nálunk 27) elem van, ennyi számot kell
átlagolni. A mi mintánkban az átlagéletkor: 32,67 év. (Általá-
nos szabály, hogy az átlagot eggyel több tizedesig adjuk meg,
mint az adatainkat.) Az alapsokaság számtani átlaga:
16
17. ahol N az alapsokaság elemszáma. (Szimbólumok jegyzéke a
60 oldalon!)
A példánknál maradva N értékéről fogalmam sincs, illet-
ve csak halvány fogalmam van, mert nem tudom, hogy
patagóniában hány skizofrén férfi van összesen és legtöbbjük
életkorát nem ismerem. Épp ezért soha nem fogom a µ értékét
pontosan tudni (vagyis, hogy mennyi azok átlagéletkora), de a
mintám méretétől függően egész jól megsaccolhatom, később
meglátjuk hogyan. A számtani átlagnak csak mennyiségi vál-
tozók esetén van értelme (három katolikus és öt ortodox átlaga
mennyi lenne?). Van egy másik szépséghiba is, mégpedig az,
hogy ha bekerül egy-két extrém érték, úgy el tudják húzni a
minta átlagát, hogy nem sok köze lesz az alapsokaság átlagá-
hoz. Na, ezért találták ki a mediánt.
2. Medián (median): a gyakorisági eloszlás középső értéke
[2]. Ez magyarul azt jelenti, hogy pl. ha a tornasorban valakinek
a jobbján ugyanannyian állnak, mint a bal oldalán, azaz pont
középen van, akkor bizony ő a medián. Ha libasorba áll 17 tanu-
ló, akkor a 9. tanuló lesz a medián. Ugye nem téveszted össze a
mediánt az átlaggal. A mintánkban az életkor átlaga 32,7 év volt,
de a medián 31,9 év. Nyugodtan ellenőrizd az eredményt, tedd
növekvő sorrendbe az életkorokat, és nézd meg a 14.-et. Ha az
elemek száma páros, és nincs akire rámutatni, hogy te állsz pont
középen, akkor a két középső értéket átlagoljuk. Nagyon hasznos
találmány a medián, mert az extrém értékekre (pl. Patagóniából
egy 99 éves skizofrén férfi) nem érzékeny, ráadásul lehet használ-
ni ordinális (!) skálán mért adatokra is [1] (és nyilván, bármely
mennyiségi változó esetén).
17
18. 3. Módusz (mode): az az érték, amelyik a legtöbbször
fordul elő a mintában. Nominális skálán sem átlagot, sem
mediánt nem tudunk mérni, csak móduszt. A mintánknak
nincs módusza, minden érték csak egyszer fordul elő. De ha
átalakítanánk intervallum skálává, mondjuk tízévenként cso-
portosítva (tizenévesek, huszonévesek, harmincasok, stb.),
akkor biztosan kiderülne, hogy a huszonöt év körüliek vannak
a legtöbben. Tulajdonképpen így lehet folytonos változóból
hisztogramot csinálni. Hogy mi a hisztogram? Az 1. ábra,
amelyet fennebb láttál. A mérési adatok áttekinthetőségén
sokat segít, ha az adatokon csoportosításokat hajtunk végre
úgy, hogy egy folytonos és egymást át nem fedő intervallum
sorozatot alkotunk, tehát minden mérési adat egy és csakis egy
intervallumba fog kerülni. Hogy hány intervallumot használ-
junk? Mondok két egyszerű képletet [2], vannak cifrábbak is,
de azok bennünket nem érdekelnek: ha van n darab adatod,
akkor a szükséges intervallumok száma (k) az a legkisebb
egész szám, amelyre 2k > n . Nekünk van 27 adatunk, 25, tehát
elég lett volna 12 helyett 5 intervallum is. Talán könnyebben
megy a másik képlet, ahol csak be kell helyettesíteni a mintád
elemszámát:
B. Szóródási paraméterek
4. Ferdeség (skewness, S): az eloszlás aszimmetriájának egy
mérőszáma [2], az átlag körüli szimmetriától való eltérés mér-
tékét mondja meg. Az 1. ábrán, a hisztogramra rátettem azt
a harang alakú burkoló görbét is, amely az eloszlást mutatja.
Ha ez a görbe teljesen szimmetrikus lenne, akkor a ferdeség
18
19. egyenlő lenne nullával. Ha a nagy értékek felé (jobbra) nyújtó-
zik a görbe, akkor pozitív, ha a kis értékek felé, akkor negatív
ferdeségről van szó (2. ábra). A patagóniai példánknál a fer-
deség +0,636.
���������������
� �
�������
2. ábra. Pozitív és negatív ferdeség
Nagyon szigorú képlete van, nem rontom el a kedvedet vele.
Csak jegyezd meg azt, hogy bizonyos statisztikai technikák meg-
követelik, hogy az adatok normális eloszlásúak legyenek, és a
normális eloszlásnak egyik fontosa tulajdonsága, hogy szimmet-
rikus. Ha az átlag, a medián és a módusz nagyon közel vannak
egymáshoz, akkor a ferdeség nullához közeli szám.
5. Kurtozis (hegyesség, kurtosis, K): az eloszlás csúcsosságát
hasonlítja a normális eloszláshoz, melynek a hegyessége nulla.
Ha az 1. ábránkon az eloszlási görbe nagyon lapos hátú lenne,
akkor K-ra pozitív, ha hegyes lenne, K-ra negatív számot kap-
nánk. Ennek magunkfajta halandók számára nem sok haszna
van, de tudjál róla.
19
20. Mielőtt továbbmennénk, tegyünk egy nagyobbacska kitérőt
a normális eloszlás fogalomhoz. Tudd meg, hogy ez a természet
egyik csodája. Ha egy folytonos változó esetében hisztogramot
készítünk úgy, hogy a hisztogram intervallumainak szélességét
nullához közelítjük (nagyon keskenyek lesznek), akkor meg-
kapjuk az adott folytonos változó sűrűségfüggvényét. Ezt papí-
ron úgy lehet megrajzolni, hogy jó sok intervallummal készí-
ted el a hisztogramot, és aztán az oszlopok tetejére burkoló
görbét illesztesz. Láthatod, a mi 1. ábránkon kevés intervallum
van, rosszul illeszkedik a görbe. Nagyobb elemszámnál, és sok
intervallummal szebben kijön. Ha az emberek magasságának
sűrűségfüggvényét nézzük, akkor azt tapasztaljuk, hogy harang
alakú a görbe, tehát van egy középérték, amely köré tömörül az
adatok nagy része, a két véglet felé pedig szimmetrikusan lejt
a vonal. Ugyanilyen görbét kapunk a testtömegekre, az intel-
ligenciákra, a pulzusokra, a csirkék távolságára a tyúkanyótól,
a hollandok napi sajtfogyasztására, a levelenkénti levéltetvek
számából, a marosvásárhelyi orvostanhallgatók birtokában
lévő A4-es papírlapok számából, és még sorolhatnám.
Az adatoknak ezt a jellegzetes megoszlását normál eloszlás-
nak (Gauss-görbe) hívják. Hogy miért normál? Egész egysze-
rűen azért, mert akármerre nézel, a fizikai és a biológiai para-
méterek ilyen módon oszlanak el (igazad van, akad kivétel is).
A biometria (= az amit most tanulsz) javarészt erről szól. Ha
látod, hogy egy jelenséget sok, egymástól független, kis hatá-
sú tényező összegződése határoz meg, akkor tudjad, hogy az
normál eloszlású (központi határeloszlás tétel) [5]. Persze,
léteznek más jól ismert eloszlások is, de azokat ebből szár-
maztatták (t, χ2, F). Sok statisztikai teszt megköveteli, hogy az
adatok eloszlása normális legyen, ezért most nem szabad nem
megjegyezni, hogy minden korrekt statisztika-programban
20
21. van olyan parancs, hogy normal plot, vagy test of normality,
vagy valami ilyesmi. Például az 1. táblázat adatai alapján ilyen
ábrát dob ki:
��������������������������
�
���������������
�
�
��
��
�� �� �� �� �� �� ��
��������������
3. ábra. Normál eloszlás vizsgálata
A vízszintes tengelyen vannak a mi adataink, a függőlegesen
a tökéletes normális eloszlás. Azt kell látni ezen az ábrán, hogy
az adatok szépen egy vonal mentén sorakoznak. Igaz, hogy a
két végen vannak elkószáló skizofrének, de az összkép kitűnő.
Ha a pontok rendezetlenül állnának, akkor azt mondanánk,
hogy nem normális eloszlású. Vannak statisztikai tesztek,
amelyek számszerűen jellemzik a normális eloszláshoz való
hasonlóságot. Az egyik ilyen teszt (Shapiro, 27 adat) kiírta,
hogy p=0,398 (később meglátjuk, ez mit jelent) – ami megerő-
sít abban, hogy tényleg normál eloszlásról van szó. Ha 50-nél
kevesebb adatod van, akkor a Shapiro-Wilk-tesztet ajánlom, ha
21
22. több adat van, akkor mehet a Kolmogorov-Smirnov-teszt. Ha
nincsenek kéznél ilyen internacionális szakemberek, akkor
csinálj egy hisztogramot, látni fogod, hogy kb. olyan-e mint
egy Gauss-görbe, plusz nézd meg, hogy a módusz, a medián
és a számtani átlag nagyjából egyenlők-e. Minden statisztika-
program, sőt, még az Excel is tud hisztogramot készíteni.
6. Terjedelem (range): ha van könnyen érthető dolog a vilá-
gon, hát ez biztosan az. A terjedelem azt jelenti, hogy mekkora
távolság van a legkisebb adattól a legnagyobbig. Csak a mintá-
nak van terjedelme, az alapsokaság terjedelméről nem beszél-
hetünk, mert... te is ki tudod találni, hogy miért. Na, miért?
Már jó ideje a szóródási paraméterekről beszélgetünk, ugye
még képben vagy!? Nos, a szóródást legkönnyebb a terjede-
lemmel mérni. Csak éppenséggel van két bökkenő: nagyon
függ az extrém értékektől (abból van), és függ a minta elemszá-
mától (egyenes arányossággal nő vele). Kis elemszámú min-
táknál (<10) egy s másra jó.
7. Szórás, standard deviáció (standard deviation, SD): a
szóródás leggyakrabban használt mértéke. Épp ideje, hogy
emlékeztesselek, hogy a szóródási paraméterek azt mérik,
hogy az adataink mennyire szorosan helyezkednek el az átlag
körül. A szórás nem függ az elemek számától. Az alapsokaság
szórását σ-val jelöljük, a minta szórását s-sel. Nézd meg a kép-
letüket, nem vészes. Az alapsokaság szórása:
és ugyanígy a mintára:
22
23. Ha szükséges, ismételd át az átlagok jelöléseit. Nézzük az
első képletet. A zárójelben az átlagtól való eltérés található. Ez
lehet pozitív vagy negatív szám, ha egyszerűen összegeznénk
az átlagtól való eltéréseket, mindig nulla jönne ki, ezért kell
négyzetre emelni (mind pozitív lesz). Az átlagolás (osztunk
N-el) után gyököt kell vonni, hogy „semlegesítsük” a négy-
zetre emelést. A második képlet a mintára vonatkoztatva
ugyanezt csinálja, csak éppen alul van egy mínusz egy. Ha a
mintád elemszáma 100-nál nagyobb, akkor elhagyhatod azt a
nyavalyás egyest, különben nem szabad. Gondolj arra, hogy
lényegében az adatok egymáshoz viszonyított elhelyezkedését
mérjük és n darab adat n-1 darab távolságot fog közre. Ehhez
a bekezdéshez tartozó matematikai magyarázatokat vedd úgy,
mint azt a közmondást, hogy „Aki korán kel, aranyat lel”. Igaz-
nak igaz, de egész másképp.
A példánkról se feledkezzünk meg, s=12,0 év jött ki szórás-
nak, tehát szó sincs róla, hogy a skizofrének mind egyidősek
lennének. Azt írják a könyvek, hogy az átlagtól plusz-mínusz
egy szórásnyi távolságra található az adatok 68%-a (normál
eloszlás esetén!). Ez konkrétan azt jelenti, hogy az embereink
kétharmadának életkora 32,7±12 év (21 és 45 év közötti). A
gyakorlatban viszont inkább olyan számra van szükség, amely
a minta nagy részét felöleli, ezért a kétszeres szórástávolságot
szokás figyelembe venni. A mintánkból kiszámolva 8 és 56 év
található az átlagtól kétszeres szórástávolságra ( x 2 s ). Ezt
a két számot hívjuk hibakorlátnak [4]. A kétszeres szórástávol-
ságon (hibakorlát) belül található az adatok 95%-a. Bizonyos
23
24. esetekben még szigorúbbak is lehetünk, számolhatunk
háromszoros szórással (biztos hibakorlát) [4], amelyen belül
található az adatok 99,8%-a. Ez utóbbi összefüggést a három
szigma szabálynak [4] is szokták nevezni, ami azt jelenti, hogy
az adataink gyakorlatilag 6s hosszúságú intervallumba esnek,
és ha egy adat ezen kívül van, akkor megfelelő mérlegelés után
kizárható a többi eredmény közül. (Lapozz előre a 9. ábrához,
talán úgy könnyebben megérted.)
Amit majdnem elfelejtettem:
• nominális és ordinális skála adatainál nem lehet szórást
számolni, de ezt már te is kitaláltad
• a standard deviáció mértékegysége megegyezik az adatok
mértékegységével
• amikor egy tudományos dolgozatban közöljük a minta
számtani átlagát, akkor fontos, hogy a szórását is írjuk
mellé. Gyakori hiba, hogy 32,7±12 formában adják meg.
Helyesen: 32,7 év (SD 11,9). A ± jelet majd meglátjuk,
hogy mikor használjuk.
8. Variancia, szórásnégyzet (variance): az adatoknak az
átlagtól való négyzetes eltéréseinek átlaga [4]. Az elméleti
statisztikában nagyon el vannak vele, nekünk egyelőre nem
annyira fontos, mint a SD. A minta varianciája:
Micsoda meglepetés! A standard deviáció (szórás) nem más
mint a variancia négyzetgyöke. A varianciát σ2-el is szokták
jelölni.
9. Kvantilisek (Quantile): a legfontosabb kvantilisek a
kvartilisek (quartiles). Tudom, startból kínaiul van, de meglá-
24
25. tod, egyszerű. (Ismerős az a szó, hogy medián? Ha nem, akkor
ismételd át, a kettes pontnál beszélgettünk róla.) Három darab
kvartilist különböztetünk meg, arról a három adatról van
szó, amelyek a gyakorisági eloszlást négy (lehetőleg) egyenlő
elemszámú részre osztják.
Ebből következik, hogy a középső kvartilis, a Q2 éppen a
medián. A példánkban Q2=31,9 év, vagyis ő az, akinél ugyan-
annyian öregebbek, mint ahányan fiatalabbak (13-13). Az alsó
kvartilis (Q1) nem más, mint a medián alatti adatok mediánja
(a mintánkban Q1=23,1; ő az, akinél kb. háromszor annyi öre-
gebb, mint fiatalabb van, 6-20). A felső kvartilis (Q3) a medián
feletti értékek mediánja (Q3=42,9, háromszor annyian fiata-
labbak, mint öregebbek, stb.). Arra is jó ez a sok Q betű, hogy
ki tudjuk számolni az interkvartilis tartományt (Q3–Q1), ami
egy újabb hasznos szóródási paraméter. Q3–Q1=19,8 év; ha azt
látjuk, hogy az adatoknak az átlaghoz (32,7) közelebbi fele is
majdnem 20 év szélességben található szétszórva, akkor nyil-
vánvaló, hogy meglehetősen nagy a szórás. Az interkvartilis
tartományt nagyon könnyű kiszámolni, nem érzékeny az
extrém értékekre, csak arra vigyázz, hogy 10 alatti elemszámú
mintánál ne használd.
Ha az eloszlást ábrázolni akarjuk, a legkényelmesebb a
mediánt, az alsó és felső kvartiliseket, illetve a legnagyobb és
legkisebb adatot együtt ábrázolni. Ezt nem is olyan nagyon
régen, 1977-ben vezették be, ma „box and whisker plot” vagy
„boxplot” néven ismerhetsz rá [5]. A 27 skizofrénünk életko-
rát így ábrázolja:
25
26. ��
������������
��
��
��
��
��
��
�
5. ábra. Boxplot: életkorok megoszlása
Ha egy érték nagyon messze esik a többitől, azt nem
legnagyobb vagy legkisebb adatként fogjuk számon tarta-
ni, hanem extrém értéknek hívjuk, és a boxplot-on (valahol
fent vagy lent a középvonalban) csillaggal jelöljük (vö. három
szigma szabály).
A második legfontosabb kvantilis családot a decilisek adják.
Ezt inkább a szociológusok és közgazdászok használják. A
decilisek az eloszlást 10 egyenlő részbe vágják (ezekben a cso-
portokban az elemek száma egyenlő). Ha sok az adatunk, akkor
felőlem százba is vághatjuk, ezek a percentilisek (percentiles).
Az 50%-os percentilis éppen a medián. A 25%-os percentilis
az alsó kvartilis.
Elég gyakran használjuk azt a kifejezést, hogy normális,
még gyakrabban azt, hogy nem normális, és eddig nem is
tudtuk, hogy az élettudományokban a normális kifejezés azt
jelenti, hogy az egyed adott paramétere az alapsokaság 5%-
26
27. os és a 95%-os percentilise között található. Ez nem vicc, egy
kisgyerekről akkor mondják, hogy elmaradt a fejlődésben, ha
súlya és/vagy magassága nem éri el a vele egykorú gyerekekre
vonatkozó 5%-os percentilis értéket.
C. Kapcsolati paraméterek
Már nagyon régen megbeszéltük, hogy a kapcsolati paraméte-
rek érték-párok közötti összefüggés erősségét mérik.
10. Korrelációs együttható (correlation coefficient, r): ez
egy olyan szám, amely két paraméter közötti kapcsolat szoros-
ságát, erősségét méri [7]. Nincs mértékegysége.
Ha r=0 vagy ahhoz közeli, az azt jelenti, hogy nincs össze-
függés az adatok között. r=+1 azt jelenti, hogy függvénysze-
rűen egyenes arányosság (lineáris összefüggés) van, vagyis
ha ismerem az egyik paramétert, akkor ki tudom számítani a
másikat (7. ábra). Az előjelből tudom, hogy egyenes (+) vagy
fordított (–) arányosság van.
A 27 patagóniai betegünknek adtunk egy feladatsort,
amelyet különböző eredményességgel oldottak meg. A maxi-
mális pontszám 100 volt. Íme az eredményeik, rendre:
2. Táblázat. Teszteredmények
69,3; 70,1; 70; 66; 72; 64; 35; 47; 45; 76; 39; 55; 41; 46; 59; 55;
38; 25; 19; 63; 56,5; 41; 32; 40; 46,1; 40; 53
Ha meg akarjuk nézni, hogy van-e összefüggés az életkor
és az eredményesség között, akkor először is készítsünk egy
koordinátarendszert, amelyben az egyik tengelyen az életkort,
a másikon pedig a pontszámokat lehet felvenni. Minden sze-
mélyt egy pont (pöttyöcske, hogy jobban lehessen látni) fog
27
28. jelképezni, amelynek x és y tengely szerinti koordinátái jelen-
tik az életkort illetve az elért pontszámot. Nos, ez lett belőle:
���������������� ��
��
��
��
��
��
��
��
� �� �� �� �� �� �� ��
������������
6. ábra. Sztochasztikus kapcsolat és regressziós egyenes
Látható, hogy a pontok nem teljesen össze-vissza vannak,
nagyjából egy egyenes mentén helyezkednek el, de az is igaz,
hogy kell a jóindulatunk, hogy az egyenest beleképzeljük.
Oda is rajzoltam. Tehát szóródás ide vagy oda, valami ösz-
szefüggés itt van! Erre mondják, hogy stochasztikus kapcsolat
van az adott paraméterek (életkor, teszteredmény) között. A
stochasztikus kapcsolat lehet erősebb-gyengébb, attól függő-
en, hogy a pontok mennyire állnak egy vonalba. Ha senki nem
lóg ki a tornasorból még egy hajszálnyit sem, akkor mondjuk,
hogy függvényszerű kapcsolattal állunk szemben. Ha a pontok
teljesen szétszórtak, akkor független változók esete forog fenn
(a két változónak semmi köze egymáshoz).
Azért, hogy ne kelljen órákig hunyorogni egy stochasztikus
kapcsolatot megjelenítő ábra előtt, és ne kelljen mindenféle
28
29. egyenesekről fantáziálni, ezért találták ki a korrelációs együtt-
hatót (r).
�
�����
�
�
�����
�
�
������
�
7. ábra. Korrelációk sajátos esetei
A 6. ábra mellé odaírhatjuk, hogy r=–0,909 (és p<0,001,
erről később). Ez azt jelenti, hogy erős negatív korreláció
van, vagyis minél öregebb a patagóniai bácsi, annál rosszabb
eredményt produkál. Pearson-teszt feliratot keresd, ha hasonló
számításokat végeznél.
29
30. Még annyit kell tudni, hogy könnyen félrevezet ez a teszt, ha
nem figyelsz. Mert:
a) például tudni kell, hogy csak lineáris, vagy majdnem line-
áris stochasztikus kapcsolat esetén működik. Ha az adataid,
mondjuk, egy hullámos vagy nem hullámos görbe mentén állnak
akármilyen szép rendes sorban, mégis a Pearson-teszt nullához
közeli számot fog eredményül kidobni, és aki figyelmetlen, az
mindjárt ki is jelenti, hogy a vizsgált paraméterek függetlenek.
b) alapkövetelmény, hogy mindkét változó folytonos legyen
c) az extrém értékek torzítják az eredményt, ebben az eset-
ben a Spearman-féle rangkorrelációt kell használni. Ugyancsak
rangkorrelációval kell dolgozni, ha a változók nem folytono-
sak (gyerekeid, fogaid száma ugye csak egész számértékek
lehetnek).
d) ha bármelyik változót te határozod meg, nem használha-
tó ez a teszt. Például gyógyszerek dózis-hatás görbéje esetén
NEM használhatod, ha a gyógyszeradagok rögzítettek (pl.
csak 100, 200 és 500 mg-os tabletták alkalmazása)
e) a korreláció szignifikanciája (p): a korrelációs együttható
mellé mindig oda kell írni a p értéket, ez mutatja meg, hogy
mennyire bízhatunk egy mintából számolt korrelációs együtt-
hatóban. Ne feledjük el, hogy az alapsokaságból számolható
korreláció (jelölése ρ) nem teljesen ugyanaz, mint a mi mintá-
ból számolt r-ünk. Ha keresnénk másik 27 patagóniai skizof-
rén férfit, és megíratnánk a tesztet, és kiszámolnánk az életkor-
pontszám korrelációt, nem biztos, hogy pontosan –0,909-et
kapnánk, csak kb. ennyit. Minél nagyobb a mintánk, annál
jobban meg tudjuk becsülni a ρ értékét, de mindig marad egy
kis bizonytalanság. Ráadásul r értéke minél távolabb esik 1-től,
annál inkább kételkedünk, hogy bármiféle összefüggés lenne a
paraméterek között.
30
31. A korreláció szignifikanciája azt mondja meg, hogy egy
olyan alapsokaságban, amelyben függetlenek a változók (=
semmi közük egymáshoz), a nem szerencsés mintavétel miatt
mekkora valószínűséggel kapunk ekkora elemszám mellett
(n=27) ilyen mértékű korrelációt (r=–0,909). Más szóval:
mekkora a valószínűsége, hogy az eredmény a véletlen műve.
Ha p értéke kisebb mint az egyezményes küszöbérték α=0,05,
az azt jelenti, hogy 5%-nál kisebb a valószínűsége, hogy vélet-
lenül jött ki korreláció, tehát elfogadjuk. Ha mondjuk 0,13 jött
volna ki, azt mondanánk, hogy úgy tűnik, a véletlen kavart be,
tovább kell növelni az elemszámot, hogy megtudjunk valami
biztosat. De nekünk szerencsénk van, az jött ki, hogy p=0,000,
vagyis gyakorlatilag 0 a valószínűsége, hogy véletlenül ilyen
iszonyú erős korrelációt kapjunk ott, ahol nincs. Tudjad, hogy
nagyon kis r érték mellett is előfordul p<0,001, ezt úgy kell
kiolvasni, hogy holtbiztos, hogy van egy nagyon gyenge ösz-
szefüggés.
f) Gyakori és súlyos hiba, hogy a két változó közötti korre-
lációból ok-okozati összefüggésre következtetnek [5]. A kor-
reláció mögött lehet ok-okozati viszony, de az is lehet, hogy
a két korrelált változó nincs egymással ok-okozati kapcso-
latban, hanem mindkettő egy harmadik, közös októl függ. A
leggyakoribb ilyen jellegű csapda az, amikor mind a két válto-
zó az idővel korrelál, amúgy semmi közük egymáshoz. Tudjad,
hogy az ok-okozati összefüggést logikai vagy kísérleti úton kell
bizonyítani.
g) Be kell vallanom, hogy a 6. ábrán azt a vonalat nem szem-
mérték szerint rajzoltam, sőt, nem is én rajzoltam, hanem a
statisztika-program. Azt a vonalat úgy hívják, hogy regresszi-
ós egyenes. Láttuk, hogy az adataink elég jól vonalba állnak,
ezért nem alaptalan azt kérdezni, hogy egy 46 éves patagóniai
31
32. skizofrén fiatalember vajon hány pontra számíthat a tesztben.
Ennek a megválaszolására berajzoltatjuk a regressziós egye-
nest, ami úgy készül, hogy a program megkeresi azt az egye-
nest, amelytől az adatpontok távolsága a lehető legkisebb (leg-
kisebb négyzetek módszere) [2]. Minden egyenes egyenlete:
Y = a + b × X, ahol X és Y a két változó, b az egyenes meredek-
sége, a pedig a tengelymetszet. Ha számítógéppel regressziót
számolsz, ezt a két értéket (a és b) fogod eredményül kapni. A
példánknál maradva Y=69,04–0,721X lesz a vonal egyenlete.
Behelyettesítve a 46 évet, kiderül, hogy kb. 36 pontnál jobbat
ne várjunk. Ilyen jellegű lekérdezéseket csak a minta terjedel-
mén belül (a mintánkban 20 évtől 60 évig) szabad végezni.
Például nem helyettesíthetjük be az iménti képletbe a 99 éves
patagóniai skizofrén bácsit, mert a mintánk csak 20 és 60 év
közöttiekre reprezentatív. Aki nagyon otthon van a témában,
az bizonyos esetekben végezhet ilyen becsléseket, „jóslásokat”,
de ezt már állítólag extrapolációnak hívják, és nagyon ingo-
ványos terület.
11. Rangkorreláció (rank correlation): ha a változók közül
valamelyik nem folytonos (kérdőívben a helyes válaszok
száma, fogaid száma), ha extrém értékek vannak, és azokat nem
lehet kigyomlálni, ha nem normál eloszlásúak az adataid, vagy
egyszerűen meg akarsz győződni róla, hogy a Pearson-teszt jó
helyen keresi az eredményt, akkor dobd be a Spearman-tesz-
tet, a rangkorrelációt [11]. Hátránya, hogy bizonyos mértékű
információvesztés van, kicsit gyengébb teszt, de ugyanúgy
megkapod az r értékét.
Még egy régi adósságomat kiegyenlítem, aztán vághatunk
a sűrűjébe.
32
33. Átlag standard hibája (Standard error of mean, SEM)
Amikor a minta átlagát számoltuk, megígértem, hogy majd
megsaccoljuk a populáció átlagát (µ). A mi mintánkban az
átlagéletkor 32,7-nek jött ki, de egyáltalán nem lennék meg-
lepve, ha egy indonéziai kutatócsoportnak hasonló kísérletben
33,1 jönne ki. De nagyon meg lennék lepve, ha 40-es átlag-
életkorról számolnának be. Hogy mikor kell meglepődni, és
mikor nem – erről szól ez a két bekezdés. Ha ismerjük egy
minta elemszámát, átlagát és a szórását, akkor ki tudjuk szá-
mítani, hogy a populáció (alapsokaság) átlaga milyen értékek
között mozoghat. Persze, minél nagyobb a mintám, annál
pontosabban meg tudom mondani, hogy kb. hol van az igaz-
ság. A képlet nagyon egyszerű, az átlag standard hibája:
A betegeink életkorát tekintve, ez az érték 1,615 év. De ezzel
még nincs vége a számolásnak.
Konfidenciaa intervallum
Már többször is beszéltünk a hibakorlátról (minta-átlag
plusz-mínusz kétszeres szórás). Ha azt értetted, akkor teljesen
világos lesz, hogy a populáció átlagának becslésekor is elvé-
gezhetjük ugyanezt a számolást. Itt nem hibakorlátról, hanem
konfidencia határokról, és az általuk közrezárt konfidencia
intervallumról beszélünk, és szórás helyett az átlag standard
hibájával számolunk:
33
34. Ha egy dolgozatban egy populáció átlagáról beszélsz,
amelyet minta alapján számoltál ki, akkor mindig ilyen for-
mában közöld: a patagóniai szkizofrén férfiak átlagéletkora µ
= 32,7 ± 2,3 év ( ). Ez azt jelenti, hogy bármelyik
kutatócsoport gyűjt mintát, 95%-os biztos, hogy a kapott átlag
valahol 30 és 35 év között lesz; így hiába jön az indonéz kutató,
hogy nekik 40 év jött ki, erősen kételkedni fogok.
34
35. III. Hipotézisek vizsgálata
Bevezetés
Most már nagyvonalakban ismerjük azokat a módszereket,
amelyek adatok rendszerezésére és leírására vonatkoznak, így
nekivághatunk egy újabb izgalmas fejezetnek. A hipotézisvizs-
gálatokról lesz szó.
A tudományos konferenciákon már-már varázsszó-számba
megy a szignifikáns kifejezés. Ha ez nem hangzik el, a hallga-
tók gyakran csak a fejüket csóválják, és fenntartásaik vannak,
hiszik is, nem is. De ha azt mondod, hogy pl. a különbség
szignifikáns, akkor mindenki bólogat. Figyeld meg, hogy a
diákköri konferenciákon ilyen vagy olyan statisztikai teszttel,
mindenki mindent szignifikánsra hoz ki, a lelkes ifjú kutatók
mindent be tudnak bizonyítani. Ez gyanús, nem? A legtöbb
statisztikai próba bizonyos előfeltételezéseken alapul, amelyek
ha nem teljesülnek, a próba eredménye megkérdőjelezhető,
sőt, ami még rosszabb, félrevezető lehet. Azt mondom, néz-
zünk szét a témában.
Kezdjük egy példával. A 27 skizofrén betegünket hat hóna-
pig kezeljük, majd ismét íratunk velük egy tesztet, amely az
előzőhöz hasonló, de azzal nem azonos, mert nem a betegek
memóriáját, hanem a terápia hatását akarjuk vizsgálni. Néz-
zük az eredményeket (rendre):
3. Táblázat. Kezelés utáni teszteredmények
93,5; 92,1; 89,3; 86,0; 93,5; 83,5; 55,7; 66,6; 65,0; 96,3; 58,4;
75,8; 60,0; 67,1; 80,0; 73,7; 58,0; 46,0; 37,8; 86,1; 76,0; 60,5;
52,5; 56,9; 69,5; 57,0; 76,2.
35
36. Ha a leíró statisztika szerint összehasonlítjuk az első tesz-
tet a másodikkal, nyilvánvaló lesz, hogy most jobb az ered-
mény: x1=50,5 míg x2=70,9. Tehát 20 ponttal jobban sikerült
a második teszt. Vajon, ez a véletlen műve? Nem hiszem, húsz
pont – az túl sok, hogy véletlenül ennyivel jobbat írjanak. Ha
50,1 lenne, azt mondhatnánk, hogy belefér a véletlenbe. Még
55 pont is. A 60 az már nehezen. A következő oldalakon meg-
próbálunk ebből a spekulációból tudományt csinálni.
Két átlag különbsége (eltérése) két összetevőből származik [2]:
1. véletlen összetevő (hiba): véletlen hatások eredménye,
általunk nem befolyásolható, megmagyarázhatatlan, ész-
revehetetlen tényezők okozzák; a mintavétel során pl. sor-
solásnál épp ezek és nem azok kerültek a mintába, régiek
és pontatlanok a műszerek, az emberek nem egyformák,
ugyanaz a személy is változó eredményeket produkál,
nem tudsz elég pontosan titrálni, háttérzaj, stb. A véletlen
összetevő megoszlása jellegzetes, a helyes értéktől mind-
két irányba kb. egyforma kilengést okoz.
2. szisztematikus összetevő: valamilyen lényegi különbség
van, ami nem magyarázható a véletlennel
A matematika nem tud mit kezdeni a szisztematikus ösz-
szetevővel, csak a véletlen összetevő szerepéről tud nagyon jó
becslést mondani. Épp ezért a statisztika eredménye nem több,
mint hasznos információ, amely hozzásegíti a kísérletezőt,
hogy megbízható döntést hozzon orvosi, biológiai, szocioló-
giai, stb. kérdésben. Figyelted az alanyt? Végső soron nem a
statisztika, hanem te döntesz. Erről szól a hipotézis-vizsgálat.
A véletlen minden kísérletben bezavar, és neked az a felada-
tod, hogy e mögött mutasd ki a lényegi különbséget – ha van.
Az is fontos, hogy ne mutass ki különbséget ott, ahol nincs, ne
hagyd, hogy átverjen a véletlen.
36
37. Kivétel nélkül minden hipotézisvizsgálat azzal kezdődik,
hogy felállítjuk a nullhipotézist. Azt mondjuk, hogy az átlagok
közötti eltérés teljes egészében a VÉLETLEN miatt van. Ha igaz
a nullhipotézis, akkor az átlagok különbsége normális eloszlá-
sú véletlen változó (nincs szisztematikus összetevő), melynek
várható értéke nulla (nem vagy alig különböznek az átlagok).
Ha a számítások során kiderülne, hogy a nullhipotézis nem
tartható, akkor elővesszük az alternatív hipotézist, és belátjuk,
hogy véletlen hatásokkal nem magyarázható meg a tapasztalt
különbség.
Nullhipotézis: a patagóniai skizofrén férfiak egyhónapos
gyógykezelése nem befolyásolta az eredményességüket a
feladatmegoldásban; ha az átlagok kissé eltérnek, az csakis a
véletlen miatt van.
Alternatív hipotézis: a patagóniai skizofrén férfiak egyhó-
napos gyógykezelése befolyásolta az eredményességüket a
feladatmegoldásban; az átlagok között olyan nagy az eltérés,
hogy ez már nem magyarázható a véletlennel.
Nézzük a két teszt eredményeinek megoszlását (8. ábra):
� ������
���������������
� ������
�
�
�
�
� � �
�
�
�� �� �� �� �� �� �� ���
������������
8. ábra. A teszteredmények összehasonlító hisztogramja
37
38. A két harang alakú eloszlási görbe elég nagy területen fedi
egymást, és elég nagy területen nem fedi egymást. Nehéz ráné-
zésre megmondani, hogy vajon a véletlen miatt van-e jobbra
tolódva a második görbe. Ennek a problémának a megoldásá-
hoz még néhány dolgot meg kell értenünk.
A standard normális eloszlás
A normális eloszlásról már megbeszéltünk néhány dolgot, de
azt még nem mondtam el, hogy ha minden adatból kivonod a
mintád átlagát, és elosztod a szórással:
akkor a standard normális eloszlást kapod [5].
��� ��� �� � �� ��� ���
9. ábra. A standard normális eloszlás sűrűségfüggvénye
A 9. ábra nem egy kalapot, és nem is óriáskígyót ábrázol
(a hasában egy elefánttal), hanem éppen a standard normális
eloszlást. Láthatod, az átlag egyenlő nullával, a szórás (SD)
pedig éppen eggyel egyenlő. Annyira híres és számunkra
annyira hasznos ez a Gauss-görbe, hogy azt javaslom, hogy
egy másodperc erejéig győzzük le a bonyolult dolgok iránti
38
39. ellenszenvünket, és vessünk egy tiszteletteljes pillantást a nor-
mális eloszlás valószínűségi sűrűségfüggvényét leíró képletre:
A sűrűségfüggvény és a valószínűség fogalmak követke-
zőképpen kapcsolódnak egymáshoz: a görbe alatti terület
valószínűséget jelent. A teljes terület 100%. Nincs értelme azt
kérdezni, hogy mennyi annak valószínűsége, hogy a változónk
pontosan egy adott értéket (pl. 47,6985625585445254524552
..) fog felvenni, mert ennek esélye nulla (nincs területe). Azt
viszont meg lehet mondani, hogy mennyi annak valószínű-
sége, hogy a véletlen változónk várhatóan egy adott interval-
lumba essen (pl. 47,69-47,70), vagy egy adott értéknél kisebb/
nagyobb legyen.
Vannak nevezetes intervallumok. Mondok egy példát. Ha
még emlékszel a hibakorlátokra, akkor már tudod, hogy a
kétszeres szórástávolságokon belül található az adatok 95%-
a, a háromszoros szórástávolság felöleli majdnem az összes
adatot (99,8%). Úgy is lehet fogalmazni, hogy a véletlen vál-
tozónk 95%-os biztos, hogy kétszeres szórástávolságon belülre
fog esni. Állítsuk fejre ez utóbbi mondatot: 5% esély van arra,
hogy a véletlen változónk kívül esik majd a kétszeres szórás-
távolságon.
Már megbeszéltük, hogy a véletlen hiba is normál eloszlású
valószínűségi változó, amelynek várható értéke nulla. Minél
nagyobb két minta átlagának különbsége, annál kisebb a
valószínűsége, hogy fenntarthatjuk a nullhipotézist. A görbe
kétoldalt csak közelít az alapvonalhoz, soha nem éri el azt,
39
40. ezért meg kell mondanunk, hogy hol van a határ, az a küszöb,
ahol még fenntartjuk a nullhipotézist. A standard normális
eloszlású görbén (9. ábra) kevéssel +2s felett (kb. 97%-nál)
húztam is egy függőleges vonalat. Kijelenthetem, hogy a vona-
lon kívül eső adatokat (p=3%) nem fogadjuk el, de lehetséges,
hogy ezt a küszöböt túl alacsonyra tettem, lehetséges, hogy
majd elutasítok egy olyan értéket, amelyet tényleg a véletlen
okozott. Na, ez az elsőfajú hiba (α-risk, type I error). Aki
tévesen utasít el egy nullhipotézist, az elsőfajú hibát követ el.
Másodfajú hibát (β-risk, type II error) követünk el, ha fenn-
tartunk egy helytelen nullhipotézist [5]. Vagyis ha a küszöböt
felteszem 99,999999%-ra, akkor könnyen lehet, hogy olyan
értékeket is elfogadok, amelyek köszönő viszonyban sincse-
nek a várt középértékkel (a véletlennel). Ugye érted, hogy a
két típusú hiba egymás ellen dolgozik, ha egyiknek kis esélyt
hagysz, akkor a másik felerősödik, és viszont.
�� ��
������������������
������ ������
���������������� ����������������
������ ������
������������������
10. ábra. Első és másodfajú hiba
Nem lehet pontosan megfogalmazni, hogy melyik az a kis
valószínűségű küszöbérték, amelynél sem első- sem másod-
fajú hibát nem követünk el. Kompromisszum eredményeként
a biológiai-orvosi kutatásban elfogadott leggyakoribb küszöb-
értékek (szignifikancia-szint, significance level, α): α=0,05,
α=0,01, és a legszigorúbb az α=0,001 (p küszöbértékeit α-val
40
41. jelöljük). Ha egy statisztikai próba eredményeként például
p=0,02-t kapsz, akkor bejelentheted, hogy a különbség szig-
nifikáns α=0,05-ös szinten (átlépte ezt a küszöböt). Másként
fogalmazva: száz esetből kevesebb mint ötször fordulhat elő
ilyen érték kizárólag a véletlen eredményeképpen, és ezt nem
tartja az ember valószínűnek, ebben az esetben elvetheted a
nullhipotézist. Szerintem ezt már túltárgyaltuk.
Paraméteres és nemparaméteres tesztek
A statisztikai próbák (tesztek) két nagy családba sorolhatók:
vannak paraméteres és nemparaméteres tesztek.
A paraméteres tesztek esetén a nullhipotézis egy normál
(vagy más ismert) eloszlású változó valamelyik paraméteréről
állít valamit [1]. Nominális és ordinális változókon használni
nem ajánlott. A paraméteres tesztek kb. 5%-al erősebbek mint
a nemparaméteresek, ez gyakorlatilag azt jelenti, hogy átlagok
közötti létező különbséget már kisebb elemszám mellett is ki
tudnak mutatni [8]. Hátrányuk azonban az, hogy meglehe-
tősen igényesek, van néhány alkalmazási feltétel, amit be kell
tartani [2]:
• a minták normál eloszlásúak legyenek
• a vizsgált változóval kapcsolatos megfigyelések függetle-
nek legyenek (mintavételezés!)
• a minták szórása legyen egyenlő, legalábbis ne különböz-
zenek szignifikánsan.
A normál eloszlás ellenőrzését megbeszéltük, a mintavé-
telezés pl. legyen véletlenszerű (nem válogatunk csak úgy a
kórlapokban), a szórások különbségét pedig ellenőrizni tudod,
majd meglátod hogyan.
A nemparaméteres tesztek esetén nem szükséges a populá-
ció valamely paraméterének (pl. átlag) becslése, és nem köve-
41
42. telmény a normál eloszlás. Nominális és ordinális változókon
is használhatjuk; nem érzékenyek kiugró adatokra [10].
Ha csak az a kérdésünk, hogy két minta között van-e bár-
milyen különbség, akkor az alkalmazási feltétel betartása
mellett bármelyik próbát alkalmazhatjuk, vagyis nem kell
megszokásból leragadni egy próba mellett. Tudnunk kell azon-
ban, hogy a nem-paraméteres próbák nem (közvetlenül) a két
csoport átlagának a különbségét vizsgálják, hanem a csopor-
tok más (próbánként változik) tulajdonságait. Így aztán a szig-
nifikáns különbség nem biztosan jelenti azt, hogy a két csoport
átlaga (várható értéke) is különbözik, mert lehet, hogy a két
vizsgált populáció eloszlásának valamilyen más tulajdonsága
különbözik, nem a várható értékük. Ha az a gyanúnk, hogy
csak az eloszlás jellege más, akkor ezt a Kolmogorov-Smirnov,
vagy a Wald-Wolfowitz próbával bizonyíthatjuk. Ezt a két
tesztet nem részletezem, ha a minták eloszlásának valamely
tulajdonsága (ferdeség, hegyesség, szórás stb.) nagyon külön-
bözik, akkor szignifikáns a próba. Nem érdekes, vannak ennél
fontosabb dolgok.
a) Paraméteres tesztek
1. u-teszt, z-teszt
Egyesek z-tesztnek, mások u-tesztnek hívják. Az alapköve-
telményekre figyelni kell, plusz a minta elemszáma 30 feletti
legyen. Ez a teszt arra ad választ, hogy két nagy minta szár-
mazhat-e ugyanabból a populációból (vagyis az átlagaik szig-
nifikánsan különböznek-e) [2].
A nullhipotézis azt állítja, hogy az átlagok különbsége nor-
mális eloszlású véletlen változó, amelynek várható értéke nulla.
A nullától való lényeges eltérés valószínűsége pedig kicsi, és ha
ez a szignifikancia-szint alatti, akkor elvetjük a nullhipotézist.
42
43. A paraméteres hipotézis-vizsgálatok közül ez az egyik leg-
régebben használt eljárás. A z érték szerint kellett kikeresni a
megfelelő p értéket a standard normális eloszlás táblázatából.
Ez ma már gombnyomásra megy. Erről röviden ennyit, nem
sokat fogod használni.
2. Student-t teszt
Egyszer volt (a XX. század elején), hol nem volt (Dublinban),
volt egyszer egy sörfőzde. Ebben a sörfőzdében dolgozott
egy – nem fogod kitalálni – matematikus. Úgy hívták, hogy
Gossett. Ma úgy mondanánk, hogy minőségi ellenőr volt. Ez a
Gossett észrevette, hogy kis elemszámú minták esetén (n<30)
a valószínűségi eloszlás megváltozik, itt már nem használható
a Gauss-görbe [2]. Elemszámtól függően a harang kövérebb
vagy soványabb egy kicsit – ez a t-eloszlás. Sajnos a gyár szak-
mai titoknak tekintette a lelkes matematikus felfedezését, így
aztán Student álnév alatt szivárgott ki az igazság. Ezt a tesztet
azóta is Student-tesztnek hívják.
Tehát kis elemszámú minták esetén használhatjuk. Az orvo-
si-biológiai kísérletek gyakorlatában gyakran szembesülünk
kis elemszámmal (költségigényes, időigényes, túl speciális cso-
port, stb.). Jegyezd meg, hogy a t próba alkalmazási feltételei:
• a változók függetlenek és
• normális eloszlásúak,
• a minták szórása pedig egyenlő (két minta esetén azok
szórása nem különbözik szignifikánsan egymástól).
Ezt a tesztet fogod várhatóan a legtöbbet használni. A kép-
leteket, számításokat mellőzzük, ha érdekel utánanézhetsz
bárhol, nem tankönyv, amelyikben nincs benne. Most csak azt
mondom el, hogy mikor mire klikkelj.
a) egy minta átlagát hasonlítjuk egy fix értékhez (One
sample T-test): a patagóniai skizofrén férfiak életkorát tar-
43
44. talmazó minta mellett a fix érték legyen például az indonéz
kutató kijelentése, hogy az ők hasonló patagóniai mintájukban
az átlagéletkor 40 évnek jött ki. A statisztika program ebből ki
fogja számolni, hogy t=-4,54, p=0,000 (vagyis p<0,001). Tehát
annak valószínűsége, hogy az indonéz kutató jól dolgozott,
gyakorlatilag nulla (nem egyenlő nullával, csak nagyon közel
van hozzá). Ilyenkor arra is kell gondolni, hogy esetleg a mi
munkánkban van a hiba . Tény az, hogy a 32,7-es átlag és
a 40-es átlag között akkora a különbség, hogy a véletlen ezt
nem okozhatta (ilyen kis szórás mellett). Ha az indonézek
azt mondták volna, hogy 33 év jött ki nekik, akkor a t-teszt
p=0,84-et adott volna eredményül, amit úgy olvasnánk ki,
hogy 84% eséllyel a véletlen is okozhat ekkora különbséget
(33-32,7=0,3év). Ebben az esetben a nullhipotézis érvényben
marad, lényegében ugyanazt az eredményt kaptuk, minden
rendben.
b) független minták átlagának összehasonlítása (Indepen-
dent samples T-test): ha a kedves indonéz kollega elküldi a
mintát (pl. n=22, x =40,0), akkor még biztosabb összehason-
lítást végezhetünk kétmintás T-teszttel. Ezt a számolást azzal
kell kezdeni, hogy eldöntjük, hogy a két minta szórása külön-
bözik-e egymástól vagy nem. Ezt az F-teszttel (vagy Bartlett
teszt) lehet elvégezni.
• F-teszt: a varianciák egyenlőségének ellenőrzésére való
ez a teszt. A két minta varianciájának aránya egyenlő F-
el [5]. Az F-eloszlásnak külön táblázata van, kis minták
esetén az eloszlása nem olyan mint a normál görbe. A
kétmintás t-próbának feltétele, hogy a minták szórása
kb. azonos legyen (F≈1), vagyis statisztikai értelemben
a szórások ne különbözzenek. Tehát az F-teszt dönti el,
hogy használhatsz-e Student t tesztet vagy nem.
44
45. • Welch-teszt: ha az F-teszt azt mondja, hogy a két minta
varianciája nem egyenlő, akkor a t-próba helyett használ-
juk [1]. Ez a teszt gyengébb, mint a kétmintás t-próba,
amúgy a lényeg ugyanaz.
Most azt kellene mondanom, hogy ha mindkét minta
elemszáma meghaladja a 30-at, akkor z-teszttel dolgozzál,
mert 30 felett már használható a standard normáleloszlás.
A gyakorlatban minden másképp van. Akármilyen mintáid
legyenek, jó a t-teszt, mert 30 alatt kötelező, 30 felett pedig
nyugodtan használható, mert nagy számoknál nem különbö-
zik a normál-eloszlástól. Ami a varianciák egyenlőségét illeti
– egyes programok az eredményt az F-teszttel együtt adják
meg, még a Welch-tesztet is elvégezik, csak arra kell figyelned,
hogy a megfelelő sorból olvasd ki az eredményt.
c) párosított minták átlagának összehasonlítása (paired
samples T-test): önkontrollos vizsgálatoknál használható,
vagyis ha ugyanazokon az egyedeken mérünk pl. élettani para-
métereket valamilyen beavatkozás előtt és után [5]. Ez az egyik
legerősebb próba, ezért javaslom, hogy lehetőség szerint úgy
tervezd a kísérleteidet, hogy önkontrollosak legyenek, mert itt
nem kell tartani egy rakás ismert és ismeretlen tényezőtől, ami
mintánként különbözhet. Itt nem kell a varianciát figyelni.
Szerintem már elfelejtetted, hogy a patagóniai betegeink
második feladatsorát még nem hasonlítottuk össze az első-
vel. A nullhipotézis és az alternatív hipotézis megfogalmazá-
sa néhány oldallal előbb megtörtént; mindkét teszt normál
eloszlású (Shapiro: p1=0,517 és p2=0,456), és a varianciák sem
különböznek (F-teszt: F=0,082, p=0,776). Az elemszám nem
nagy (n1=n2=27), ugyanazon a mintán végeztünk két mérést,
tehát minden együtt van ahhoz, hogy a párosított t-tesztet
megkérdezzük. Az eredmény: p<0,001. Nullhipotézis elvetve.
45
46. Tehát valami történt a két megmérettetés között, ami nem
magyarázható a véletlennel: hatásos volt a terápia.
Rövid kitérő következik.
Az eddig tárgyalt hipotézisvizsgálatok csak arra adtak
választ, hogy az átlagok különböznek vagy sem. Megtehetjük
azt is, hogy célzottan rákérdezünk, hogy mennyi a valószí-
nűsége annak, hogy az egyik minta nagyobb (nem egyenlő és
nem is kisebb) mint a másik. Ezt ritkábban szokás használni,
úgy hívják, hogy egy-véges teszt (one-tailed test). Ami ennél
talán fontosabb, az a két-véges teszt (two-tailed test). Aki nem
foglalkozik az egy/két végek kérdésével, az egész életében két-
véges teszttel dolgozik anélkül, hogy tudna róla. Nem tudja,
hogy a konfidenciaszintet automatikusan α = 0,05-re tette, és
ezzel levágott 2,5-2,5%-ot az eloszlási görbe két végéről. Jó
tudni, hogy ha egy két-véges hipotézis alig 5%-on szignifikáns,
akkor egyvéges hipotézisként már 2,5%-on szignifikáns lenne
[5, 10]. Éppen ezért fontos, hogy először a hipotézist mondjuk
ki, és az alapján válasszunk egy-véges vagy két-véges tesztet.
Nyilván, látod te is, hogy esetenként egyvéges teszttel szigni-
fikánsra lehet kozmetikázni az eredményt (p=0,06, ráklikkelsz
az egy-véges tesztre, és láss csodát: p=0,03).
3. Varianciaanalízis (Analysis of Variance, ANOVA)
Az élő rendszerek egyik csodálatos és ugyanakkor szörnyen
bosszantó tulajdonsága a nagy variabilitás. Bármilyen mérhe-
tő dolgot próbálnál meghatározni élőlényeken, egy csomó füg-
getlen tényező versenyzik, hogy jól megszórja az adataidat. Ha
pontosan akarsz számolni, csoportosítanod kell az adatokat a
vélt befolyásoló tényezők szerint. Mindazonáltal, ha ezeket a
csoportokat mind kettesével hasonlítgatjuk össze, soha nem
érünk a végére. A varianciaanalízis arra jó, hogy egyszerre sok
46
47. mintát hasonlíthass össze. Ha például van tízféle protokoll egy
bizonyos karcinóma kezelésére, és sejted, hogy egyik sem ér
semmit, akkor beteszed tizenegyediknek a kontrollcsoportot,
lefuttatod a varianciaanalízist, és azonnal kijön, hogy egyfor-
ma az összes; megspóroltál egy félnapi számolgatást.
Megbeszéltük, hogy a T-teszt alapfeltétele a varianciák
egyenlősége, és azt is tudod, hogy ezt F-teszttel vizsgálják. A
varianciaanalízis ugyanazt az F-eloszlást használja, mint az F-
teszt, csak itt nem két minta varianciáját osztjuk el egymással,
hanem másról van szó. Nagyon figyelj!
1950-ben egy Fisher nevű matematikus azt találta ki, hogy
ha sok minta van, először kiszámítja a minták egybeömleszté-
séből kapott főátlagot, majd az egyes mintaátlagokat, és ezeket
összehasonlítja. Rövidesen rájött, hogy az adatok főátlagtól
való eltérése két helyről származik: a mintákon belüli átlagtól
való eltérésből és a mintaátlagok egymás közötti eltéréséből.
Még egy utolsó csavarás következik: azt mondta, hogy ne átla-
gok különbségeivel számoljunk, hanem a szórásnégyzetekkel,
azaz a varianciával [5].
Minden mintának van tehát egy saját varianciája, ezeknek
a saját varianciáknak az összege a mintákon belüli variancia
( ). Mivel a minták átlaga nem egyenlő, ez is kifejezhető egy
varianciaként, ez lesz a csoportok közötti variancia ( ).
Legyen
Ha igaz a nullhipotézis, akkor a csoportokon belüli variancia
egyenlő a csoportok közötti varianciával, tehát .
47
48. Minél nagyobb az F, annál biztosabb, hogy dobhatod el a
nullhipotézist. Használatának alapfeltétele, hogy
• az egyes mérések egymástól függetlenek legyenek
• normális eloszlás
• a belső varianciák nem különböznek szignifikánsan
a) Egyutas, egyszeres osztályozású varianciaanalízis (One-
way ANOVA): Kettőnél több független minta összehasonlítása.
Mondok egy példát: legyenek A, B, C és D gyógyszerek, mond-
juk herpesz kezelésére. Adjunk mellé placebónak egy ötödiket,
ez lesz az E. A függő paraméter legyen a kezelés időtartama
(napok). A táblázat így néz ki:
4. Táblázat. Herpesz kezelése
Gyógyszer Napok száma
E 7
C 7
D 6
E 7
A 8
B 7
E 8
... ...
Egyutas varianciaanalízissel p=0,265 azt jelenti, hogy a her-
pesz A, B, C vagy D gyógyszerrel kezelve ugyanannyi idő alatt
gyógyul (egy hét), mint azok nélkül (E= placebo, 7 nap). Ha
p<0,01, akkor csak annyit tudunk, hogy a vizsgált csoportok
között van legalább egy, amely szignifikánsan különbözik a
többitől. Ebben az esetben érdemes valamilyen többszörös
összehasonlításos tesztre klikkelni (pl. a Bonferroni-teszt
48
49. mindenkit mindenkivel páronként összehasonlít), vagy a leg-
alaposabb a páronként kiszámolt Student t-teszt.
b) Kétutas varianciaanalízis (Two-way ANOVA): Két füg-
getlen változó egyidejű hatásának vizsgálata. Példa: van egy
gyógyszercég négy gyógyszerügynök (Ü) alkalmazottal, és
háromféle fájdalomcsillapító (X) azonos áron.
5. Táblázat. Fájdalomcsillapítók, napi kereslet
Bevétel (RON/nap) X Ü
34 1 1
12 1 2
30 1 3
28 1 4
53 2 1
... ... ...
A gazdasági igazgató arra kíváncsi, hogy a fájdalom-csillapí-
tókból származó bevételek mitől függnek inkább: a gyógyszer-
ügynökök teljesítményétől vagy a gyógyszer típusától. Ha azt
kapta eredménynek, hogy a bevétel az X-változóra, illetve az
X × Ü interakcióra nem szignifikáns, viszont az Ü-változóra
igen, akkor a következtetés az, hogy az ügynökök nem egy-
formán dolgoznak. Érdekesebb a helyzet, ha kizárólag az X*Ü
interakció szignifikáns. Ez azt jelenti, hogy egyik ügynök vala-
melyik gyógyszert nagyon másképpen forgalmazza.
Létezik háromutas, négyutas, stb. varianciaanalízis is, de
nem érdemes bonyolítani, amire kell, arra nekünk elég ez a két
módszer. Talán mondanom sem kell, hogy igaz ugyan, hogy
névlegesen varianciák különbségét számoljuk, de ettől még
átlagok különbségéről szól a történet.
49
50. b) Nemparaméteres tesztek
4. Előjelpróba (sign-test)
Ez a legegyszerűbb nemparaméteres teszt, egy bélyeg hátán
ki lehet számolni. Mondok egy példát: az a kérdés, hogy adott
gyógyszer befolyásolja-e a szívfrekvenciát. Kettős vak kísér-
letet (double mind randomized trial) alkalmazunk, vagyis:
két részre osztjuk a beteganyagot, az egyik csoport a vizsgált
gyógyszert kapja, a másik a placebót, sem az orvos, sem a bete-
gek nem tudják, hogy milyen gyógyszert kaptak éppen.
6. Táblázat. Szívfrekvencia gyógyszeres befolyásolása
Placebo Gyógyszer Különbség Előjel
70 82 12 +
78 80 2 +
74 73 -1 -
69 77 8 +
... ... ... ...
A kísérlet tart mondjuk kétszer egy hetet, és egy hét után
gyógyszercsere van; az egyetlen megkötés az, hogy mind-
két pirula egy hétig fusson. Fontos, hogy a gyógyszernek ne
legyen hosszú távú hatása a betegség menetére. Az adatokat
számítógépbe írjuk, az első sorba írjuk például Mari néni ada-
tait, placebo mellett 70, a gyógyszer hatására pedig 82 volt a
szívfrekvenciája. Az nem érdekel, hogy kezelés előtt mennyi
volt a szívfrekvencia, mert itt mindenki saját magának a kont-
rollja: minden betegnél felírjuk a harmadik oszlopba a place-
bo-gyógyszer különbséget; a negyedik oszlopba kerül csak a
különbség előjele. Könnyen belátható, hogy a nullhipotézis
érvényessége esetén kb. ugyanannyi pozitív előjelet fogunk
kapni mint negatívat. Összeszámoljuk tehát a + előjeleket, s
50
51. megnézzük egy táblázatban (maradj nyugton, a számítógép
megnézi), hogy pl. 40 elem esetén 39 + előjelet mekkora
valószínűséggel adhat a véletlen. Szerinted?
Az előjelpróba egyéb alkalmazási területe pl. a nemek gya-
korisága közötti eltérés egy beteganyagban, vagy igen-nem
válaszos kérdőívek esete stb., vagyis amikor két egymást kizáró
esemény előfordulásának valószínűségét hasonlítjuk össze.
5. Mann-Whitney-U teszt (Wilcoxon rank sum test)
Ez a teszt a kétmintás t-teszt nemparaméteres megfelelője.
Ezzel a teszttel több név alatt is találkozhatsz, tudjad, hogy
lényegében ugyanazon eljárásról van szó (Mann-Whitney
U test, vagy Mann-Whitney-Wilcoxon rangösszeg próba,
Wilcoxon kétmintás teszt). Ha olyan mintád van, amely nem
normális eloszlású, ha a varianciák különböznek, ha az adataid
nem numerikus adatok, de rangsorolhatók – nincs semmi baj,
a Mann-Whitney-U-teszt erre van kitalálva. Ha a mintád nor-
mális eloszlású, és numerikus adataid vannak (arányskálán),
de neked nincs kedved Student-tesztet csinálni, akkor sincs
semmi gond, mert a Mann-Whitney-U-teszt majdnem olyan
erős, mint a t-teszt [2]. A lényege egy nagyon érdekes trükk.
7. Táblázat. APGAR-score: varicellás újszülöttek vizsgálata
Varicella Egészséges
7 10
10 9
6 10
8 10
7 8
10
51
52. Egy példa segítségével fogom előadni: az a kérdés, hogy
újszülöttkori varicella esetén az APGAR-score (újszülöt-
tek általános fizikai állapotát méri 5 perccel a születés után)
különbözik-e az egészséges újszülöttekétől. Egy ritka betegsé-
get vizsgálunk, az elemszám nagyon kicsi (5+6), az adatainkat
sorrendi skálán mérjük (APGAR 0..10), tehát az eddigi tesztek
használhatatlanok.
8. Táblázat. APGAR-score, rangszámok
6 7 7 8 8 9 10 10 10 10 10
1 2,5 2,5 4,5 4,5 6 9 9 9 9 9
A két mintát egyetlen sorozattá egyesítjük, és növekvő nagy-
ságrendbe tesszük. Minden érték egytől kezdődően rangszá-
mot kap, ha több adat is egyenlő, akkor mindegyik az illető
rangszámok átlagát kapja. Például két nyolcas van, ki legyen
a negyedik, és ki legyen az ötödik? Mindkettő megkapja a
(4+5)/2 rangszámot. Ezután szétválasztjuk a mintákat, és a
rangszámokkal számolunk tovább.
A varicella-csoportban a rangok átlaga 3,9, az egészsége-
seknél pedig 7,75, ennek megfelelően p=0,043 – hűha, ez
necces volt. Erről jut eszembe, hogy ha szignifikáns eredményt
kapunk, akkor lehet ünnepelni, de ha nem, az még nem jelenti
azt, hogy nincs is összefüggés. Ebben az esetben ismét meg
kell próbálni nagyobb elemszámnál, esetleg más statisztikai
próbával, esetleg kiszűrni a befolyásoló tényezőket, stb. Nehéz
ügy.
6. Wilcoxon-féle előjeles rangpróba (Wilcoxon signed
ranks test)
A legfontosabb mondanivalóm az, hogy ezt a tesztet ne
téveszd össze a kétmintás Wilcoxon (rangösszeg) próbával,
sem az egymintás Wilcoxon próbával (erről nem esett szó, egy
52
53. elméleti várt értékhez hasonlítjuk a mintánk átlagát, most nem
töltjük az időt vele). Akárcsak az előjel-próbánál, a Wilcoxon-
féle előjeles rangpróba esetén is párosított mintákkal dolgo-
zunk. A párok közötti különbségekhez rangokat társítunk úgy,
hogy azok előjelét is megtartjuk. A 6. táblázatból radírozd ki az
„Előjel” című oszlopot, és máris kész a táblázatod. A „Különb-
ség” felirat alatti adatokból számolhatunk előjeles rangpróbát.
A nullhipotézis értelmében a rangok összege kb. nulla kell
legyen. Gondolom, érthető, hogy ez a teszt egyesíti az előjel-
próba és a Mann-Whitney-U teszt előnyeit. Felesleges belefá-
radni a részletekbe, a számítógépbe csak az első két oszlopot
kell beírni, abból ki tudja számolni az előjeles rangpróbát.
7. Kruskal-Wallis teszt (Nemparaméteres ANOVA)
Ez a teszt a Mann-Whitney U teszt általánosításaként is
felfogható [2]. Ha kettőnél több mintát akarok összehason-
lítani, de az egyutas ANOVA valami miatt nem megy, akkor
klikkelj a Kruskal-Wallis tesztre. Alkalmazási feltételei nem túl
szigorúak: legyen véletlen mintavétel, független minták, a vál-
tozó pedig legalább ordinális skálán legyen mérhető. Átlagok
közötti különbség kimutatására nagyon érzékeny ez a próba.
Ha elvetjük a nullhipotézist, akkor a minták páronkénti össze-
hasonlításához Mann-Whitney U rangösszeg próbákat lehet
végezni.
8. Khi-négyzet (χ2) próba
Független kvalitatív vagy diszkrét kvantitatív változók
elemzésére alkalmas tesztről van szó. Aki papíron számol, az
gyakorisági táblázatot készít. Ezt a táblázatot úgy hívjuk, hogy
kontingencia-táblázat.
53
54. 9. Táblázat. Szívfrekvencia gyógyszeres befolyásolása –
kontingencia-táblázat
CSOPORT
Szívfrekvencia Összes
Placebo Kezelt
3 7 10
Nőtt
13,6% 35,0% 23,8%
9 8 17
Változatlan
40,9% 40,0% 40,5%
10 5 15
Csökkent
45,5% 25,0% 35,7%
22 20 42
Összes
100,0% 100,0% 100,0%
Térjünk vissza az előjelpróbánál felvetett példához: az a
kérdés, hogy befolyásolja-e a szívfrekvenciát egy bizonyos
gyógyszer. Összesen 42 beteget vizsgáltunk, ezek közül 20
részesült gyógyszeres kezelésben, 22 pedig csak azt hitte. A
továbbiakban azt fogjuk megnézni, hogy ezek a kapott gya-
koriságok mennyiben térnek el a nullhipotézis által jósolt
gyakoriságoktól. A nullhipotézis azt mondja, nincs semmilyen
összefüggés a gyógyszerelés és a ritmuszavarok gyakorisága
között, a két véletlen változó egymástól független.
Ahhoz, hogy szemléletes legyen a kontingencia-táblázat,
érdemes feltüntetni a két csoporton belüli relatív gyako-
riságokat is. Láthatjuk, hogy a placebo csoportban a bete-
gek 13,6%-a mutatott szívfrekvencia növekedést, a kezelt
csoportban viszont jóval nagyobb ez az arány (35,0%).
A szívfrekvencia csökkenését nézve, éppen fordított a
helyzet: 45,5%-25%. Ez alapján azt sejtjük, hogy a keze-
lés növeli a szívfrekvenciát, de ezt be is kell bizonyítani.
Nézzük meg, mit jósol a nullhipotézis az első cellába. A 42
54
55. páciens közül 10-nek nőtt a szívfrekvenciája, tehát a rela-
tív növekedés egyenlő 10/42 (=23,8%). Amennyiben igaz a
nullhipotézis, akkor mindkét csoportban nagyjából 23,8%-ot
kell kapjunk az első sorban. Tehát az első cellában a várható
(expected nr., E) gyakoriság: 22 × 10/42=5,2, de látod, hogy
a tapasztalt gyakoriság (observed nr., O) nem ennyi, hanem
egyenlő 3-al. A χ2 próba minden cellára kiszámolja a
�O � E �2
E
értéket, pl. az első cellában:
�3 � 5,2�2 � 0,93
5,2
ezeket összegzi, és máris meg van a χ2 értéke, amelynek a χ2
eloszlás táblázatában megfelel egy p érték. Ezzel az általános
eljárással bármilyen n×m-es kontingencia-táblázatra számol-
ható χ2 teszt.
A mi példánkban χ2 = 3,238 és p = 0,198 az eredmény. Tehát
a nullhipotézist nem tudtuk elvetni, nem tudtuk bizonyítani,
hogy a gyógyszer hatásos lett volna. Remélem érthető, hogy ez
nem jelent bizonyítékot arra, hogy a gyógyszer hatástalan!
Jó, ha tudod, hogy a χ2 próba érvényességének feltétele, hogy
a cellák legalább 80%-ban a várható gyakoriságok (E) értéke
nagyobb legyen mint 5, és sehol ne legyen 1 alatti (a megfigyelt
gyakoriság természetesen lehet 0). Ha ezt nem tudod tartani,
akkor Fisher-féle exakt teszttel kell dolgoznod.
55
56. 10. Táblázat. 2×2-es kontingencia-táblázat
Két vizsgált csoport
Válasz Összesen
1 2
Igen a b s1
Nem c d s2
Összesen n1 n2 N
Gyakran fordul elő, hogy csak 2×2-es kontingencia-tábláza-
tunk van. Ha beteg- és kontrollcsoportunk van, vagy ha epide-
miológiai vizsgálatokban a két vizsgált csoport a kockázatnak
kitettek és a kockázat nélküliek, valamilyen tünet jelenlétét
vagy terápiás választ vizsgálunk, akkor ilyen táblázattal fogunk
dolgozni.
Ez a χ2 tesztnek egy olyan sajátos esete, amellyel számítógép
nélkül is jól meg tudsz birkózni. Ennyi az egész:
N �a � d � c � b �
2
�2 �
n1 � n2 � s1 � s 2
Ezt tényleg egy bélyeg hátán is ki lehet számolni. Nem?
11. Táblázat. Gyakran használt Khi-négyzet küszöbértékek
χ2 > p<
3,841 0,05
6,635 0,01
10,827 0,001
Itt a nagyszerű alkalom, hogy megvizsgáld, hogy a nemek
között van-e szignifikáns különbség a sapkahordás tekinteté-
ben. Fog ez menni: kontingencia-táblázat, fiúk és lányok, van
56
57. sapkája, nincs sapkája. Mondok egy példát, te majd átjavítod
a számokat.
Nullhipotézis: sapkaviselet gyakoriságát tekintve nincs
különbség a nemek között.
Alternatív hipotézis: igenis, van különbség!
12. Táblázat. Kontingencia-táblázat: sapkaviselet vizsgálata
nemek szerint
Nemek
Sapka Összesen
Fiúk Lányok
Van 18 4 22
Nincs 6 10 16
Összesen 24 14 38
Tehát a 11. táblázat szerint ez p<0,01. (A 11. táblázat érté-
kei csak 2×2-es kontingencia-táblázat esetén használhatók!)
Tehát nagy bizonyossággal (p<0,01) állítjuk, hogy a sapkavi-
selet nemek szerint eltérő. Maga a teszt csak ennyit mond, de
ha rendesen felírtuk volna a relatív gyakoriságokat, akkor még
jobban látszana, hogy a fiúk állandóan sapkában vannak, a
lányok alig (75% vs. 40%). Mondom, egy bélyeg hátán...
Ha számítógéppel dolgozunk, akkor...
Lehetőleg jól bevált, valamelyik legismertebb statisztikai prog-
ramcsomagot használd (SPSS, STATA, BMDP, MINITAB,
SAS). Ha egyik sem hozzáférhető, akkor a Microsoft Excelben
a Tools alatt az „Addins...”-re klikkelve az Analysis ToolPak-et
installálhatod. A Tools menüben megjelenik a Data Analysis
opció. Használata nehézkes és korlátozott, de meg fogsz lepőd-
ni, hogy mennyi mindent tud.
Már az adatok bevitele előtt definiáld a változókat, vagyis
mindegyiknek adjál nevet, aztán mondd meg a programnak,
57
58. hogy egész vagy nem egész számot, dátumot vagy szöveget
akar jelenteni az a változó. Minden információt számmá kell
alakítani. Beírod például, hogy neme, beállítod, hogy egész
számokkal fogod jelölni, tehát nulla tizedesig kéred, a skála
nominális, aztán a values vagy hasonló címszó alatt meg lehet
adni, hogy 1=fiú, 2=lány. Ugyanígy beviszed a sapka változót,
ugyancsak nominális, 0=nincs, 1=van. Ha hiányzik egy adat,
azt is jelölni kell valamivel! Mondjuk a –1 jelentse azt, hogy
nincs adat. Ha szérumkoleszterin szintet mérsz, akkor a col
(=szérum koleszterin) változó numerikus adat, arányskálán
(scale, ratio) mérendő, beállítod, hogy 2 vagy 3 tizedesig, stb.
Ez után jöhet az adatok bepötyögése.
Ha az első sorba azt írod, hogy
13. Táblázat. Adatbevitel általános formája
neme sapka col
1 0 9,5
... ... ...
ez azt jelenti, hogy egy fiúról van szó, akinek nincs sapkája és
a szérumkoleszterin szintje 9,5 mM/l. Minden sor egy embert
jelent, minden oszlop egy paramétert, tulajdonságot.
A leíró statisztikák számolásánál, hipotézis-vizsgálatoknál
és mindenféle műveleteknél csak a változók nevével dolgozol.
Ha például azt szeretnéd, hogy helyetted a gép számolja ki a
sapkák és a nemek közötti összefüggést, akkor a χ2 tesztnél
megadod, hogy az oszlopokban legyen a neme, a sorokban a
sapka, és OK.
Csak olyan módszereket alkalmazz, amelyeket jól ismersz.
A bőség zavarában vigyázz, hogy mit jelölsz be. Legjobb, ha
előbb elolvasod a súgót.
58
59. Mielőtt megkapnád az eredményt, legyen elképzelésed,
hogy milyen válasz várható. A számítógép tudja a statisztikák
értékét, de az értelmét nem! Vedd észre, ha nyilvánvalóan
rossz eredmény kaptál. Nagyon vigyázz, mert a számítógép
nem fog néhány keresetlen szóval figyelmeztetni, hogy már
megint értelmetlen kérdést tettél fel; egyszerűen értelmetlen
választ ad.
A p=0,000 eredmény azt jelenti, hogy p<0,001, de ezt már
régóta tudod.
59
60. Utószó helyett
Hivatalos statisztikák szerint az autópályákon a halálos autó-
balesetek 8%-át menetiránnyal szemben közlekedő sofőrök
okozzák, ami azt jelenti, hogy a halálos autóbalesetek 92%-a a
helyes menetirányba haladó sofőröknek tulajdonítható, tehát
statisztikai szempontból biztonságosabb az autópályán menet-
iránnyal szemben haladni!?
Szerinted?
Szimbólumok jegyzéke
N alapsokaság elemszáma
n minta elemszáma
x minta átlaga
µ alapsokaság átlaga
S ferdeség (Skewness)
K hegyesség (Kurtosis)
s minta szórása
SD, σ alapsokaság szórása, standard deviáció
v, σ2 variancia
Q1, Q2, Q3 kvartilisek
r korrelációs együttható mintában
ρ korrelációs együttható alapsokaságban
SEM átlag standard hibája
60
61. Felhasznált irodalom
[1] Barta Z. – Biometria (http://puma.unideb.hu/~zbarta/teaching/
biometria)
[2] Belágyi J. – Orvosi biometria, Pécsi Orvostudományi Egyetem, Pécs,
1999.
[3] Farkas E. – Îndreptar de lucrări practice în sănătatea publică. Legislaţie
sanitară, UMF Tg. Mureş, Târgu Mureş, 2000.
[4] Hajtman B. – Matematika orvosok és gyógyszerészek részére, Medici-
na Könyvkiadó, Bp, 1980.
[5] Kirkovits M. – A biostatisztika alapjai, Debreceni Orvostudományi
Egyetem, Debrecen, 1998.
[6] László J. – Prelucrarea statistică a datelor experimentale, IMF Tg.
Mureş, Tg. Mureş, 1973.
[7] Makara B. G.: Bevezetés a biometriába
(http://xenia.sote.hu/hu/biosci/docs/biometr/course/introduc/index2.htm)
[8] Marc S. – Prelucrarea statistică în medicină şi biologie, Editura
Academiei, Bucureşti, 1961.
[9] Mezei E., Veres V. – Társadalomstatisztika, Kolozsvári Egyetemi Kiadó,
Kolozsvár, 2001
[10] Patrick, R. – Metodele statistice şi experimentale în ştiinţele umane,
Polirom, Iaşi, 2004.
[11] Puri, K. B. – Statistics for the Health Sciences using SPSS, Saunders,
London, 1996
[12] Trebici, V. – Mica enciclopedie de statistică, Editura ştiinţifică şi
enciclopedică, Bucureşti, 1985.
[13] Vargáné H. P., Boján F. – Demográfiai és epidemiológiai módszerek a
népegészségügyben, Literatura Medica Kiadó, Bp, 1996.
61