2. 2
KHI NÀO SỬ DỤNG KIỂM ĐỊNH THAM SỐ& PHI THAM SỐ ?
Kiểm định phi tham số là một dạng kiểm định khi các điều kiện dành
cho kiểm định tham số không phù hợp như: tổng thể không có phân phối
chuẩn, dữ liệu thuộc vào các thang đo định danh, thứ bậc,…. hoặc khi dữ
liệu xuất hiện nhiều các giá trị bất thường (ngoại lệ).
Việc sử dụng kiểm định tham số hay phi tham số phụ thuộc rất nhiều
vào điều kiện tổng thể có hay không phân phối chuẩn như bảng so sánh
dưới đây:
Chú ý rằng các KĐPTS thì không mạnh bằng các KĐ có
tham số. Thành thử nếu điều kiện cho phép dùng KĐTS được
thỏa mãn, thì ta nên dùng KĐ có tham số.=> Để định nghĩa
KĐ phi Ts ta xét các ví dụ sau:
Kiểm định phi tham số Kiểm định tham số
1. Kiểm định sự bằng nhau của 2 trung vị (Med)
trong trường hợp 2 mẫu độc lập.
1. Kiểm định sự bằng nhau của 2 trị trung bình trong
trường hợp 2 mẫu độc lập.
2. Kiểm định trung vị (Med) 2. Kiểm định về giá trị trung bình trên 1 mẫu
3. Kiểm định sự bằng nhau của 2 trị trung vị trong
trường hợp mẫu phối hợp từng cặp
3. Kiểm định sự bằng nhau của 2 trị trung bình trong
trường hợp mẫu phối hợp từng cặp
4. Kiểm định Kruskal- Wallis 4. Phân tích phương sai 1 yếu tố (ANOVA)
3. • Để kiểm định xem việc làm thêm có ảnh hưởng
đến kết quả học tập không người ta chọn ngẫu
nhiên một số sinh viên và hỏi họ về kết quả học tập
với thời gian làm thêm trong các khoảng : < 8
giờ/tuần; 8 – 16 giờ/tuần; >16 giờ/tuần. Nếu các
giả định về các tổng thể có phân phối chuẩn và
phương sai bằng nhau không được thỏa mãn thì
việc kiểm định sẽ thực hiện như thế nào ?
• Để đánh giá xem chương trình quảng cáo mới có
cải thiện doanh số bán hàng của các cửa hàng
trong cùng 1 tập đoàn không, người ta chọn ngẫu
nhiên 8 cửa hàng và quan sát doanh số theo tháng
của các cửa hàng này trước và sau khi áp dụng
chương trình quảng cáo mới. Nếu giả định rằng cỡ
mẫu không thể điều tra thêm và doanh số không
tuân theo luật phân phối chuẩn thì việc kiểm định
sẽ tiến hành như thế nào?
Các ví dụ mở đầu
3
4. • Giám đốc 1 trung tâm hỗ trợ việc làm muốn kiểm
tra xem mức thu nhập của sinh viên sau khi tốt
nghiệp 2 năm có đạt được mức lương tối thiểu là
350 (USD) hay không với giả định rằng thu nhập
của sinh viên không tuân theo phân phối chuẩn.
• Để đánh giá xem phương thức bán hàng mới có cải
thiện doanh số bán hàng của các cửa hàng trong
cùng 1 tập đoàn không người ta đã chọn ngẫu
nhiên 8 cửa hàng và quan sát doanh số theo tháng
của các cửa hàng này trước và sau khi áp dụng
phương thức bán hàng mới ? Nếu giả định rằng cỡ
mẫu không thể điều tra thêm và doanh số không
tuân theo phân phối chuẩn thì việc kiểm định sẽ
tiến hành như thế nào ?
Các ví dụ mở đầu
4
5. • Khái niệm: Là kiểm định được xây dựng khi các giả thuyết
của kiểm định tham số bị vi phạm hoặc trên 1 cỡ mẫu nhỏ
hoặc trên các thang đo không có độ tin cậy cao.
Khái niệm về KĐ phi tham số
5
6. BÀI TOÁN KĐ PHI THAM SỐ
• Trên 1 mẫu: ߤ ൌ ߤ
• Trên 2 mẫu phụ thuộc: ߤଵ ൌ ߤଶ (có thể đưa về 1 mẫu để KĐ
trung vị)
Kiểm định dấu và hạng Wilcoxon
• Trên 2 mẫu độc lập ߤଵ ൌ ߤଶ
Kiểm định tổng hạng Wilcoxon
• Trường hợp 3 ݉ẫ ݑđộܿ ݈ậ ሺNếu xếp hạng được).
Kiểm định Kruskal Wallis
• Trường hợp 2 ݉ẫ ݑđộܿ ݈ậ ሺNếu không xếp hạng được)
(các dâu hiệu định tính).
Kiểm định Khi bình phương
6
7. 1. Kiểm định dấu và hạng
Wilcoxon về trung vị của 1 tổng thể
7
Kiểm định phi tham số Kiểm định tham số
Kiẻm định trung vị (Med) Kiểm định về giá trị TB trên 1 mẫu
Kiểm định sự bằng nhau của 2 trung
vị trong trường hợp mẫu phối hợp
từng cặp
Kiểm định sự bằng nhau của 2 trung
bình trong trường hợp mẫu phối hợp
từng cặp
0 0
1 0
:
:
H Med Med
H Med Med
=
≠
0 0
1 0
:
:
H
H
µ µ
µ µ
=
≠
0
1
: 0
: 0
d
d
H Med
H Med
=
≠
0
1
: 0
: 0
d
d
H
H
µ
µ
=
≠
8. 1. Kiểm định dấu và hạng
Wilcoxon về trung vị của 1 tổng thể
8
B5:Tính giá trị kiểm định W
Kiểm định 2 bên (1):
Kiểmđịnh bên phải (2):
Kiểmđịnh bên trái (3):
B6:Tra bảng 6 Wilcoxon tìm giá trị
cận dưới và cận trên ܹ, ܹெ
ܿủܽ ܹഀ
మ
ᇲ
ሺKĐ 2 bên)
݄ặܿ ܹఈሺᇲ) (KĐ 1 bên)
{ }W= min coät R+; coät R-∑ ∑
W= coät R+∑
W= coät R-∑
9. Với Wα(n’) :cận dưới ở bảng tra số 6,
n’ = sốlượngDi≠≠≠≠0
9
Ta chỉ xét cận dưới vì kiểm định này luôn thực
hiện ở bên trái
Bác bỏ ܪ nếu ܹ ൏ ܹఈ;ᇱ
Quy tắc bác bỏ
10. 2. Trường hợp mẫu lớn (n>20)
10
Trường hợp 2: mẫu lớn ( n’ > 20) giá trị kiểm
định W sẽ xấp xỉ phân phối chuẩn với giá trị
kiểm định Z tính theo công thức sau:
B5:
Với
- W
W
W
Z
µ
σ
=
( )' ' 1
4W
n n
µ
+
=
( )( )' ' 1 2 ' 1
24W
n n n
σ
+ +
=
11. Quy tắc bác bỏ cho trường hợp mẫu lớn
(KĐ dấu và hạng Wilcoxon cho 2 mẫu phụ thuộc)
11
B6: Quy tắc bác bỏ
Kiểm định (1): Bác bỏ H0 khi |Z|>Zα/2
Kiểm định (2): Bác bỏ H0 khi Z >Zα
Kiểm định (3): Bác bỏ H0 khi Z < -Zα
12. 12
Ví dụ:
Kiểm tra trọng lượng của 1 số quả,
người ta có bảng kết quả:
Với mức ý nghĩa 5%, có thể cho
rằng Med = 350?
Đặt giả thiết:
Xi (g)
300
320
340
380
420
400
300
340
360
400
410
0
1
3 5 0
3 5 0
H
H
=
≠
13. 1. Kiểm định dấu và hạng
Wilcoxon về trung vị của 1 tổng thể
13
Trường hợp
1: Mẫunhỏ
(n≤≤≤≤20)
B1:Tính chênh
lệch Di giữa
giá trị quan sát
và giá trị trung
vị
Di = Xi –݀݁ܯ
B2:Lấy trị
tuyệt đối |Di |
Xi (g)
300
320
340
380
420
400
300
340
360
400
410
Di
-50
-30
-10
30
70
50
-50
-10
10
50
60
|Di|
50
30
10
30
70
50
50
10
10
50
60
14. 1. Kiểm định dấu và hạng
Wilcoxon về trung vị của 1 tổng thể
14
B3:Xếp hạng
cho |Di|,
+ nếu |Di|=0 thì
không xếp hạng
+ n u |Di|്0
thì nguyên t c
x p h ng như
sau:
Xi (g) Di |Di|
300 -50 50
320 -30 30
340 -10 10
380 30 30
420 70 70
400 50 50
300 -50 50
340 -10 10
360 10 10
400 50 50
410 60 60
15. 15
Nguyên tắc xếp hạng
+ Giá trị ܦ nhỏ nhất xếp hạng1, lớn nhất xếp hạng n,
+ Nếu tồn tại các ܦ bằng nhau thì tính hạng trung bình cho
tất cả các ܦ này.
+ Nếu ܦ =0 thì không được xếp hạng
Xếpthứtụ ܦ Hạng
1 10
2 10
3 10
4 30
5 30
6 50
7 50
8 50
9 50
10 60
11 70 11
7,5
4,5
2
10
7,5
2
4,5
7,5
2
7,5
16. 1. Kiểm định dấu và hạng
Wilcoxon về trung vị của 1 tổng thể
16
B3: Xếp hạng
cho |Di|, nếu
|Di|=0 thì không
xếp hạng
B4: Thêm 2 cột
R+ và R-
R+ : gồm
những hạng của
Di >0
R- : gồm những
hạng của Di <0
Xi (g) Di |Di|
300 -50 50
320 -30 30
340 -10 10
380 30 30
420 70 70
400 50 50
300 -50 50
340 -10 10
360 10 10
400 50 50
410 60 60
Hạng |Di|
7,5
4,5
2
4,5
11
7,5
7,5
2
2
7,5
10
R+
4,5
11
7,5
2
7,5
10
R-
7,5
4,5
2
7,5
2
17. 1. Kiểm định dấu và hạng
Wilcoxon về trung vị của 1 tổng thể
17
B5:Tính W (do KĐ 2 bên nên)
Kiểm định (1) :
Ta cóWα(n)= W0,05(11)= (13, 53)=>23,5 ∈(13, 53)
Quy tắc bác bỏ : ܶܽ ܿó ܹ ܹఈ
⇒ch pnh n H0
{ }=0
W = min 42,5 ; 23,5 23,5
{ }∑ ∑0
W = min coät R+; coät R-
18. Ví d
18
Giám đốc 1 trung tâm hỗ trợ việc làm muốn kiểm tra xem mức
thu nhập của sinh viên sau khi tốt nghiệp 2 năm có đạt được
mức lương tối thiểu là 350 (USD) hay không với giả định rằng
thu nhập của sinh viên không tuân theo phân phối chuẩn.
Kiểm tra ngẫu nhiên 10 SV cũ của trường với giá trị được cho ở
bảng
SV 1 2 3 4 5 6 7 8 9 10
Lương 364 385 270 350 290 400 520 340 389 410
Với mức ý nghĩa 5% hãy cho kết luận về giả thiết cho
rằng giá trị trung vị về thu nhập SV tốt nghiệp sau 2 năm
làm việc vượt quá con số 350USD
19. Gi i
19
Ki m đ nh trung v (Med)
Đ t gi thi t: ܪ: ݀݁ܯ 350, ܪଵ: ݀݁ܯ ൏ 350
Lương ሺ࢞) ࢊ ൌ ࢞ െ |ࢊ| Hạng R+ R-
364 14
385 35
270 -80
350 0
290 -60
400 50
520 170
340 -10
389 39
410 60
Giá tr KĐ bên trái: ܹ ൌ ∑ ܿộܴ ݐ െൌ 15,5
Tra b ng wilcoxon ta có ܹ ߙ; ݊ᇱ
ൌ ܹ 0,05; 9 ൌ 8; 37
⟹ ܹ 8 ⇒ ݄ܿấ݄݊ ậ݊ ܪ. ܾáܿ ܾỏ ܪଵ
K t lu n: v i m c ý nghĩa 5% không th nói r ng lương trung v c a SV...
20. Lưu ý khi KĐ trung vị của 1 tổng thể
20
Trường hợp 2: Mẫu lớn (n>20)
B5: tính Z
Trong đó
B6: Kiểm định 1 bên: Z < -Zα ⇒Bác bỏ H0
Kiểm định 2 bên: Z < -Zα/2 ⇒Bác bỏ H0
( )
( )( )
n n+1
W-
4Z=
1 2 1
24
n n n+ +
W= coät R+∑
21. • TH KĐ sự bằng nhau 2 trị TB cho TH 2 mẫu
phụ thuộc (mẫu phối hợp từng cặp)
1. Kiểm định dấu và hạng Wilcoxon
21
( ) 0
1
: 0
1
: 0
d
d
H M
H M
=
≠
( ) 0
1
: 0
2
: 0
d
d
H M
H M
≤
>
( ) 0
1
: 0
3
: 0
d
d
H M
H M
≥
<
V i
ܯௗ ൌ ݀݁ܯଵ െ Medଶ
Đưa v bài toán KĐ
trung v
B1: Đ t gi thi t
22. • Bước 2: Tính giá trị chênh
lệch giữa .
• Bước 3: Tính | |=> Xếp hạng
các giá trị này (theo nguyên
tắc xếp hạng).
• Bước 4:Với giá trị thì
ta đặt hạng của nó vào cột R+
và ngược lại thì vào cột R-
1. Kiểm định dấu và hạng Wilcoxon
(TH KĐ 2 mẫu phụ th uộc)
22
23. 1. Kiểm định dấu và hạng
Wilcoxon về trung vị của 1 tổng thể
23
B5:Tính giá trị kiểm định W
Kiểm định 2 bên :
Kiểmđịnh bên phải:
Kiểmđịnh bên trái:
B6:Tra bảng 6 Wilcoxon tìm giá trị
cận dưới và cận trên ܹ, ܹெ
ܿủܽ ܹഀ
మ
ᇲ
ሺKĐ 2 bên)
݄ặܿ ܹఈሺᇲ) (KĐ 1 bên)
{ }W= min coät R+; coät R-∑ ∑
W= coät R+∑
W= coät R-∑
24. Với Wα(n’) :cậndưới ở bảngtrasố 6, n’ = sốlượngDi≠≠≠≠0
24
Ta ch xét c n dư i vì ki m đ nh này luôn th c hi n bên trái
Bác b ܪ n u ܹ ൏ ܹఈ;ᇱ
Quy tắc bác bỏ
25. 2. Kiểm định dấu và hạng
Wilcoxon cho 2 mẫu phụ thuộc
25
Ví dụ:
Để kiểm tra hiệu quả của 1
khóa học, ta theo dõi kĩ
khả năng đọc của trẻ em
trước và sau khi học. Kết
quả như sau:
Với mức ý nghĩa 5%, khóa
học này có hiệu quả hay
không ?
Giải: ܯௗ ൌ ݎݐướܿ െ ݑܽݏ
Trước Sau
60 63
40 38
78 77
53 50
67 74
88 96
77 80
60 70
64 65
75 75
0
1
: 0
: 0
d
d
H M
H M
≥
<
26. 3. Kiểm định dấu và hạng
Wilcoxon cho 2 mẫu phụ thuộc
26
Trường hợp 1:
mẫunhỏ (n’≤≤≤≤20)
B1:Đặtܺଵ: ݎݐướܿ ܺଶ:
sau
Di = X1i – X2i
B2:|Di|
B3: Xếp hạng cho
|Di|, |Di|=0 thì
khôngxếphạng
B4:ThêmcộtR+
gồmhạngcủanhững
Di> 0
Trước Sau
60 63
40 38
78 77
53 50
67 74
88 96
77 80
60 70
64 65
75 75
Di
-3
2
1
3
-7
-8
-3
-10
-1
0
|Di|
3
2
1
3
7
8
3
10
1
0
Hạng
5
3
1,5
5
7
8
5
9
1,5
R+
3
1,5
5
27. 27
B5:
B6: Quy tắc bác bỏ : Tra bảng 6 để tìm giới hạn
trênvà giới hạn dướiWα(n’)=ሺܹ,ହ; ଽ)=(8,37)
Kiểmđịnh (3): (KĐ bêntrái)
Ta có ܹ ൌ 35,5 ܹ ൌ 8 ⇒ ݄ܿấ݄݊ ậ݊ ܪ
0
W = coät R- 35,5=∑
28. 2. Kiểm định dấu và hạng
Wilcoxon cho 2 mẫu phụ thuộc
28
Trường hợp 2: mẫu lớn ( n’ > 20) giá trị kiểm
định W sẽ xấp xỉ phân phối chuẩn với giá trị
kiểm định Z tính theo công thức sau:
B5:
Với
- W
W
W
Z
µ
σ
=
( )' ' 1
4W
n n
µ
+
=
( )( )' ' 1 2 ' 1
24W
n n n
σ
+ +
=
29. Quy tắc bác bỏ cho trường hợp mẫu lớn
(KĐ dấu và hạng Wilcoxon cho 2 mẫu phụ thuộc)
29
B6: Quy tắc bác bỏ
Kiểm định (1): Bác bỏ H0 khi |Z|>Zα/2
Kiểm định (2): Bác bỏ H0 khi Z >Zα
Kiểm định (3): Bác bỏ H0 khi Z < -Zα
30. Ví d
30
Một mẫu gồm 9 khách hàng được chọn ngẫu nhiên và yêu
cầu họ cho biết về sở thích của 2 loại kem đánh răng A và B
thông qua thang điểm từ 1 (thấp nhất) đến 5 (cao nhất). Kết
quả thu thập số liệu như sau:
Khách hàng 1 2 3 4 5 6 7 8 9
Sản phẩm A 4 5 2 3 3 1 3 2 2
Sản phẩm B 3 5 5 2 5 5 3 5 5
Với mức ý nghĩa 5% hãy kiểm định giả thuyết kem đánh răng A
được ưa thích hơn kem đánh răng B.
Đ t gi thi t ቊ
ܪ: ݀݁ܯௗ 0
ܪଵ: ݀݁ܯௗ 0
ݒớ݅ ݀݁ܯௗ ൌ ݀݁ܯ െ ݀݁ܯ
31. Gi i
31
Khách hàng 1 2 3 4 5 6 7 8 9
Sản phẩm A 4 5 2 3 3 1 3 2 2
Sản phẩm B 3 5 5 2 5 5 3 5 5
Bài toán ki m đ nh s b ng nhau c a 2 tr trung bình trong TH m u ph i
h p t ng c p.
B1: Đ t g thi t: ቊ
ܪ: ݀݁ܯௗ 0
ܪଵ: ݀݁ܯௗ 0
ݒớ݅ ݀݁ܯௗ ൌ ݀݁ܯ െ ݀݁ܯ
Ta có:
Khách hàng 1 2 3 4 5 6 7 8 9 Tổng
Sản phẩm A(ݔ) 4 5 2 3 3 1 3 2 2
Sản phẩm B(ݔ) 3 5 5 2 5 5 3 5 5
݀ ൌ ݔ െ ݔ 1 0 -3 1 -2 -4 0 -3 -3
|݀| 1 3 1 2 4 3 3
Hạng
R+
R-
32. Tính giá tr ki m đ nh
Ki m đ nh bên ph i: ܹ ൌ ∑ ܿộܴ ݐ ൌ 3
Tra b ng Wilcoxon ta tìm đư c
ܹఈ,ᇱ ൌ ܹ,ହ; ൌ 2; 26
⇒ ܹ 2 ⇒ ݄ܿấ݄݊ ậ݊ ܪ
K t lu n
V i m c ý nghĩa 0,05 không th nói r ng khách hàng
ưa thích s n ph m kem đánh răng A hơn B
32
33. • (Mann – Whitney)
2. Kiểm định tổng hạng Wilcoxon
cho trung bình 2 mẫu độc lập
33
34. 3. Kiểm định tổng hạng Wilcoxon cho trung
bình 2 mẫu độc lập (Mann-Whitney)
34
Kiểm định tổng hạng có dấu Wilcoxon được sử dụng trong trường
hợp sau đây:
+ Mục đích nghiên cứu nhằm so sánh 2 tổng thể.
+ Số liệu định lượng nhưng giả thuyết về phân phối chuẩn của
ߤଵ െ ߤଶ bị vi phạm.
+ Hai mẫu độc lập.
Các bước kiểm định
Bước 1: Đặt giả thuyết
Bước2: xếp hạng tất cả các giá trị của 2 mẫu theo thứ tự tăng dần.
Những giá trị bằng nhau sẽ nhận giá trị trung bình.
Bước 3: có 2 trườnghợp
( ) ( ) ( )0 1 2 0 1 2 0 1 2
1 1 2 1 1 2 1 1 2
: : :
1 2 3
: : :
H H H
H H H
µ µ µ µ µ µ
µ µ µ µ µ µ
= ≥ ≤
≠ < >
35. 3. Kiểm định tổng hạng Wilcoxon
cho trung bình 2 mẫu độc lập
35
Trườnghợp 1 (mẫu nhỏ
(, )
Trường hợp 2 mẫu lớn
( )
Lấy tổng hạng T1 của mẫu nhỏ. Nếu
2 mẫu bằng nhau thì lấy tổng hạng
của mẫu nào cũng được.
B3: Quy tắc bác bỏ
Dùng bảng tra 7 để tìm giới hạn trên
và dưới
Kiểm định (1):Bác bỏ H0 khi T1 ≤
giới hạn dưới hoặc T1 ≥giới hạn trên
Kiểmđịnh (2):Bác bỏ H0 khi T1
≥giới hạn trên
Kiểmđịnh (3):Bác bỏ H0 khi T1 ≤
giới hạn dưới
phân phối của ܶଵ được xem như
chuẩn với
ߤ்భ
ൌ
݊ଵሺ݊ 1)
2
; ߪ்భ
ൌ
݊ଵ݊ଶሺ݊ 1)
12
Tính ܼ ൌ
்భିఓభ
ఙభ
B3:Quy tắc bác bỏ
Kiểmđịnh (1):Bác bỏ H0 khi |Z|>Zα/2
Kiểmđịnh (2):Bác bỏ H0 khi
Z > Zα
Kiểmđịnh (3):Bác bỏ H0 khi
Z <- Zα
36. 2. Kiểm định tổng hạng Wilcoxon
cho trung bình 2 mẫu độc lập
36
Ví dụ: Theo dõi doanh thu
bán hàng của 2 nhân viên.
Với mức ý nghĩa 5%, có
thể cho rằng doanh thu
bán hàng là như nhau?
Đặt giả thiết
ቊ
݀݁ܯଵ ൌ ݀݁ܯଶ
݀݁ܯଵ ് ݀݁ܯଶ
NV1 NV2
60 63
61 64
63 67
72 40
68 50
70 90
80 80
90 70
85 85
93
37. 2. Kiểm định tổng hạng Wilcoxon
cho trung bình 2 mẫu độc lập
37
NV1 Hạng NV2 Hạng
60 63
61 64
63 67
72 40
68 50
70 90
80 80
90 70
85 85
93
Trường hợp 1:
Mẫu nhỏ (n1,n2≤≤≤≤10)
B1: Xếp hạng
B2: Lấy tổng hạng
T1 của mẫu nhỏ.
Nếu 2 mẫu bằng
nhau thì lấy tổng
hạng của mẫu nào
cũng được.
Hạng
3
4
5,5
12
9
10,5
13,5
17,5
15,5
Hạng
5,5
7
8
1
2
17,5
13,5
10,5
15,5
1990,5
38. Giải
38
B3: Quy tắc bác bỏ
Dùng bảng tra 7 để tìm giới hạn trên và dưới
Kiểm định (1): Bác bỏ H0 khi
T1 ≤≤≤≤ giới hạn dưới hoặc T1 ≥≥≥≥ giới hạn trên
Tức ta bác bỏ ࡴ khi ࢀ ∉ ሺࢃࡸ; ࢃࡹ)
Theo đề bài ta có ܶଵ ൌ 90
Tra bảng 7 ta có cận trên = 115, cận dưới = 65 .
65 < T1 < 115 ⇒ Chấp nhận H0
Chú ý
+ Khi tra bảng giá trị ݊ଵ tương ứng với ܶଵ
+ Giá trị chênh lệch giữa ݊ଵ ݒà ܿáܿ ݊ không quá nhiều và
giá trị cũng không có nhiều giá trị đột biến (điều này khác với
ANOVA và Kruskall Wallis)
39. 2. Kiểm định tổng hạng Wilcoxon
cho trung bình 2 mẫu độc lập
39
Trường hợp 2: Mẫu lớn (n1 + n2 >20)
B2: tính Z
Với
1
1
1 T
T
T
Z
µ
σ
−
=
( )1
1
1
2T
n n
µ
+
=
( )1 2
1
1
1 2T
n n n
σ
+
=
40. 2. Kiểm định tổng hạng Wilcoxon
cho trung bình 2 mẫu độc lập
40
B3: Quy tắc bác bỏ
Kiểm định (1): Bác bỏ H0 khi |Z|>Zα/2
Kiểm định (2): Bác bỏ H0 khi Z > Zα
Kiểm định (3): Bác bỏ H0 khi Z < -Zα
41. Ví d 148
Để kiểm định xem việc trưng bày hàng hóa có tác động
đến doanh số không người ta chọn ngẫu nhiên 2 mẫu,
mẫu thứ 1 gồm 10 cửa hàng trưng bày bình thường, mẫu
thứ 2 cũng gồm 10 cửa hàng trưng bày đặc biệt sau đó
quan sát doanh số của các cửa hàng này (đơn vị: triệu
đồng/tháng) ta được bảng số liệu sau:
41
Doanh số (t.bày BT) 22 34 52 62 30 40 64 84 56 59
Doanh số (t.bày ĐB) 52 71 76 54 67 83 66 90 77 84
42. Gi i
42
Doanh số (t.bày BT) 22 34 52 62 30 40 64 84 56 59
Doanh số (t.bày ĐB) 52 71 76 54 67 83 66 90 77 84
Đ t gi thi t: ቊ
݀݁ܯଵ ൌ ݀݁ܯଶ
݀݁ܯଵ ് ݀݁ܯଶ
ta có
Doanh số Hạng kết hợp
22 1
30 2
34 3
40 4
52 5,5
52 5,5
54 7
56 8
59 9
62 10
Doanh số Hạng kết hợp
64 11
66 12
67 13
71 14
72 15
77 16
83 17
84 18,5
84 18,5
90 20
44. Giải
Chọn ܶଵ ൌ 72
Tra bảng Wilcoxon tìm giá trị
ܹఈ
ଶ;భ;మ
ൌ ܹ,ଶହ;ଵ;ଵ ൌ 78; 132
Ta có ܶଵ ∉ ሺ78; 132)=> bác bỏ ܪ
Kết luận
Với mức ý nghĩa 0,05 có sự khác biệt về doanh số
giữa trưng bày bình thường và trưng bày đặc biệt.
44
45. 45
4. Kiểm định Kruskal Wallis
Giả sử ta có k mẫu gồm phần tử
được chọn từ k tổng thể.
là các trung bình của k tổng thể đó
1 2, ,..., kn n n
µ µ µ1 2, ,..., k
NHÓM
1 2 … k
… …
…
…
…
…
…
11x
11nx
21x
22nx
1kx
kknx
k tổng thể chưa biết phân phối , không có giả
thiết phương sai bằng nhau
0 1 2
1
: ...
:toàn taïi ít nhaát 1 caëp trung bình khaùc nhau
kH
H
µ µ µ= = =
46. •Kiểm định Kruskal_Walis
•- Phân tích phương sai 1 yếu tố (ANOVA)
•- Phân tích sâu ANOVA (Tukey)
4. Kiểm định Kruskal Wallis
46
Kiểm định phi tham số Kiểm định tham số
Kiểm định Kruskal_Walis - Phân tích phương sai 1 yếu tố
(ANOVA)
- Phân tích sâu ANOVA
(Tukey)
Ki m đ nh Kruskal_Walis v tính đ c l p
K m đ nh K-W là phương pháp phân tích phương sai s d ng
h ng c a các giá tr quan sát, dùng đ so sánh trung bình c a k
t ng th .
Khi ch có 2 t ng th , ki m đ nh K-W tương t như ki m đ nh
M_W (đã h c)
47. 4. KIỂM ĐỊNH K-W
47
Các bước kiểm định
Bước 1: Đặt giả thuyết
ቊ
ܪ: ߤଵ ൌ ߤଶ ൌ ⋯ ൌ ߤ
ܪଵ: ∃! ߤ ് ߤሺ݅ ് ݆)
Bước2: xếp hạng tất cả các giá trị của k mẫu theo thứ tự tăng dần.
Những giá trị bằng nhau sẽ nhận hạng trung bình.
Bước 3: Cộng các hạng của tất cả các giá trị của từng mẫu lại, ký
hiệu R1,R2,…, R3
Bước4: Tính giá trị kiểm định
ࢃ ൌ ࣑
ൌ
ሺ )
ࡾ
െ ሺ )
ୀ
Bư c5: So sánh và k t lu n
Qui tắc quyết định: Bác bỏ gt ࡴ nếu ࣑
࣑ି
(với ߯ିଵ
ଶ
có phân phối ߯ଶ với (k-1) bậc tự do.
Tồn tại ít nhất một cặp trung bình khác nhau
48. 4. Kiểm định Kruskal Wallis
48
Ví dụ 1:
Để xét xem
thời gian làm
thêm có ảnh
hưởng đến
kết quả học
tập hay
không, người
ta điều tra
mẫu sau:
Nhóm 1: làm
thêm ít
<6 giờ /tuần
Nhóm 2: làm
thêm TB
6-12 giờ/tuần
Nhóm 3: làm
thêm nhiều
>12 giờ/tuần
6.3 7.2 6.3
7.0 6.6 5.8
6.5 6.1 6.0
6.6 5.8 5.5
7.3 6.8 5.3
6.9 7.1 6.5
6.4 5.9 5.4
6.2
Kiểm định xem thời gian làm thêm có ảnh hưởng
đến kết quả học tập không?
49. 49
4.1. Phương pháp xếp hạng
Bước 1: Xếp hạng
Nguyên tắc xếp hạng: giá trị xij nhỏ nhất xếp hạng
1, lớn nhất xếp hạng n, nếu tồn tại các xij bằng nhau
thì tính hạng trung bình cho tất cả các xij này
Nhóm 1: Hạng Nhóm 2: Hạng Nhóm 3: Hạng
6.3 7.2 6.3
7.0 6.6 5.8
6.5 6.1 6.0
6.6 5.8 5.5
7.3 6.8 5.3
6.9 7.1 6.5
6.4 5.9 5.4
6.2
4,5
1
2
34,5
6
78
9
10,510,5
12
13,5
13,5
15,5
15,5
17
18
19
20
21
22
50. 4.1. Phương pháp kiểm định K-W
50
Bước 2: Tính W
Trong đó Ri là tổng hạng của nhóm thứ i
Ví dụ:
2
1
12
3( 1)
( 1)
k
i
ii
R
W n
n n n
=
= − +
+ ∑
( )
2 2 2
12 110,5 92 50,5
3 22 1
22(22 1) 7 7 8
8,6
W
= + + − +
+
=
51. 4.1 Phương pháp kiểm định K-W
51
Bước 3:
Nếu W > ⇒ Bác bỏ H0
Trong đó, tra bảng chi bình phương
Ví dụ:
Bác bỏ Ho. Vậy với độ tin cậy 95%, thời gian làm
thêm có ảnh hưởng đến kết quả học tập của sinh
viên.
2
1,k αχ −
2
1,k αχ −
2
2;0.058,6 5,99W χ= > =
52. 4.2. Phân tích sâu K-W
52
Bước 1: tính hạng
trung bình
Bước 2: tính chênh
lệch hạng trung bình
i
i
i
R
R
n
=
jij iD R R= −
Ví dụ:
1
1
1
2
110,5
15,786
7
13,143
R
R
n
R
= = =
=
12 2,643D =
0 1 2
1 1 2
:
:
H
H
µ µ
µ µ
=
≠
53. 4.2. Phân tích sâu K-W
53
Bước 3: tính Ck
( )2
1,
1 1 1
12k
i j
k
n n
C
n nαχ −
+
= +
Ví dụ:
( )22 22 1 1 1
5,99 8,5
12 7 7kC
+
= + =
54. 4.2. Phân tích sâu K-W
54
Bước 4:
Bác bỏ Ho khi Dij > Ck
Ví dụ:
12 2,643 8,5
chaáp nhaän Ho
kD C= < =
⇒
55. • 5.1 Kiểm định Chi bình phương (࣑) về tính
độc lập
• 5.2 Kiểm định Chi bình phương (࣑
) về sự phù
hợp.
࣑ ) 5. Kiểm định Chi bình phương (࣑
)
55
56. 5. Kiểm định Chi bình phương (࣑
) về tính độc lập
56
Phần này ta sẽ nói đến phương pháp kiểm định
dùng phân phối ߯ଶ
, với dữ liệu là số đếm hoặc tần
số. Trong nhiều trường hợp, phân tích߯ଶ
trở nên
phổ biến và tiện lợi khi dữ liệu thu thập ở dạng số
đếm – chẳng hạn, số lượng người ở những độ tuổi ,
giới tính, nghề nghiệp, hoặc thu nhậpkhác nhau; số
lượng sản phẩm sản xuất với số lỗi khác nhau,…
57. 5. Kiểm định Chi bình phương
57
Kiểm định sự độc lập của 2 biến định tính
Ví dụ:
Nghiên cứu ảnh hưởng của thời gian tự học đến kết
quả học tập; hoàn cảnh gia đình đến tình trạng
phạm tội ở trẻ em; thời gian tìm hiểu trước hôn
nhân (ngắn, dài,…) đến tình trạng hôn nhân (hạnh
phúc, không hạnh phúc,…)
58. 5. Kiểm định Chi bình phương
58
Giả sử ta cần nghiên cứu xem 2 yếu tố A và B có
ảnh hưởng đến nhau hay không
Xij gọi là tần số thực tế
B
A
1 2 … k Tổng
1 X11 X12 … X1k A1
2 X21 X22 … X2k A2
… … … … … …
h Xh1 Xh2 … Xhk Ah
Tổng B1 B2 … Bk n
ijX
59. 5. Kiểm định Chi bình phương
59
0
1
:2 bieán ñònh tính A vaø B ñoäc laäp
:2 bieán ñònh tính A vaø B phuï thuoäc
H
H
( )Böôùc 1: goïi laø taàn soá lyù thuyeát
i j
ij ij
A B
E E
n
×
=
( )
2
2
1 1
Böôùc 2:
k h ij ij
i j ij
X E
E
χ
= =
−
= ∑∑
2 2
( 1) ( 1);
Böôùc 3: Baùc boû Ho khi
h k α
χ χ
− × −
>
60. 5. Kiểm định Chi bình phương
60
Ví dụ: Trang 298
Nghiên cứu về mối liên hệ giữa thời gian tìm hiểu
trước hôn nhân (ngắn , dài, trung bình) và tình trạng
hôn nhân hiện tại (hạnh phúc, không hạnh phúc, li dị)
Thời gian
tìm hiểu
Cuộc sống
hiện tại
Ngắn Trung
bình
Dài Tổng hàng
Hạnh phúc 38 58 54 150
Không hạnh phúc 12 14 4 30
Li dị 10 8 2 20
Tổng cột 60 80 60 200
61. 5. Kiểm định Chi bình phương
61
0
1
: khoâng coù lieân heä giöõa thôøi gian tìm hieåu tröôùc
hoân nhaân vaø tình traïng hieän taïi cuûa hoân nhaân
: coù lieân heä giöõa thôøi gian tìm hieåu tröôùc hoân
nhaân vaø tình traïng hieän taïi
H
H
cuûa hoân nhaân
62. 5. Kiểm định Chi bình phương
62
Bước 1: tính Eij (tần số lý thuyết)
Thời gian
tìm hiểu
Cuộc sống
hiện tại
Ngắn Trung
bình
Dài Tổng hàng
Hạnh phúc 45 60 45 150
Không hạnh phúc 9 12 9 30
Li dị 6 8 6 20
Tổng cột 60 80 60 200
1 2
12
150 80
200
A B
E
n
× ×
= =
63. 5. Kiểm định Chi bình phương
63
Bước 2:
Bước 3:
⇒ Bác bỏ Ho. Vậy với độ tin cậy 95%, có thể
kết luận có mối liên hệ giữa thời gian tìm hiểu
trước hôn nhân và tình trạng hôn nhân hiện tại.
( ) ( ) ( )
2 2 2
2 38 45 58 60 2 6
... 12,4
45 60 6
χ
− − −
= + + + =
2 2
(3 1) (3 1);0,05 4;0,05
2
12,4 9,48χ χ χ− × −= > = =
64. 5.2 Kiểm định Chi bình phương (࣑
) về sự phù hợp
64
Kiểm định Chi bình phương được sử dụng khá phổ
biến đối với các biến định tính (phân loại).
Phần trước ta đã xét tính độc lập của 2 biến định
tính (tức xét mối liên hệ giữa biến định tính này với biến
định tính khác).
Trong thực tế, các kiểm định tham số đã nghiên cứu
đều có giả định các dữ liệu lấy từ tổng thể có phân phối
chuẩn.
Vậy, vấn đề đặt ra là làm thế nào để kiểm tra dữ
liệu của chúng ta có phân phối chuẩn hay không hay nó
theo một phân phối dự kiến nào đó. Muốn làm được điều
này chúng ta sẽ xét đến bài toán kiểm định Chi bình
phương về sự phù hợp để xem xét dữ liệu của chúng ta
thích hợp (phù hợp) đến mức độ nào với giả thuyết về
phân phối của tổng thể.
65. Ví dụ
65
Thứ Thực tế
Số vụ
Hai 7
Ba 3
Tư 3
Năm 2
Sáu 5
Bảy 12
Total 32
Một công ty muốn nghiên cứu các vụ tai nạn lao động có xảy ra như
nhau vào các ngày làm việc trong tuần hay không hay là nó có xu
hướng tăng cao vào các ngày thứ Hai và các ngày cuối tuần. Điều tra
một mẫu được cho ở bảng sau:
Nhận xét: Nếu giả thiết cho rằng “ các vụ tai nạn xảy ra với xác suất như
nhau trong 6 ngày làm việc của tuần là đúng thì số tai nạn phải có phân
phối đều với xác suất mỗi ngày là 1/6.
Với tổng số 32 vụ tai nạn lao động công ty đó thu thập được trong vòng 5
năm qua tại các nhà máy của công ty, số lượng các vụ tai nạn trong từng
ngày phải bằng nhau và phải bằng 1/6.32=5,33 vụ.
66. 66
Theo b ng s li u trên dư ng như các v tai n n x y ra không đ u
nhau gi a 6 ngày làm vi c trong tu n.
Đ t gi thuy t
ܪ: tai n n lao đ ng các ngày trong tu n có phân ph i đ u.
ܪଵ: tai n n lao đ ng các ngày trong tu n không có phân ph i đ u.
Thứ Thực tế (ࡻ) Giả thiết (ܧ) ܱ െ ܧ
ଶ
ܱ െ ܧ
ଶ
ܧ
Số vụ % Số vụ %
Hai 7 21,9 5,33 16,66 2,79 0,523
Ba 3 9,4 5,33 16,66 5,29 0,998
Tư 3 9,4 5,33 16,66 5,29 0,998
Năm 2 6,3 5,33 16,66 10,89 2,055
Sáu 5 15,6 5,33 16,66 0,09 0,017
Bảy 12 37,5 5,33 16,66 44,89 8,470
Total 32 100,0 32 100,0 13,061
67. 67
Chú ý
Tần số lý thuyết là tần số xảy ra nếu giả thiết ܪ đúng (trong ví dụ trên thì tần số
lý thuyết là 5,33 vụ tai nạn/ngày).
Đại lượng thống kê Chi bình phương được tính như sau:
߯௧௧
ଶ
ൌ
ܱ െ ܧ
ଶ
ܧ
ୀଵ
Trong đó:
+ ܱ: ݈à ݐầ݊ ݏố ݏ ݊ܽݑݍá݄ݐ ݐựܿ ݐế ܿủܽ ݈ạ݅ ݄ݐứ ݅ ở đâ݈ ݕà ݊݃àݕ .
+ ܧ: là tần số lý thuyết của loại thứ i.
+ ݇: ݈à ݏố ݄â݊ ݈ạ݅ ሺݏố ݊݃à݈ ݕà݉ ݅ݒệܿ ݑݐ ݃݊ݎݐầ݊ ݇ ൌ 6).
Bác bỏ ࡴ khi
࣑࢚࢚
࣑ି; ࢻ
Ta có
߯௧௧
ଶ
ൌ 13,061 ߯ିଵ;,ହ
ଶ
ൌ 11,07 → ܾáܿ ܾỏ ܪ
Như vậy, tai nạn lao động các ngày trong tuần không có phân phối đều.
Do đó, ta có bằng chứng để bác bỏ giả thiết tai nạn lao động các ngày trong tuần
có phân phối đều. Theo bảng tổng hợp, căn cứ vào cột ܱ ta thấy tai nạn có nhiều
khả năng xảy ra vào đầu tuần và nhất là 2 ngày cuối tuần. Vì vậy, công ty nên áp
dụng các biện pháp đặc biệt để đề phòng tai nạn lao động vào những ngày này.
68. PHÂN BIỆT 2 DẠNG KIỂM ĐỊNH
68
1)Kiểm định chi bình phương về sự độc lập của 2
biến định tính:
Đây là bài toán xét đồng thời hai dấu hiệu định
tính (2 mẫu ngẫu nhiên độc lập được xét) trên 1
tổng thể.
2) Kiểm định chi bình phương về sự phù hợp
Đây là bài toán kiểm định một một mẫu ngẫu
nhiên được thu thập (sau đó phân nhóm theo nhiều
đặc điểm) có tuân theo phân phối A hay không (tức
là một dấu hiệu định tính được phân ra nhiều nhóm
định tính)
69. • Công ty hóa mỹ phẩm A vừa đưa vào thị trường
loại dầu gội đầu mới, dành riêng cho phái Nam.
Có ý kiến cho rằng, chỉ có 30% Nam giới sẽ ưa
chuộng loại sản phẩm mới này. Chọn ngẫu nhiên
20 người (nam) đã dùng qua sản phẩm và hỏi ý
kiến, chỉ có 3 người ưa thích loại dầu gội mới
này, còn lại 17 người là không thích. Như vậy ý
kiến trên có đúng không với mức ý nghĩa 5%?
Ví dụ:
69
70. • Đặt giả thiết
• ܪ: ൌ 0,03
• ܪଵ: ് 0,03
• Theo nhận định có 30% trong tổng số 20 người
nam ưa thích dầu gội tức là có: 20x0,3=6
• Ta có:
Giải (KĐ chi bình phương về sự phù hợp)
7
0
Ưa thích Không ưa thích Tổng cộng
݄ܶựܿ ݐế ሺܱ) 3 17 20
݅ܩả ݄݅ݐế ݐሺܧ) 6 14 20
Giá tr ki m đ nh
߯௧௧
ଶ
ൌ
ܱ െ ܧ
ଶ
ܧ
ൌ
3 െ 6 ଶ
6
17 െ 14 ଶ
14
ൌ
ଶ
ୀଵ
2,14
Khi đó
߯௧௧
ଶ
ൌ 2,14 ൏ ߯ଶିଵ;,ହ
ଶ
ൌ 3,84 → ݄ܿấ݄݊ ậ݊ ܪ
V y, v i m c ý nghĩa 5% không th bác b gi thi t cho r ng 30% nam giói ưa
chu ng d u g i đàu m i A (m c dù t l m u ch là 15%).
71. Ví dụ
71
V n gi ng ví d trên nhưng cho n i dung như sau:
Gi s có 2 lo i d u g i m i dành cho phái nam. Vói m u ng u
nhiên 20 ngư i Nam trong s nh ng ngư i đã t ng dùng s n ph m
th nh t, có 3 ngư i ưa thích lo i d u g i này; m u th 2 cũng g m
20 ngư i nam đã t ng dùng qua s n ph m th hai, có 9 ngư i ưa
thích lo i d u g i m i này.
Câu h i đ t ra là: Có th cho r ng đ i v i 2 s n ph m m i này, t l
khách hàng nam ưa thích chúng là b ng nhau v i m ý nghĩa 5% ?
72. Ví dụ
72
Gi i Áp d ng KĐ chi bình phương v tính đ c l p
G i ଵ, ଶ l n lư t là t l khách hàng nam ưa thích
lo i d u g i 1 và 2.
Đ t gi thuy t:
ܪ: ଵ ൌ ଶ
ܪଵ: ଵ ് ଶ
K t qu tính t n s lý thuy t đư c cho trong b ng
sau: Ưa thích Không ưa thích
ܱ ܧ ܱ ܧ
Loại dầu gội 1 3 6 17 14
Loại dầu gội 2 9 6 11 14
Giá trị kiểm định
߯௧௧
ଶ
ൌ
3 െ 6 ଶ
6
9 െ 6 ଶ
6
17 െ 14 ଶ
14
11 െ 14 ଶ
14
ൌ 4,28
Vì ߯௧௧
ଶ
ൌ 4,28 ߯ଵ; ,ହ
ଶ
ൌ 3,84. Do đó ở mức ý nghĩa 5%,
bác bỏ giả thiết ܪ cho rằng tỉ lệ khách hàng nam ưa thích 2 loại
dầu gội này là bằng nhau.