2. Analisis
Butir Soal
01
Suatu kegiatan yang bertujuan untuk mengkaji dan mengidentifikasi setiap butir soal guna
mengetahui kualitas setiap butir soal tersebut. Hasil dari proses mengkaji dan
mengidentifikasi soal dapat digunakan untuk melakukan perbaikan dan penyempurnaan pada
setiap butir soal.
Definisi Analisis Butir Soal
02
a. Mengetahui kekuatan dan kelemahan butir tes, sehingga dapat dilakukan seleksi dan revisi
butir soal.
b. Menyediakan informasi tentang spesifikasi butir soal secara lengkap, sehingga
memudahkan pembuat soal dalam menyusun perangkat soal yang akan memenuhi
kebutuhan ujian dalam bidang & tingkat tertentu, atau untuk menyusun beberapa perangkat
soal yang paralel. Penyusunan perangkat seperti ini sangat bermanfaat bila akan melakukan
ujian ulang/mengukur kemampuan beberapa kelompok peserta tes dalam waktu yg berbeda
c. Mengetahui masalah yang terkandung dalam butir soal, seperti: kesalahan meletakkan
kunci jawaban, soal terlalu sukar / terlalu mudah, daya beda rendah. Masalah ini bila
diketahui dengan segera akan memungkinkan bagi pembuat soal untuk mengambil
keputusan apakah butir soal yang bermasalah itu akan digugurkan atau direvisi Sebagai alat
guna menilai butir soal yang akan disimpan dalam kumpulan (bank) soal.
Manfaat Analisis Butir Soal
03
a. Analisis Butir Soal secara Kualitatif : Aspek Materi, Konstruksi, & Bahasa
b. Analisis Butir Soal secara Kuantitatif :
• Validitas Tampang, Validitas isi, Validitas Konstruk
• Tingkat Kesukaran, Daya Beda, Keberfungsian Distraktor, Reliabilitas
Langkah Analisis Butir Soal
3. Teori Tes
• Kelebihan :
1. Mudah digunakan
2. Sampel tidak perlu terlalu banyak
3. Cocok untuk analisis tes ulangan harian
4. Informasi : Tingkat kesukaran soal, daya beda,
efektivitas distraktor, reliabilitas
• Kelemahan :
1. Statistik butir tes sangat tergantung pada
karakteristik subjek yang di tes (Item dependent)
2. Taksiran kemampuan peserta tes sangat
tergantung pada butir tes yang diujikan (sample
dependent)
3. Kesalahan baku pengukuran (SEM) berlaku untuk
semua peserta tes, tidak ada SEM tiap peserta tes
& SEM tiap butir tes
4. Informasi yang disajikan terbatas pada menjawab
benar / salah, tidak memperhatikan pola respon
5. Asumsi tes paralel susah terpenuhi
TEORI TES KLASIK (CLASSICAL TEST
THEORY, CTT)
• Kelebihan :
1. Karakteristik butir tidak tergantung pada peserta ujian
2. Kemampuan peserta ujuan tidak tergantung pada
karakteristik butir soal
3. Model yang lebih menekankan pada tingkat butir
daripada tingkat tes
4. Tidak mensyaratkan secara ketat tes parallel untuk
menaksir reliabilitas
5. Informasi : Kecocokan butir, tingkat kesukaran, daya
beda, guessing, ICC, IIF, TIF
• Kelemahan :
Pemahaman – Perhitungan – Asumsi yang harus
dipenuhi (Unidimensi, Independensi Lokal, Invariansi
Parameter)
1. Model yang digunakan adalah model statistik
sehingga dibutuhkan pengetahuan tentang
matematika dan statistika.
2. Analisis butir tidak bisa dilakukan dengan manual
tetapi harus menggunakan paket program komputer
karena kompleknya perhitungan
3. Perlu sampel yang banyak (N > 100)
TEORI RESPON BUTIR (ITEM RESPONSE THEORY,
IRT)
Tes paralel adalah dua buah tes yang disusun dari tujuan ukur yang sama dan blue print yang sama
sehingga jumlah item atau taraf kesukarannya untuk tes kognif adalah sama. Secara statistik, tes
paralel diasumsikan dengan nilai varian skor tampak dan varian eror yang setara (parallel) atau
ditambahkan dengan asumsi rerata skor yang setara (strict parallel) antar kedua tes.
5. • Setiap butir soal didiskusikan secara
bersama-sama dengan beberapa ahli
seperti guru yang mengajarkan materi,
ahli materi, penyusun / pengembang
kurikulum, ahli penilaian, ahli bahasa
• Kelebihan :
1. Setiap butir soal dilihat secara
bersama-sama berdasarkan kaidah
penulisannya
2. Para penelaah dipersilakan
mengomentari & memperbaiki
berdasarkan ilmu yang dimilikinya.
3. Setiap komentar & masukan dari
peserta diskusi dicatat oleh notulis.
4. Setiap butir soal dapat dituntaskan
secara bersama-sama, perbaikannya
seperti apa.
• Kelemahan : Perlu waktu lama untuk
rnendiskusikan setiap satu butir soal.
TEKNIK MODERATOR (DISKUSI)
• Pada tahap awal, para penelaah
diberikan pengarahan
• Pada tahap berikutnya, para penelaah
berkerja sendiri-sendiri di tempat yang
tidak sama.
• Para penelaah dipersilakan
memperbaiki langsung pada teks soal
dan memberikan komentarnya serta
memberikan nilai pada setiap butir
soalnya yang kriterianya adalah: baik,
diperbaiki, atau diganti
TEKNIK PANEL
Penelaah diberikan: butir-butir soal yang
akan ditelaah, format penelaahan, dan
pedoman penilaian/ penelaahannya.
Analisis Kualitatif
6. Keterangan :
Beri tanda cek (√) jika menurut saudara sesuai dengan
kriteria, dan beri tanda silang (X) jika menurut saudara
tidak sesuai dengan kriteria
Analisis Materi
Menelaah yang berkaitan
dengan substansi keilmuan
yang ditanyakan dalam soal
serta tingkat kemampuan
yang sesuai dengan soal.
Analisis Konstruksi
Menelaah yang berkaitan
dengan teknik penulisan
soal.
Analisis Bahasa
Menelaah yang berkaitan
dengan pengunaan bahasa
Indonesia yang baik dan
benar
Analisis Kualitatif
8. Kemampuan butir soal untuk
membedakan antara siswa yang
pandai (berkemampuan tinggi)
dengan siswa yang bodoh
(berkemampuan rendah)
Indeks Diskriminasi (Daya
Beda Butir Soal, D atau DB)
Bilangan yang menunjukkan sukar
dan mudahnya suatu soal
Tingkat Kesukaran Butir Soal
(TK) atau Proporsi (P)
Tingkat keajegan (konsitensi) suatu
tes, yakni sejauh mana suatu tes
dapat dipercaya untuk menghasilkan
skor yang ajeg, relatif tidak berubah
walaupun diteskan pada situasi yang
berbeda-beda
Reliabilitas
• Pengecoh dikatakan berfungsi secara
efektif ketika dipilih lebih banyak oleh
kelompok bawah
• Kelompok atas akan memilih kunci
jawaban
Efektivitas Distraktor / Pengecoh
1. 3.
2. 4.
Analisis Kuantitatif
0,0
sukar
1,0
mudah
-1,0
D rendah
(ditolak)
1,0
D tinggi
(diterima)
9. Tingkat Kesukaran Butir (TK)
atau Proporsi (P)
• Soal yang baik adalah soal yang tidak terlalu
mudah atau tidak terlalu sukar.
• Soal yang terlalu mudah tidak merangsang siswa
untuk memecahkannya.
• Soal yang terlalu sukar yang dianggap guru dapat
memberikan tantangan kepada siswa, justru
menyebabkan siswa menjadi putus asa & tidak
mempunyai semangat untuk mencoba lagi karena
diluar jangkauannya.
• Misalnya : Dalam ulangan harian, Guru A cenderung
memberikan soal yang mudah-mudah, sedangkan
Guru B memberikan soal yang sukar-sukar.
• Apa yang terjadi ??? Siswa akan belajar giat jika
menghadapi ulangan dari guru B dan tidak belajar giat
atau bahkan mungkin tidak mau belajar sama sekali
untuk menghadapi ulangan dari guru A
0,0
sukar
1,0
mudah
TK (Difficulty Index) didefinisikan sebagai proporsi peserta tes yang
menjawab benar (Crocker & Algina,1986)
Definisi itu dapat dinyatakan dengan sebuah rumus dimana tingkat
kesukaran butir adalah jumlah peserta tes yang menjawab benar
dibagi dengan jumlah seluruh peserta tes
Nitko (1983)
Semakin tinggi indeks TK maka butir soal semakin mudah
Untuk menyusun suatu naskah ujian sebaiknya digunakan butir soal
yang mempunyai tingkat kesukaran berimbang : 25% soal sukar, 50%
soal sedang & 25% soal mudah
10. Misalnya:
Dari 10 siswa yang mengikuti ujian , pada soal nomor 1 terdapat
7 orang dapat menjawab benar dan pada soal nomor 2 terdapat
2 orang dapat menjawab benar. Berapakah tingkat kesukaran
kedua butir soal tersebut?
Hubungan Tingkat Kesukaran Butir dengan Daya Beda
Butir
• Jika butir soal terlalu mudah atau terlalu sukar, artinya butir
tersebut tidak dapat membedakan kemampuan peserta tes
• Butir yang sangat sukar sehingga tidak ada siswa yang
dapat menjawab dengan benar menyebabkan butir
tersebut kehilangan kemampuannya membedakan siwa
yang mempunyai kemampuan tinggi dan rendah.
• Begitu pula dengan butir yang sangat mudah sehingga
semua siswa dapat menjawab benar.
• Jadi, butir sebaiknya mempunyai TK yang sedang.
• Dalam beberapa situasi, TK butir soal tidak selalu di
usahakan berada dalam kategori sedang.
• Pada keadaan dimana diinginkan sebanyak mungkin peserta
tes dapat dinyatakan lulus maka butir diusahakan mudah /
sangat mudah, misalnya penerimaan siswa dimana
diperkirakan jumlah daya tampung lebih banyak daripada
pelamar yang mendaftar
• Sebaliknya, pada keadaan diinginkan peserta tes sesedikit
mungkin dapat dinyatakan lulus, maka butir soal di usahakan
sukar / sesukar mungkin
Butir memiliki
daya beda yang
tinggi ketika
tingkat
kesukarannya 0,5.
Tingkat Kesukaran Butir (TK)
atau Proporsi (P)
11. Indeks Diskriminasi (Daya
Beda Butir Soal, D atau DB)
• DB adalah kemampuan butir soal dalam membedakan
siswa yang mempunyai kemampuan tinggi & rendah
(Anastasi & Urbina ,1997)
• DB harus di usahakan positif & setinggi mungkin.
• Butir soal yang mempunyai DB positif dan tinggi berarti butir
tersebut dapat membedakan dengan baik siswa kelompok
atas dan bawah.
• Siswa kelompok atas adalah kelompok siswa yang
tergolong pandai (skor total hasil belajarnya tinggi) & siswa
kelompok bawah adalah kelompok siswa yang (skor total
hasil belajarnya rendah)
Crocker & Algina (2008)
12. Indeks Diskriminasi (Daya Beda Butir Soal, D atau DB)
Sebanyak 10 orang mengikuti uji coba ujian yang berbentuk
pilihan ganda dengan hasil sebagai berikut. Hitung DB nya !
Langkah Perhitungan :
1. Menentukan siswa kelompok atas & bawah. Kelompok atas adalah
setengah kelompok siswa (5 orang) yang memiliki skor tertinggi &
Kelompok bawah adalah setengah kelompok siswa (5 orang) yang
memiliki skor terendah
2. Menghitung skor masing-masing butir pada kelompok atas & bawah
3. Menghitung DB pada masing-masing butir soal
DB akan positif apabila jumlah
siswa kelompok atas yang
dapat menjawab dengan benar
lebih banyak dari pada jumlah
siswa kelompok bawah
dst …
13. Indeks Diskriminasi (Daya Beda Butir Soal, D atau DB)
Nilai DB berada antara -1,00 hingga +1,00. Dengan
mengambil contoh soal tadi, beberapa kondisi ekstrim dapat
di jelaskan sebagai berikut:
1. Bila semua siswa kelompok atas menjawab benar & semua
siswa kelompok bawah menjawab salah → DB = +1,00
2. Bila semua siswa kelompok atas menjawab salah & semua
siswa kelompok bawah menjawab benar → maka DB = -1,00.
3. Bila semua siswa kelompok atas & kelompok bawah
menjawab benar → DB = 0,00.
4. Bila semua siswa kelompok atas maupun kelompok bawah
menjawab salah → DB = 0,00
Dalam menghitung DB terdapat beberapa kejadian khusus
yang harus diperhatikan (Anastasi & Urbina, 1997) :
1. Bila data yang di tengah sama, maka data yang sama di
keluarkan dari analisis. Misalnya: Skor ujian 6 orang siswa di
urutkan dari tinggi ke rendah : 10, 9, 7, 7, 4 dan 2. Data yang
sama (7) di keluarkan dari analisis, sehingga perhitungan DB
hanya melibatkan siswa dengan skor 10 & 9 sebagai
kelompok atas dan siswa dengan skor 4 & 2 sebagai
kelompok bawah.
2. Dalam hal jumlah responden yang sangat banyak maka
penentuan kelompok atas & bawah adalah dengan
mengambil 27% siswa yang memperoleh skor tertinggi
sebagai kelompok atas & 27% siswa yang memperoleh skor
terendah sebagai kelompok bawah. Sebanyak 46% siswa di
tengah distribusi dikeluarkan & tidak di analisis. Perhitungan
daya beda butir di dasarkan pada “aturan 27%” karena pada
kondisi normal, titik optimum dimana dua kondisi seimbang
dicapai pada 27% kelompok atas & 27% kelompok bawah
14. KORELASI POINT BISERIAL KORELASI BISERIAL
Indeks Diskriminasi (Daya Beda Butir Soal, D atau DB)
• Perhitungan DB juga dapat dilakukan dg mengkorelasikan skor butir dengan skor total.
• Korelasi butir dengan total menunjukkan kesejajaran nilai antara butir dengan total.
• Bila skor butir bervariasi sejalan dengan variasi skor total maka butir tersebut mampu membedakan dengan baik siswa yang
mempunyai kemampuan tinggi dan rendah
Bedanya apa ?? Nilai koefisien korelasi point biserial selalu >>> jika dibandingkan dengan nilai koefisien korelasi biserial. Koefisien
point biserial merupakan kombinasi hubungan antara butir tes, kriteria atau skor total, dan tingkat kesukaran. Korelasi point biserial
cenderung lebih mengutamakan butir tes yang memiliki tingkat kesukaran rata-rata dan akan maksimum apabila tingkat
kesukarannya p = 0.5 (Hayat, 1996; Suryabrata, 1987); sedangkan korelasi biserial merupakan korelasi antara butir tes dan kriteria,
yang bebas dari pengaruh tingkat kesukaran butir tes
15. Efektivitas Distraktor (Pengecoh)
• Pengecoh (distractor) yang juga dikenal dengan istilah
penyesat atau penggoda adalah pilihan jawaban yang
bukan merupakan kunci jawaban
• Pengecoh bukan sekedar pelengkap pilihan.
• Pengecoh diadakan untuk menyesatkan siswa agar tidak
memilih kunci jawaban
• Pengecoh menggoda siswa yang kurang begitu
memahami materi pelajaran untuk memilihnya.
• Agar dapat melakukan fungsinya untuk mengecoh maka
pengecoh harus dibuat semirip mungkin dengan kunci
jawaban
• Pengecoh dikatakan berfungsi apabila semakin rendah
tingkat kemampuan peserta tes semakin banyak memilih
pengecoh, atau makin tinggi tingkat kemampuan peserta
tes akan semakin sedikit memilih pengecoh
• Apabila proporsi peserta tes yang menjawab dengan salah
atau memilih pengecoh kurang dari 0,02 maka pengecoh
tersebut harus direvisi
• Kenapa ??? Pengecoh yang baik minimal dipilih oleh
2% (Fernandez, 1984) atau 5% (Mardapi, 2008) dari
seluruh peserta tes
• Pengecoh ditolak apabila tidak ada yang memilih atau
proporsinya 0,00 (Depdikbud, 1997).
• Pengecoh dikatakan berfungsi ketika dipilih lebih
banyak oleh kelompok bawah [Kelompok atas akan
memilih kunci jawaban]
• Proporsi alternatif jawaban masing-masing butir soal dapat
dilihat pada kolom proportion endorsing pada hasil
analisis dengan software iteman.
• Daya beda masing-masing pengecoh soal juga perlu
diperhatikan. Setiap pengecoh diharapkan memiliki daya
beda negatif, artinya suatu pengecoh diharapkan lebih
sedikit dipilih oleh kelompok atas dibandingkan dengan
kelompok bawah. Atau daya beda pengecoh tidak lebih
besar dari daya beda kunci jawaban setiap butir soal.
16. Reliabilitas
Reliabilitas
1. Berhubungan dengan kemampuan alat ukur untuk
melakukan pengukuran secara cermat
2. Akurasi dan presisi yang dihasilkan oleh alat ukur dalam
melakukan pengukuran
• Soal (perangkat soal) yang valid pasti reliabel, tetapi soal
yang reliabel belum tentu valid.
20. Tahap Persiapan :
1. Sheet 1 berisi respon jawaban
• Nomor urut dan Respon jawaban
(ABCDE).
• Rapikan dengan cara : Format →
Autofit Coloumn Width
2. Sheet 2 berisi control file
3. Simpan response jawaban sebagai Text
(Tab delimited)
• Cek filenya, jika muncul spasi,
hapuskan dg cara : Edit → Replace →
Copy spasinya → Replace All
4. Simpan control file sebagai Text (Tab
delimited)
21. Jika berhasil, maka akan muncul file notepad (.txt) seperti berikut :
Jumlah
Option
Mata
Pelajaran
Y : Jika ingin dianalisis
N : Jika tidak ingin dianalisis
Respon
Jawaban
ID / Nomor Urut
M : Multiple choice
R : Rating scale
22. ITEMAN : Tahap Analisis : 1. Files
• Data matrix file : Panggil nama file .txt yang berisi respon peserta tes yang akan dianalisis / tuliskan nama file .txt nya
• Item control file : Panggil nama file .txt yang berisi control file yang akan dianalisis / tuliskan nama file .txt nya
• Output file : Tuliskan nama file output (format RTF) dan letakkan dimana file tersebut akan disimpan
• Run title : Diisi bebas (dalam contoh ini ditulis evaluation test)
23. ITEMAN : Tahap Analisis : 2. Input Format
Isikan Fixed width data sesuai file notepad yang berisi
respon peserta tes
• Jumlah kolom ID : 2
• ID dimulai dari kolom : 1
• Respon jawaban dimulai dari kolom : 3
Respon
Jawaban
ID / Nomor Urut
24. ITEMAN : Tahap Analisis : 3. Scoring Option
Berikan tanda centang hanya pada total score
25. ITEMAN : Tahap Analisis : 4. Output Option
Hilangkan semua tanda centang, klik RUN → Yes. Analisis Selesai
29. Tidak ada Flags
Tingkat Kesukaran : 0,233 (sukar)
Daya Beda : 0,519 (baik)
Efektivitas Pengecoh : ok, meskipun DB Option D tidak negatif,
tapi DB ini masih lebih kecil dari DB Kunci Jawaban
Reliabilitas jika butir ini di delete : 0,278
Tidak ada Flags
Tingkat Kesukaran : 0,267 (sukar)
Daya Beda : 0,548 (baik)
Efektivitas Pengecoh : ok, semua DB Option selain kunci
sudah negative
Reliabilitas jika butir ini di delete : 0,264
30. Ada Flags
Tingkat Kesukaran :
Daya Beda :
Efektivitas Pengecoh :
Reliabilitas jika butir ini di delete :
Ada Flags
Tingkat Kesukaran :
Daya Beda :
Efektivitas Pengecoh :
Reliabilitas jika butir ini di delete :
32. Interpretasi Butir Soal Nomor 1
Berdasarkan analisis kualitatif (telaah), soal nomor 1 ini sudah baik dari segi
materi, konstruksi, bahasa. Selanjutnya, dibawah ini disajikan hasil analisis
secara kuantitatif :