Cat ppt

CAT An Article Written by MICHEL LAURIER Presented by Juniato ≠ Keywords: Testing, Adaptive, Conventional, Computerized, IRT, ICC, item banks, trait

WHAT WE CAN DO AND CANNOT DO WITH COMPUTERIZED ADAPTIVE TESTINGMICHAEL LAURIER Generasi TestI. Conventional Testing; administered by computersFor a long time, educational testing has focused mainly on paper-and-pencil tests and performance assessments. Since the late 1980s, when the rapid dissemination of personal computers in education began, these testing formats have been extended to formats suitable for delivery by computer. (der Linden & Glas, 2010: v).Examples include the two-stage testing format (Cronbach &Gleser, 1965), Bayesian item selection with an approximation to the posterior distribution of the ability parameter (Owen,1969),the up-and-down method of item selection (Lord, 1970), the Robbins–Monro algorithm (Lord, 1971a), the flexilevel test(Lord,1971b), the stradaptive test (Weiss,1973), and pyramidal adaptive testing (Larkin&Weiss, 1975). (der Linden & Glas, 2010: vi)II. CAT (Bunderson, Inouye, Olsen 1989) - Will be less obtrusive, - Provide constant advice to learners and teachers. ..eaching Materials Downloadinden, Wim J. n CeesGlas Elements of Adaptive Testing (2010) Springer.pdfLaurier, inginmenunjukkan: 1. How CAT works 2. What is the underlying theory DenganmemberikancontohimplementasiCAT diPerancis

Prinsip-prinsipAdaptive TestingComputers in testing sangatlahbergunadibandingkandengan conventional testing methods:1. Number-crunching capabilitiesConventional:SistempenilaianmenghitungjumlahjawabanBenar; ataumengkonversikannyapadaskala yang sudahada.Computerized: -allows more complex procedures segeraatausaat test dilaksanakan -penggunaandatanyalebihefisien. -dgn computer; lebihcepatdan virtually error-free (bebasdarikesalahan). 2. Multiple-branching capabilitiesConventional: -terkendaladenganlinearitas.Computerized: -menggunakansistem testing “intelligent” -saat test dilakukan, dimungkinkanmembuatkeputusan. - computer dapatmenganalisajawaban students danmenentukanjawabanmana yang sesuai. -perihallinearitas, bukanlahsebagaikendala

LatarbelakangDari sudutpandangpengajar:Misalnyakitainginmemasukkanpelajarpadasatukelompoksecara placement test konvensional; -agakkesulitanuntukmengetahui level-nya, bisasajaseorangituabsolut beginner; Kalaubegitu, harusadasoal yang mudahdansulit.Jikapelajarpada advanced level, beberapasoalakansangatmudah. Dari sudutpandangpelajar:- menganggapsoaltersebutkurangmenantang, membosankanDari sudutpandangpsikometrik, soalitutidakmemberikaninformasi yang penting/berhargakarenahasilnyadapatdiprediksi.Di sisi lain, soaltertentudianggapsangatsulitterutamabagipemula “akanfrustrasi”; dansangatsedikitinformasi yang diperolehterkait level pemelajar.

Adaptive testing  = tailored testing = karena:Bertujuanmenunjukkanhal-halsesuaidengankompetensisipemelajardansifatnyainformatif. Pada open-ended test (biasanya oral), kemungkinanjawabanbenar 50 / 50.Inisebuah problem, mengingatkankitapadaBinet’s multi-stage intelligent test. Penerapan test memangmembutuhkanproses yang kompleks, CAT mencobamereplikasi; dengancaramenyediakan:1. Item bank : sekumpulanhal/soaldisimpandenganspesifikasitertentudandapatmengukurkemampuan yang samapada level yang berbeda.2. Prosedurseleksi: sebuahalgoritmamemungkinkanuntukmemilihdanmendapatkankembali the most appropriate item (hal-hal yang paling sesuai) padasatumomen, danpadapemelajartertentu.

Untukmenyusun Item bank danProsedurseleksitersebut, theoretical framework yg paling seringdigunakanadalahIRT (Item Response Theory)( -- ) mathematical complexity( + ) conceptually attractive and very interesting for CAT IRT = Latent Trait Theory (olehBirnbaum 1968) karenamenganggapbahwa (p.246) “a test score or a pattern of answers reflects a single construct that is not directly observable.”(Skorsebuahtesataupolajawabanmencerminkansebuahkonstruksitunggal yang tidakdapatdiamatisecaralangsung).Apa yang diukurlewat test disebut “Trait” danhaliniterkaitdengan subject’s ability. Teoriinidiperjelasoleh F. Lord (1977) denganICC (Item Characteristic Curve) sebuahfungsimatematis yang menghubungkanprobabilitaskeberhasilanatassoaltertentudengankemampuan (ability) yang diukurdengansoal yang telahdibuatsebelumnya. (HambletondanSwaminathan 1985:22).

Kurvainimenunjukkanbahwaprobabilitasakannaikseiringdengankemampuansubjektersebut. Range ability-nya -3 hingga +3 padasumbu X, sedangkanprobabilitasadapadasumbu Y. Kurvapadahal 246 ICC pada Intermediate Level dengantiga parameter padasumbu X, parameter a Discrimination = 1.0, Parameter b Difficulty = 0, dan parameter c Guessing = 0.2. Kurvatsbtidakakanpernahmenyentuhbaris paling bawahkarenasoal yang diberikanberupa PG yang memungkinkanadanya guessing (parameter c). Denanmengetahui parameter ini, kitadapatsecaratepatmenggambarkan ICC menggunakanrumusdasar IRT: †= subject’s abilityD = konstanta 1.7

G. Rasch 1960, pernahmengusulkanrumus yang lebihsederhanatetapikurangakurat, “Rasch Model, menganggapbahwatidakada guessing dansemuasoaldiperlakukan (discriminate) sama. Dengan model ini, hanyakesulitan (difficulty) yang perludiestimasi. Parameter estimasimerupakansebuahprosedurmatematiskomplek yang memerlukankomputer. Ada LOGIST (Wingersky, Barton & Lord 1982), atau micro-computers (MicroCAT, Assessment Systems Corp. 1984).( -- ) Agar bisamengestimasiparamatersecaratepat (untuktiga parameter tadi), diperlukansampel yang besar (1000 pesertates).( -- ) Sayangnya, sebaransampelinitidakmerefleksikansecaratepatdistribusipopulasikarena program akanmencobamembuatkankurvanyadibandingdenganmenhitungproporsijawabanbenar. IRT menyediakan:1. invariance of items  Item calibration is sample free2. invariance of subjects  Test-free person measurement Ygkeduainisangatlahpentingdalam adaptive testing karenasecaratidaklangsungmenyatakanbahwaestimasikemampuandapatdihitungdandibandingkanmeskipunsoal-soalberbedatelahdisampaikan.

ImplementasiTestUntukmenyusun item bank, adabeberapalangkah:1. Merencanakan bank tsb. Apakahadalebihdarisatu trait yang akandiukur? Jikaya, makaperludisusun bank soal.Harusdipastikanbahwaitumudahdilaksanakan, dijawabdandinilaibaikdgn format paper-and-pencil format jugaversicomputerisasi. 2. Field Testing dananalisis item / soal.Perluujicobadgnsampelkecil 100 s/d 200 subjek. Classical analysis item menggunakanproporsijawabanbenardankorelasiadalahsangatmembantuuntkmengeliminasisoal-soal “bad” dariversiberikutnya. Padatahapini, dimensionality analysis dapatdilakukanuntukmemastikantesatau sub tesmengukur single trait.3. Field Testing and Calibration:Versibarudilaksanakanpada sample besar 200 s/d 2000 subjektergantungpada model dankualitas sample. Data iniakandiprosessehingga parameter dantingkatkesesuaian (fit) akandiperolehuntukmasing-masing item.4. Inclusion to the bank.Jikaitemnyadapatditerima, makaakanditambahkanke bank. Setidaknya, kodeidentifikasi, pertanyaan (danpilihandengansoalbentuk PG), jawabanbenardan parameter harusadapada item record. (Henning 1986. Hal 248)

Tentusaja, sistemmanajemensudahharusdibuatsebelumnya. Cara kerjanyasepertisistem data base. Masing-masing sub-test merupakan data base yang dapatdiaksesdengansistemmanajemen.Ketikaseorang user memilihsatu sub-test, operasi yang berbedadapatdijalankan:1. Updating the bank:Ada item yang ditambah, jugadikurangi (dihapus). User harusdapatmelihatdanmemodifikasi item dalam bank tersebuttanpaharusmenuliskannyalagi.2. Importing items:Harusdapatmelakukan transfer dalamjumlahbesarke bank items.3. Listing items:Masing-masing item dapatdilihatpadajendelaterpisah. User jugaharusbisamelihatdaftar items mencakupkodeidentifikasi item, parameter, danisyarat (semacamkatakunci) untukmeingingatkan user padapertanyaan.4. Obtaining the item information:Dengan IRT, seseorangdapatmengetahuiberapabanyakinformasi yang dapatdiperolehpadapoin-poinberbedadariskala ability. Ketikainformasitersebutdikumpulkan, padapoin ability tertentu, estimasimenjadilebih reliable.

Prosedurseleksimerupakansebuahmetode yang dapatditerapkanuntukmemperkirakan ability pesertaujiansetelahmenjawabpertanyaandanuntukmenemukan item berikutnya yang paling sesuai. Konsepinformasi item sangatlahpentingkarena item yang paling sesuaimerupakan item yang menyiratkaninformasi paling banyakmerujukpada ability tertentu. Melihatkembalipelaksanaan adaptive test yang telahdirancangakanmembantudalammemahamibagaimana program tersebutbekerja. Kita butuhtespenempatanterkomputerisasi; dimanainstrumenmencobamengakses general proficiency pemelajar. Konstruksinyaharusmempertimbangkanbeberapakompetensi, gramatikal, sosiolinguistik, diskursus, (Canaledan Swain 1980) dan strategic competence (CLT, Richards n Rogers).Format test dipengaruhioleh medium, the micro-computer. Tiga sub tesberisisoal PG karenakitainginmeminimalisirpenggunaan keyboard dankarena open-ended answers terlalutidakdapatdiprediksiuntukdapatdiprosesdalamtipetesini. Organisasidanisi test jugamerefleksikanfaktabahwakitaharusmengikutisyarat-syarat yang adapada IRT.

Pelaksanaan TestDengan IRT, prosedurtelahdibuatuntukmengestimasi ability pemelajar, denganmenggunakanjawabandan parameter dari item tersebut.Namun, menghitung ability pemelajartidaklahmungkinsaat program barudijalankan, karena data belumtersedia. Inilahsebabnyamengapapadaawaltes, pemelajarditanyakanbeberapainformasiseputarlatarbelakangbahasakeduanya. Misalnya:Sudahberapatahunbelajarbahasatersebut?Pernahtidaktinggaldilingkungan yang menggunakanbahasatersebut?Jikaya, berapa lama? Lalu program akanmengarahkanpemelajarpadatingkatanproficiency-nyaatastujuhskalakategorimulaidari “Beginner” hinggapada “Very Advanced”.Informasiinidigunakan agar dapatdiperolehestimasiawal yang nantinyaakandigunakanuntukmemilih item pertamadari sub-test dimaksud. Tung (1986) menunjukkanbahwajikaestimasiawalinilebihtepat, maka adaptive test ituakanlebihefisien.

Biasanya, sub-test pertamamemuatparagrafpendekuntukmengukurtingkatpemahamanpemelajar. MenurutJafarpur (1987), “short context technique” inimerupakansuatucarauntukmengukur general proficiency. Program kemudianakanmenyesuaikanjenissoalsesuaidengantingkatkesulitan item. Jika sub-test initerjawabdenganbaik, maka program akanberpindahpada sub-test berikutnya. Sub-test keduadilaksanakandenganmerujukpadahasil sub-test pertama. Padabagianini, ditampilkansuatusituasidalambahasaInggrisdanlaludiikutiolehempatpernyataanbenardalambahasaPerancis. Pemelajarharusmemilihsatu yang paling sesuaisecarasemantikdansosiolinguistikdaripernyataantadi. Raffaldini (1988) menyatakanbahwatipe test situasionalinimemberinilaitambahuntukmengukur proficiency. Jikasemuanyaterjawab, maka program akanberalihpadasub-test ketigayaknia traditional fill-the-gap exercise. Iniuntukmengukuraspekbahasasecaraleksikaldangramatikal. Setelahsemuanyaselesai, makahasilnyaakantampildilayar. Makahasilnyaakandikategorikanpada 14 tingkatan; “absolute beginner, Absolute beginner +, … Very advanced +”.

Keuntungan ( + ) danKeterbatasan ( - )+ Pemelajardanpelaksana (administrator / pengelola) mendapatkanhasillangsung (cepat).+ Pemelajarmenerimabalikanataspekerjaannya, daninisifatnyarahasia (confidential).+ Karenatidakada “markers”, jadi “marking”-nyajadilebihekonomis, bebasdarikesalahan (error-free), dantidakadapenundaan.+ Karenatestnyasifatnya individual, pemelajardapatmencatattestersebutjikadiinginkan.+ karenaprosedurnyasifatnya adaptive (dapatdisesuaikan), test-nyalebihsingkat. + Untukdapatmembandingkandarisisireliabilitas test yang kitaikuti, kitaperluversi “paper-and-pencil” (dua kali dari CAT). + CAT hanyamenggunakan 40% darisoalpadatesconvensionalsejenis. + Denganprosedur yang adaptif, pemelajardihadapkanpada test yang realistis : maksudnya item tersebuttidakpernahdianggapterlalusulitataupunterlalumudah.+ Denganmenggunakaninstrumen yang canggih, dapatdiketahuijikaadapeserta test yang palsu (semacamjoki).+ Denganpenggunaankomputer, seseorangitudapatmenciptakansuasana yang lebihasyik (santai). + “within a CAT environment item selection and ability estimation occur in real time” (der Linden & Pashley, 2010 : 4)

- Komputeritusifatnya artificial (buatan), hanyamencobamerepresentasikandunianyatadanmenghindaribentuk test langsung.- Selainitu, jenisjawabanterbataskarenamesindanjugakarena model psikometrik. - Medium, komputertidakhanyamempengaruhitipejawabantetapijugaisites. Pada test, kitainginmenggunakanstandardanperangkatkeras yang terjangkautetapibeberapapemelajarmengeluhbahwatestersebutsangatkurangdalammengakses oral skills. - Meskipuninovasi videodisc, perangkat audio-tape, CD-Rom, atauperangkatbuatanlainnya, stimulus dalam CAT umumnyabentuknyatertulis.- Sebaliknya, model, IRT, tidakhanyamempengaruhitipejawabantetapijugakepraktisanpengembangannya. - Dalamtes, tigabagianterdiriatas 50 item (soal) diberikankepadapesertadalamjumlahbesar (700 hundred examinees (hal. 252). Denganjumlahini, komponenkesalahandaritiga parameter itumungkinterlalubesar. Untukmenguranginya, model Raschdapatditerapkanbiasanyapadapenyesuaian model. CAT kurang applicable padatesberskalakecil.

Masalah yang paling besaradalahasumsiatasunidimensionalitas (ukuran); initerkaitdengan trait yang diukur. Dengan IRT, dimensiumum, yaknifaktortertentu, harussecarajelasdimunculkan. Sebaliknya, aplikasi IRT inimasihdiperdebatkan. Meskipunprosedurkalibrasinyasecarastatistikcukupbagusdankebanyakantesbahasaakanmengikutisyaratunidimensionalitas (Henning, Hudson & Turner 1985), banyaksituasitesdidasarkanpadaancanganmultidimensikompetensibahasa (Bachman). Teknikkalibrasimultidimensiadatetapitidakselalupraktis (Dandonelli & Rumizen 1989). Salahsatujenisunidimensionalitasadalahindependensisoal. Prinsipinimenyiratkanbahwasebuahjawabanbenarpada item tertentutidakakanmempengaruhikemungkinanakanbenarpada item yang lainnya. Syaratinitidakterpenuhipada Cloze Test karenauntukmenemukankata yang tepatdanbenardalamsebuahkonteksjugamemungkinkankitamenemukanjawabanbenarpadakataberikutnya. Akhirnya, ketikasemuamasalahteoritisiniteratasi, kerapkalimasalah-masalahpraktismuncul. Misalnya, bagibeberapalembaga, biayapengembangandanimplementasiadaptif test inisangatberat (tinggi). Madsen (1986) menyelidikisikapdankebimbanganpemelajarmenghadapi test komputerisasi; perluadaperhatianataspengaruhafeksiini.

Contoh: catdemo.htm cat10.asp.htm Rudner, Lawrence M. (1998). An On-line, Interactive, Computer Adaptive Testing Mini-Tutorial, http://edres.org/scripts/cat/cat http://examenglish.com

Kesimpulan1. Denganadanyaketerbatasan CAT inimengindikasikanbahwaCAT bukanlahsebuah panacea (ampuh/mujarab). 2.Sebaiknya jangandigunakanuntuktesdiagnosajikauntukmencarikelemahanataukekuatanpada discrete points karenatipetesini (DP) tidakunidimensional. 3. Jugasebaiknyatidakdigunakanpada “communicative test” yang mencobamengukuraspekkompetensikomunikatiftanpamengisolasinyadengandimensi yang berbedadalam sub-testerpisah.4. Canale (1986) menyebutkanbahwasuasanatesnyasangatartifisialsehinggadarisisivaliditasnya CAT kurang, karenajikahasiltesdigunakanuntukmembuatsuatukeputusanpenting (High Level Test), misalnyatessertifikasi. Namun, jikaitusebagaiestimasikasaratas ability dalamlingkupluasdibutuhkan, misalnyauntuktespenempatan, barangkali CAT bisasebagaisolusi yang sesuai. Jugajika trait yang diukursesuatu yang unikseperti general proficiency, vocabulary, grammar. Jugadapatmenjadisolusibagitesintegratifterkait receptive skills terutamajikahasilnyatidakmempengaruhimasadepanpemelajar, ataudimungkinkansajadilengkapidenganpengukuranlangsunglainnya. 5. Perangkatlunak program CAT diperlukandalambidangpengukuranuntukmembantuprosesevaluasigunamengetahuikeberhasilanprosespembelajaran ; Kinerja programCAT menggunakanalgoritmalogikafuzzymampumelaksanakantugasdenganbaikuntukpemilihanbutirtesdanpengukurankemampuanhasilbelajarsiswadalamprosespembelajaran (Haryanto, 2009. Disertasi:UNY)

≠ Singkatnya, CAT akantetapsebagai CAT, tidakakanpernahsebagaiseekor “watchdog”. T3r1m4 k451H

Cat ppt

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Cat ppt

Ähnlich wie Cat ppt (20)

Mehr von juniato

Mehr von juniato (20)

Cat ppt