Sabtu, 13 Agustus 2011

ANALISIS BUTIR SOAL SECARA KUANTITATIF


A.   Pengertian

Penelaahan soal secara kuantitatif maksudnya adalah penelaahan butir soal didasarkan pada data empirik dari butir soal yang bersangkutan. Data empirik ini diperoleh dari soal yang telah diujikan.



B.   Analisis Butir Soal
Ada dua pendekatan dalam analisis secara kuantitatif, yaitu pendekatan secara klasik dan modern.

1.   Klasik
Analisis butir soal secara klasik adalah proses penelaahan butir soal melalui informasi dari jawaban peserta didik guna meningkatkan mutu butir soal yang bersangkutan dengan menggunakan teori tes klasik.

Kelebihan   analisis   butir   soal   secara   klasik   adalah   murah,   dapat dilaksanakan sehari-hari dengan cepat menggunakan komputer, murah, sederhana, familier dan dapat menggunakan data dari beberapa peserta didik atau sampel kecil (Millman dan Greene, 1993: 358).
Adapun  proses  analisisnya  sudah  banyak  dilaksanakan  para  guru  di
sekolah seperti beberapa contoh di bawah ini.
a.  Langkah pertama yang dilakukan adalah menabulasi jawaban yang telah dibuat pada setiap butir soal yang meliputi berapa peserta didik yang:  (1)  menjawab  benar  pada  setiap  soal,  (2)  menjawab  salah
(option pengecoh), (3) tidak menjawab soal. Berdasarkan tabulasi ini, dapat diketahui tingkat kesukaran setiap butir soal, daya pembeda soal, alternatif jawaban yang dipilih peserta didik.

b.  Misalnya analisis untuk 32 siswa, maka langkah (1) urutkan skor siswa dari yang tertinggi sampai yang terendah. (2) Pilih 10 lembar jawaban pada kelompok atas dan 10 lembar jawaban pada kelompok bawah. (3) Ambil kelompok tengah (12 lembar jawaban) dan tidak disertakan dalam analisis. (4) Untuk masing-masing soal, susun jumlah siswa kelompok atas dan bawah pada setiap pilihan jawaban. (5) Hitung tingkat kesukaran pada setiap butir soal. (6) Hitung daya pembeda soal. (7) Analisis efektivitas pengecoh pada setiap soal (Linn dan Gronlund, 1995: 318-319).



Aspek yang perlu diperhatikan dalam analisis butir soal secara klasik adalah setiap butir soal ditelaah dari segi: tingkat kesukaran butir, daya pembeda butir, dan penyebaran pilihan jawaban (untuk soal bentuk obyektif) atau frekuensi jawaban pada setiap pilihan jawaban.





a.   Tingkat Kesukaran (TK)

Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal pada tingkat kemampuan tertentu yang biasanya dinyatakan dalam bentuk indeks. Indeks tingkat kesukaran ini pada umumnya dinyatakan dalam bentuk proporsi yang besarnya berkisar 0,00 - 1,00 (Aiken (1994:
66).  Semakin  besar  indeks  tingkat  kesukaran  yang  diperoleh  dari hasil hitungan, berarti semakin mudah soal itu. Suatu soal memiliki TK=
0,00 artinya bahwa tidak ada siswa yang menjawab benar dan bila
memiliki TK= 1,00 artinya bahwa siswa menjawab benar. Perhitungan indeks tingkat kesukaran ini dilakukan untuk setiap nomor soal. Pada prinsipnya, skor rata-rata yang diperoleh peserta didik pada butir soal yang bersangkutan dinamakan tingkat kesukaran butir soal itu.  Rumus ini            dipergunakan    untuk  soal  obyektif.  Rumusnya  adalah  seperti berikut ini (Nitko, 1996: 310).
TingkatKesukaran(TK) = Jumah siswayang menjawabbenar butir soal
Jumlahsiswayang mengikutites

Fungsi tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan tes. Misalnya untuk keperluan ujian semester digunakan butir soal yang memiliki tingkat kesukaran sedang, untuk keperluan seleksi digunakan butir soal yang memiliki tingkat kesukaran tinggi/sukar, dan untuk keperluan diagnostik biasanya digunakan butir soal yang memiliki tingkat kesukaran rendah/mudah.

Untuk mengetahui tingkat kesukaran soal bentuk uraian digunakan rumus berikut ini.
Mean=  Jumahskor.siswa pesertates pada suatu soal
Jumlah pesertadidik yang mengikutites


Tingkat Kesuli tan =

Mean
Skor maksimumyang ditetapkan



Hasil perhitungan dengan menggunakan rumus di atas menggambarkan tingkat kesukaran soal itu. Klasifikasi tingkat kesukaran soal dapat dicontohkan seperti berikut ini.

0,00 - 0,30 soal tergolong sukar
0,31 - 0,70 soal tergolong sedang
0,71 - 1,00 soal tergolong mudah
Tingkat kesukaran butir soal dapat mempengaruhi bentuk distribusi total skor tes. Untuk tes yang sangat sukar (TK= < 0,25) distribusinya berbentuk positif skewed, sedangkan tes yang mudah dengan TK= >0,80)
distribusinya berbentuk negatif skewed.





9





Tingkat kesukaran butir soal memiliki 2 kegunaan, yaitu kegunaan bagi guru dan kegunaan bagi pengujian dan pengajaran (Nitko, 1996: 310-
313). Kegunaannya bagi guru adalah: (1) sebagai pengenalan konsep terhadap pembelajaran ulang dan memberi masukan kepada siswa tentang     hasil   belajar              mereka,          (2)          memperoleh         informasi  tentang
penekanan kurikulum atau mencurigai terhadap butir soal yang bias. Adapun             kegunaannya  bagi  pengujian  dan   pengajaran  adalah:   (a) pengenalan konsep yang diperlukan untuk diajarkan ulang, (b) tanda- tanda terhadap kelebihan dan kelemahan pada kurikulum sekolah, (c)
memberi masukan kepada siswa, (d) tanda-tanda kemungkinan adanya butir soal yang bias, (e) merakit tes yang memiliki ketepatan data soal.

Di samping kedua kegunaan di atas, dalam konstruksi tes, tingkat kesukaran  butir  soal  sangat  penting  karena  tingkat  kesukaran  butir dapat: (1) mempengaruhi karakteristik distribusi skor (mempengaruhi bentuk         dan       penyebaran       skor   tes     atau            jumlah                 soal   dan  korelasi antarsoal), (2) berhubungan dengan reliabilitas. Menurut koefisien alfa clan KR-20, semakin tinggi korelasi antarsoal, semakin tinggi reliabilitas (Nunnally, 1981: 270-271).

Tingkat kesukaran butir soal juga dapat digunakan untuk mempredikst alat ukur itu sendiri (soal) dan kemampuan peserta didik dalam memahami        materi  yang   diajarkan                  guru.     Misalnya             satu    butir        soal termasuk kategori mudah, maka prediksi terhadap informasi ini adalah seperti berikut.
1)   Pengecoh butir soal itu tidak berfungsi.
2)   Sebagian besar siswa menjawab benar butir soal itu; artinya bahwa sebagian besar siswa telah memahami materi yang ditanyakan.

Bila suatu butir soal termasuk kategori sukar, maka prediksi terhadap informasi ini adalah seperti berikut.
1)   Butir soal itu "mungkin" salah kunci jawaban.
2)   Butir soal itu mempunyai 2 atau lebih jawaban yang benar.
3)   Materi   yang   ditanyakan  belum   diajarkan   atau   belum   tuntas pembelajarannya,            sehingga     kompetensi      minimum            yang     harus dikuasai siswa belum tercapai.
4)   Materi yang diukur tidak cocok ditanyakan dengan menggunakan bentuk soal             yang  diberikan            (misalnya  meringkas  cerita   atau mengarang ditanyakan dalam bentuk pilihan ganda).
5)   Pernyataan atau kalimat soal terlalu kompleks dan panjang.





Namun, analisis secara klasik ini memang memiliki keterbatasan, yaitu bahwa tingkat kesukaran sangat sulit untuk mengestimasi secara tepat karena  estimasi  tingkat  kesukaran  dibiaskan  oleh  sampel  (Haladyna,
1994: 145). Jika sampel berkemampuan tinggi, maka soal akan sangat mudah (TK= >0,90). Jika sampel berkemampuan rendah, maka soal akan
sangat sulit (TK = < 0,40). Oleh karena itu memang merupakan kelebihan analisis secara IRT, karena 1RT dapat mengestimasi tingkat kesukaran soal tanpa menentukan siapa peserta tesnya (invariance). Dalam IRT, komposisi sampel dapat mengestimasi parameter dan tingkat kesukaran
soal tanpa bias.

b.   Daya Pembeda (DP)

Daya   pembeda   soal   adalah   kemampuan  suatu   butir   soal  dapat membedakan antara warga belajar/siswa yang telah menguasai materi yang ditanyakan dan warga belajar/siswa yang tidak/kurang/belum menguasai materi yang ditanyakan. Manfaat daya pembeda butir soal adalah seperti berikut ini.
1)   Untuk meningkatkan mutu setiap butir soal melalui data empiriknya.
Berdasarkan indeks daya pembeda, setiap butir soal dapat diketahui apakah butir soal itu baik, direvisi, atau ditolak.
2)   Untuk    mengetahui   seberapa   jauh   setiap   butir    soal   dapat mendeteksi/membedakan kemampuan siswa, yaitu siswa yang telah
memahami atau belum memahami materi yang diajarkan guru. Apabila        suatu              butir    soal     tidak  dapat   membedakan           kedua kemampuan              siswa   itu, maka      butir    soal      itu   dapat   dicurigai "kemungkinannya" seperti berikut ini.
     Kunci jawaban butir soal itu tidak tepat.
     Butir soal itu memiliki 2 atau lebih kunci jawaban yang benar
     Kompetensi yang diukur tidak jelas
     Pengecoh tidak berfungsi
     Materi yang ditanyakan terlalu sulit, schingga banyak siswa yang
menebak
     Sebagian besar siswa yang memahami materi yang ditanyakan
berpikir ada yang salah informasi dalam butir soalnya

Indeks daya pembeda setiap butir soal biasanya juga dinyatakan dalam bentuk proporsi. Semakin tinggi indeks daya pembeda soal berarti semakin           mampu   soal    yang                   bersangkutan    membedakan        warga belajar/siswa    yang   telah                memahami   materi  dengan          warga belajar/peserta didik yang belum memahami materi. Indeks daya pembeda berkisar antara -1,00 sampai dengan +1,00. Semakin tinggi daya pembeda suatu soal, maka semakin kuat/baik soal itu. Jika daya pembeda negatif (<0) berarti lebih banyak kelompok bawah (warga belajar/peserta didik yang tidak memahami materi) menjawab benar soal dibanding dengan kelompok atas (warga belajar/peserta didik yang memahami materi yang diajarkan guru).





Untuk  mengetahui  daya  pembeda  soal  bentuk  pilihan  ganda  adalah dengan menggunakan rumus berikut ini.


N
 
DP = BA BB
 1
2

atau

DP = 2(BA BB)
N


DP = daya pembeda soal,
BA = jumlah jawaban benar pada kelompok atas,
BB = jumlah jawaban benar pada kelompok bawah, N=jumlah siswa yang mengerjakan tes.

Di samping rumus di atas, untuk mengetahui daya pembeda soal bentuk pilihan ganda dapat dipergunukan rumus korelasi point biserial (r pbis) dan korelasi biserial (r bis) (Miliman and (ireene, 1993: 359-360) dan (Glass and Stanley, 1970: 169-170) seperti berikut.



rpbis = Xb Xs     pq

dan

rbis = Yb  Ys .

nb.ns

SD                                                     SD

un  n2 n



Xb, Yb adalah rata-rata skor warga belajar/siswa yang menjawab benar Xs, Ys adalah rata-rata skor warga belajar siswa yang menjawab salah SDt adalah simpangan baku skor total
nb dan n, adalah jumlah siswa yang menjawab benar dan jumlah siswa yang menjawab salah, serta nb + n, = n.
p adalah proporsi jawaban benar terhadap semua jawaban siswa
q adalah I –p
U adalah ordinat kurva normal.

Untuk  mengetahui daya pembeda soal bentuk  uraian  adalah  dengan menggunakan rumus berikut ini.
DP = Mean kelompok atas Mean kelompok bawah
Skor maksimum soal

Hasil   perhitungan   dengan   menggunakan   rumus   di    atas   dapat menggambarkan tingkat kemampuan soal dalam membedakan antar peserta  didik  yang  sudah  memahami  materi  yang  diujikan  dengan peserta  didik  yang  belum/tidak  memahami  materi  yang  diujikan. Adapun klasifikasinya adalah seperti berikut ini (Crocker dan Algina,
1986: 315).

0,40 - 1,00  soal diterima baik
0,30 - 0,39  soal diterima tetapi perlu diperbaiki
0,20 - 0,29  soal diperbaiki
0,19 - 0,00  soal tidak dipakai/dibuang





rpbis  merupakan korelasi product moment antara skor dikotomus dan pengukuran                   kriterion,  sedangkan  rbis   merupakan  korelasi  product moment antara variabel latent distribusi normal berdasarkan dikotomi benar-salah  dan    pengukuran                   kriterion.  Oleh      karena   itu,             untuk perhitungan pada data yang sama rpbis = 0, sedangkan r bis paling sedikit 25% lebih besar daripada rpbis. Kedua korelasi ini masing-masing memiliki  kelehihan (Millman and Greene, 1993:  360)  walaupun  para guru/pengambil kebijakan banyak yang suka menggunakan rpbis.

Kelebihan korelasi point biserial: (1) memberikan refleksi konstribusi soal secara sesungguhnya terhadap fungsi tes. Maksudnya ini mengukur bagaimana baiknya soal berkorelasi dengan criterion (tidak bagaimana baiknya   beberapa/secara  abstrak);              (2)                        sederhana dan  langsung berhubungan dengan statistik tes, (3) tidak pernah mempunyai value
1,00 karena hanya variabel-variabel dengan distribusi bentuk yang sama yang dapat berkorelasi secara tepat, dan variabel kontinyu (kriterion) dan skor dikotonius tidak mempunyai bentuk yang sama.

Adapun kelebihan korelasi biserial adalah: (1) cenderung lebih stabil dari sampel ke sampel, (2) penilaian lebih akurat tentang bagaimana soal dapat diharapkan untuk membedakan pada beberapa perbedaan point di skala abilitas, (3) value rbis yang sederhana lebih langsung berhubungan dengan indikator diskriminasi ICC.

Contoh menghitung korelasi point biserial (rpbis).

DAFTAR SKOR SISWA SOAL NOMOR 5

Nomor siswa
yang menjawab benar

Jumlah skor keseluruhan
Nomor siswa
yang menjawab salah

Jumlah skor keseluruhan
1
2
3
4
5
6
7
8
9
10
19
18
18
16
16
16
15
13
13
13
12
12
11
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
17
16
15
14
14
12
12
12
12
12
11
11
10
9
8
8
7
Jumlah
192

200





Jumlah siswa yang menjawab benar   = 13
Jumlah siswa yang menjawab salah    = 17
Jumlah siswa keseluruhan                 = 30
Rata-rata siswa yang menjawab benar = 192:13 = 14,7692
Rata-rata siswa yang menjawab salah = 200:17 = 11,7647
Rata-rata skor siswa keseluruhan       = (192+200) :30 = 13,0667
Simpangan baku skor total                = 3,0954
Jumlah skor keseluruhan                   = 392



rpbis

= xb xs     pq
SD



r     = 1    4,7692  11,7647

13 . 17

pbis

3,0954

30   30




rpbis

= 3,0045
3,0954

(0,433333)(0,566666)


=(0,9706338) (0,4955355)
= 0,4809835
= 0,48 (Artinya butir soal nomor 5 diterima/baik)

Di samping menggunakan kriteria di atas, untuk. menentukan diterima tidaknya                (signifikansi)    suatu    butir    dapat    ditentukan    dengan menggunakan tabel Z bila n >_ 30 dengan menggunakan rumus Z= r 4 N-1 atau tabel t bila n < 30 dengan rumus t = r (N2)I(1-r2) (Bruning dan Kintz,
1987: 179-180). Contoh untuk data di atas digunakan tabel Z.

Z = r

N  1

Z  = 0,48 30-1
Z  = 2,58

Dalam tabel Z dapat diketahui untuk α = 0,05 dengan 2 sisi (2 tailed), Z kritiknya adalah ±1,96 dan Z=2,58 probabilitasnya ("area di atas Z" atau "bidang  tersempit")  =  0,0049.  Caranya  adalah  lihat  Tabel  Z  pada lampiran buku ini.

c.   Penyebaran (distribusi) jawaban

Penyebaran pilihan jawaban dijadikan dasar dalam penelaahan soal. Hal ini dimaksudkan untuk mengetahui berfungsi tidaknya jawaban yang tersedia. Suatu pilihan jawaban (pengecoh) dapat dikatakan berfungsi apabila pengecoh:
1)   paling tidak dipilih oleh 5 % peserta tes/siswa,
2)   lebih banyak dipilih oleh kelompok siswa yang belum paham materi.





d. Reliabilitas Skor Tes

Tujuan utama menghitung reliabilitas skor tes adalah untuk mengetahui tingkat  ketepatan  (precision)  dan  keajegan  (consistency)  skor  tes. Indeks reliabilitas berkisar antara 0 - 1. Semakin tinggi koefisien reliabilitas suatu      tes         (mendekati     1),                    makin   tinggi pula keajegan/ketepatannya.

Tes   yang   memiliki         konsistensi        reliabilitas   tinggi     adalah      akurat, reproducibel,   dan   generalized   terhadap   kesempatan   testing   dan instrumen        tes          lainnya.      Secara   rinci   faktor   yang   mempengaruhi reliabilitas skor tes di antaranya:
1)    Semakin banyak jumlah butir soal, semakin ajek suatu tes.
2)    Semakin lama waktu tes, semakin ajek.
3)    Semakin  sempit   range   kesukaran   butir   soal,   semakin  besar keajegan.
4)    Soal-soal yang saling berhubungan akan mengurangi keajegan.
5)    Semakin objektif pemberian skor, semakin besar keajegan.
6)    Ketidaktepatan pemberian skor.
7)    Menjawab besar soal dengan cara menebak.
8)    Semakin homogen materi semakin besar keajegan.
9)    Pengalaman peserta ujlan.
10)  Salah penafsiran terhadap butir soal.
11)  Menjawab soal dengan buru-buru/cepat.
12)  Kesiapan mental peserta ujian.
13)  Adanya gangguan dalam pelaksanaan tes.
14)  Jarak antara tes pertama dengan tes kedua.
15)  Mencontek dalam mengerjakan tes.
16)  Posisi individu dalam belajar.
17)  Kondisi fisik peserta ujian.


Ada 3 cara yang dapat dilakukan untuk menentukan reliabilitas skor tes, yaitu :
1)    Keajegan pengukuran ulang: kesesuaian  antara  hasil  pengukuran
pertama dan kedua dari sesuatu alat ukur terhadap kelompok yang sama.
2)    Keajegan pengukuran setara: kesesuaian hasil pengukuran dan 2 atau lebih alat ukur berdasarkan kompetensi kisi-kisi yang lama.
3)    Keajegan belah dua: kesesuaian antara hasil pengukuran belahan pertama dan belahan kedua dari alat ukur yang sama.
Penggunaan rumus untuk mengetahui koefisien ketiga jenis reliabilitas
di atas dijelaskan secara rinci berikut ini.


e. Reliabilitas Instrumen Tes (soal bentuk pilihan ganda)

Untuk mengetahui koefisien reliabilitas tes soal bentuk pilihan ganda digunakan rumus Kuder Richadson 20 (KR-20) seperti berikut ini.







KR               k   

p(1 p) 

 
20 =          1
k  1 

(SD)2     


Keterangan:
k           : Jumlah butir soal
(SD)2        : Varian

Contoh menghitung KR-20:


Siswa
Soal
Σ Skor

X
X  X
( X x )2
1
2
3
4
A B C D E F
1
1
0
0
1
1
0
1
0
0
1
1
0
0
1
0
0
1
0
0
1
0
1
1
1
2
2
0
3
4
2
2
2
2
2
2
-1
0
0
-2
-1
-2
1
0
0
4
1
4
p
0,67
0,50
0,33
0,50
12


10

(1-p)               :
0,33
0,50
0,67
0,50
p(1-p)             :
0,22
0,25
0,22
0,25
Σp(1-p)            :
0,22
+ 0,25 +
0,22
+  0,25 =0,944
Jumlah siswa    = 6 orang
Junlah skor       = 12
Variance          =Σ ( X x )2 /N
=10:6
=1,67
Standar Deviasi =1,67
=1,29


KR               k   

p(1 p) 

 
20 =           1
k  1 

(SD)2     



 
      =    4

  0,944 

 
KR    20

4  1 1

1,67


= 0,58 (Artinya  bahwa  tingkat  keajegan  tes  ini  rendah.  Hal  ini disebabkan butir soal yang dianalisis hanya 4 butir soal)
Di samping KR-20 di atas, ada teknik lain untuk menghitung reliabilitas tes, yaitu yang dikembangkan oleh Spearman-Brown. Caranya adalah dengan mengelompokkan nomor butir yang ganjil dan genap. Perhatikan contoh berikut ini.





Nama
Peserta Didik
Soal
Σ Skor
1
2
3
4
Nur Chasanah Salim Alkhasan Abdul Latif Choeroddin
Moh Chanif
Rofi’ah
1
1
0
0
1
1
0
1
0
0
1
1
0
0
1
0
0
1
0
0
1
0
1
1
1
2
2
0
3
4
p
0,67
0,50
0,33
0,50
12


Nama
Peserta Didik
Butir
Ganjil
(1+3)
Butir
Genap
(2+4)
Skor Z untuk

ZganxZgen

Ganjil

Genap
Nur Chasanah
Salim Alkhasan Abdul Latif Choeroddin Moh Chanif Rofi’ah
1
1
1
0
1
2
0
1
1
0
2
2
0
0
0
-1,72
0
+1,72
-1,22
0
0
-1,22
+1,22
+1,22
0
0
0
2,10
0
2,10
p
0,67
0,50
0,33
0,50
12

n= 6 Mean    =     1,0        1,0                                Jumlah= 4,2
SD        =     0,58      0,82
Zgan xZ gen
r 12 =
n


r 12 =

4,2
6

= 0,70
reliabilitas Spearman Brown =


2r 1.2
1+ r 1.2

= 2. (0,70)
1 + 0,70
= 0,82

(Artinya bahwa tingkat keajegan/konsistensi tes ini adalah tinggi, sehingga skor tes ini dapat dipercaya penggunaannya.)











17





2. Modern

Analisis butir soal secara modern yaitu penelaahan butir soal dengan menggunakan Item Response Theory (IRT) atau teori jawaban butir soal. Teori ini merupakan suatu teori yang menggunakan fungsi matematika untuk menghubungkan         antara      peluang                          menjawab           benar         suatu   scal     dengan kemampuan siswa. Nama lain IRT adalah latent trait theory (LTT), atau characteristics curve theory (ICC).

Asal mula IRT adalah kombinasi suatu versi hukum phi-gamma dengan suatu analisis faktor butir soal (item factor analisis) kemudian bernama Teori Trait Latent (Latent Trait Theory), kemudian sekarang secara umum dikenal menjadi teori jawaban butir soal (Item Response Theory) (McDonald, 1999:
8).

Dalam subbab ini akan disajikan kelebihan analisis secara IRT dan kalibrasi butir soal dan pengukuran kemampuan orang.

1.   Kelebihan Analisis IRT

Untuk   mengetahui  kelebihan   analisis  IRT,   maka  para  guru   perlu mengetahui keterbatasan analisis secara klasik. Keterbatasan model pengukuran secara klasik bila dibandingkan dengan teori jawaban butir soal  adalah  seperti  berikut  (Hambleton,  Swaminathan,  dan  Rogers,
1991:  2-5).  (1)  Tingkat  kemampuan  dalam  teori  klasik  adalah  "true score". Jika tes sulit artinya tingkat kemampuan peserta didik mudah. Jika tes mudah artinya tingkat kemampuan                                                   peserta didik tinggi. (2)
Tingkat  kesukaran  soal  didefinisikan  sebagai  proporsi peserta  didik dalam grup yang menjawab benar soal. Mudah/sulitnya butir soal tergantung pada kemampuan peserta didik yang dites dan kemampuan tes yang diberikan. (3) Daya pembeda, reliabilitas, dan validitas soal/tes
didefinisikan berdasarkan grup peserta didik. Adapun kelebihan IRT adalah bahwa: (1) IRT tidak berdasarkan grup dependent, (2) skor siswa dideskripsikan bukan test dependent, (3) model ini menekankan pada tingkat butir soal bukan tes, (4) IRT tidak memerlukan paralel tes untuk menentukan  relilabilitas  tes,  (5)  IRT  suatu  model  yang  memerlukan
suatu pengukuran ketepatan untuk setiap skor tingkat kemampuan.





Kelemahan   teori   tes   klasik   di   atas   diperkuat   Hambleton   dan Swaminathan (1985: 1-3) yaitu: (1) tingkat kesukaran dan daya pembeda tergantung  pada  sampel;  (2)  penggunaan  metode  dan  teknik  untuk desain dan analisis tes dengan memperbandingkan kemampuan siswa pada pernbagian kelompok atas, tengah, bawah. Meningkatnya validitas skor  tes  diperoleh  dari  tingkat  kesukaran  tes  dihubungkan  dengan tingkat kemampuan setiap siswa; (3) konsep reliabilitas tes didefinisikan dari istilah tes paralel; (4) tidak ada dasar teori untuk menentukan bagaimana siswa memperoleh tes yang sesuai dengan kemampuan siswa; (5) Standar error of measurement (SEM) hanya berlaku untuk seluruh peserta didik.

Selanjutnya Hambleton dan Swaminathan (1985: 13) menyatakan bahwa tujuan utama IRT adalah memberikan kesamaan antara statistik soal dan estimasi  kemampuan.  Ada  tiga  keuntungan  IRT  adalah:  (1)  asumsi banyak soal yang diukur pada trait yang sama, perkiraan tingkat kemampuan peserta didik adalah independen; (2) asumsi pada populasi tingkat kesukaran, daya pembeda merupakan independen sampel yang menggambarkan untuk tujuan kalibrasi soal; (3) statistik yang digunakan untuk    menghitung        tingkat             kemampuan siswa  diperkirakan       dapat terlaksana, (Hableton dan Swaminathan, 1985: 11). Jadi IRT merupakan hubungan antara probabilitas jawaban suatu butir soal yang benar dan kemampuan        siswa          atau      tingkatan/level              prestasi        siswa.  Namun kelemahan bekerja dengan model IRT adalah bekerja melalui suatu proses yang sulit karena kelebihan IRT adalah: (1) tanpa varian pada parameter butir soal, (2) tanpa varian pada parameter abilitas, (3) adanya ketepatan pada pengukuran lokal, (Bejar, 1983: 3-4).

Ada empat macam model 1RT (Hambleton, 1993: 154-157; Hambleton dan  Swaminathan,  1985:  34-50).  (1)  Model  satu  parameter  (Model Rasch), yaitu untuk menganalisis data yang hanya menitikberatkan pada parameter tingkat kesukaran coal. (2) Model dua paremeter, yaitu untuk menganalisis data yang hanya menitikberatkan pada parameter tingkat kesukaran  dan daya pembeda soal.  (3) Model  tiga  parameter,  yaitu untuk menganalisis data yang menitikberatkan pada parameter tingkat kesukaran soal, daya pembeda soal, dan menebak (guessing). (4) Model empat parameter, yaitu untuk menganalisis data yang menitikberatkan pada parameter tingkat kesukaran soal, daya beda soal, menebak, dan penyebab lain.

Hambleton dan Swaminathan (1985: 48) menjelaskan bahwa siswa yang memiliki kemampuan tinggi tidak selalu menjawab soal dengan betel. Kadang-kadang mereka sembrono (mengerjakan dengan serampangan), memiliki informasi yang berlebihan, sehingga mereka menjawab salah pada suatu soal. Untuk mengatasi masalah ini diperlukan model 4 parameter.





Dari keempat model itu tidak sama penekanannya dan sudah barang tentu tiap-tiap model itu memiliki kelebihan dan kekurangan. Kelebihan dan    kekurangan         itu        dapat           diklasifkasikan                     sesuai  dengan   jumlah parameter yang ditentukan pada masing-masing model dan tujuan menggunakan model yang bersangkutan.

Adapun contoh kurva ciri soal model satu parameter atau Rasch terlihat seperti pada grafik di bawah ini.


Peluang menjawab benar



1,00

0,90

1                                2                     3


0,50






0,30


-3             -2


-1   -0,52


0    0,87   1


1,28


Kemampuan Siswa


2.   Kalibrasi Butir Soal dan Pengukuran Kemampuan Orang.

Kalibrasi  butir  soal  dan  pengukuran  kemampuan  orang merupakan proses estimasi parameter pada model respon butir. Model persamaan dasar Rasch adalah model probabilistik yang mencakup hasil dari suatu interaksi butir soal-orang. Proses mengestimasi kemampuan orang dinamakan pengukuran, sedangkan proses mengestimasi parameter tingkat kesukaran butir soal dinamakan kalibrasi. Jadi kalibrasi soal merupakan proses penyamaan skala soal yang didasarkan pada tingkat kesukaran butir soal dan tingkat kemampuan siswa. Adapun ciri suatu skala adalah mempunyai titik awal, biasanya 0, dan mempunyai satuan ukuran atau unit pengukuran.

Prosedur estimasi dapat dilakukan dengan tangan atau komputer. Ada beberapa langkah yang dapat dilakukan dalam mengkalibrasi butir dan menguki.r kemampuan orang dengan tangan (Wright and Linacre, 1992:
32-45) seperti berikut ini.

a.   Menyusun jawaban peserta didik untuk setiap butir soal ke dalam tabel.
Dalam  menyusun  jawaban  peserta  didik  untuk  setiap  butir  ke





dalam tabel perlu disediakan kolom: (1) siswa, (2) butir soal, (3) skor siswa, dan (4) skor butir soal. Data berbentuk angka 1 untuk jawaban benar dan 0 untuk jawaban salah.

b.   Mengedit data
Berdasarkan  model  Rasch,  butir  soal  yang  dijawab  siswa  betul semua atau salah semua dan siswa yang dapat menjawab dengan betul semua atau salah semua, soal atau siswa yang bersangkutan tidak dianalisis atau dikeluarkan dari tabel. Pada langkah kedua ini perlu disediakan tambahan kolom: (1) proporsi skor siswa dan (2) proporsi skor butir soal. Proporsi skor peserta didik adalah skor siswa : jumlah butir soal; sedangkan proporsi skor soal adalah skor soal : jumlah siswa.

c.   Menghitung distribusi skor soal
Berdasarkan   skor   soal   yang   sudah   diedit,   maka   skor   soal diklasifikasikan menjadi beberapa kelompok berdasarkan skor yang sama. Untuk memudahkan penghitungan Distribusi skor butir soal,
maka perlu disusun beberapa kolom di dalam tabel, seperti kolom: (1) kelompok skor soal (i) yaitu kelompok skor yang didasarkan pada skor  soal yang sama, kolom ini berhubungan langsung dengan kolom
2 dan kolom 3; (2) nomor butir soal, (3) skor soal (Si), (4) frekuensi soal (Fi) yaitu jumlah soal yang memiliki skorsoal sama; (5) proporsi
benar (Pi) yaitu Si : jumlah peserta tes; (6) proporsi salah (1-Pi), (7) logit (log odds unit)-proporsi salah (Xi) yaitu Ln [(1 -Pi)/Pi], (8) hasil kali frekuensi soal dengan logit proporsi salah (FiXi), (9) kuadrat logit proporsi salah (FiXi)2  , (10) hasil kali frekuensi soal dengan kuadrat logit proporsi salah(FiXi2), (11) inisial kalibrasi butir soal yaitu di°  = Xi - nilal rata-rata skor soal, dan (12) hasil kali antara frekuensi soal dengan kuadrat nilai rata-rata skor coal (FIX ?).

d.   Menghitung distribusi skor peserta didik.
Untuk memudahkan di dalam menghitung distribusi skor       peserta didik perlu disusun beberapa kolom yaitu kolom: (1) kemungkinan skor  peserta didik (r) yang disusun secara berurutan dimulai dan skor terendah sampai tertinggi; (2) skor  peserta didik, yaitu berupa toli
skor peserta didik; (3) frekuensi peserta didik (nr) yang memperoleh skor; (4) proporsi benar (Pi-) yaitu skor  peserta didik dibagi jumlah soal, (5) logit proporsi benar (Yr) yaitu Ln [Pr/(1-Pr)]; (6) perkalian antara frekuensi siswa dengan logit proporsi benar (nrYr); (7) logic proporsi  benar yang dikuadraktan (Yr kuadrat); (8)  hasil perkalian
antara frekuensi    peserta didik dengan logic proporsi benar yang dikuadratkan (nrYr kuadrat); (9) inisial pengukuran kemampuan peserta didik (br Yr); (10) perkalian antara frekuensi peserta didik dengan nilai rata-rata skor peserta didik (nrYr kuadrat).
e.   Menghitung  faktor  ekspansi  kemampuan   peserta  didik  (x)  dan kesukaran                 butir   soal  (Y).   Dalam  menghitung   faktor   ekspansi diperlukan variasi distribusi kelompok skor soal (U) dan variance





distribusi kelompok skor siswa (V). Faktor ekspansi kemampuan peserta didik terhadap keluasan tes adalah X = [ (I 4-U/2,89)/ (1- UV/8,35)]" 2 Faktor ekspansi kemampuan peserta didik terhadap penyebaran sampel adalah X =_ [ (1+U/2,89)/ (1-UV/8,35)]12

f.    Menghitung tingkat kesukaran dan kesalahan standar butir soal
Dalam menghitung tingkat kesukaran dan kesalahan standar soal perlu disusun beberapa kolom di dalam tabel, yaitu kolom: (1) kelompok skor soal (1); (2) nomor soal; (3) inisial kalibrasi soal (d); (4) faktor ekspansi kesukaran soal terhadap penyebaran sampel (Y);
(5)  tingkat  kesukaran soal  atau  Yd; = d;; (6)  skor  soal  (S);  (7) kesalahan standar kalibrasi soal yang dikoreksi [SE(di)] atau SE = [ N/Si (N-Si)]ll2

g.   Menghitung tingkat kemampuan dan kesalahan standar siswa
Dalam menghitung tingkat kemampuan dan kesalahan standar siswa disusun beberapa kolom, yaitu kolom: (1) kemungkinan skor siswa
(r); (2) initial pengukuran kemampuan siswa (br); (3) faktor ekspansi
kemampuan   siswa   terhadap   keluasan    tes   (X);   (4)    tingkat kemampuan siswa (br) atau (Xbr); (5) kesalahan standar pengukuran kemampuan siswa yang dikoreksi [SE (br)] yaitu X [ L/r (L-r)]112 ; (6) peserta tes.

h.   Menghitung probabilitas atau peluang menjawab benar setiap butir soal [P(0)}.
Untuk menghitung peluang menjawab benar setiap butir pada model
Rasch atau model satu parameter digunakan rumus berikut ini.

e IX° - bi)                                                                 1
Pi (0) =  ⎯⎯⎯⎯⎯⎯    atau Pi (0) =  ⎯⎯⎯⎯⎯⎯⎯
1 + e D(O - bi)                       1 + e D(E) - bi)

Estimasi data yang lebih teliti dan akurat hasilnya adalah menggunakan komputer seperti menggunakan program Bigsteps. Dalam program Bigsteps, estimasi data digunakan metode Appoximation Maximum Likelihood  (PROX)  dan  Unconditional  Maximum  Likelihood  (UCON). Untuk menghasilkan hasil yang akurat, estimasi data dengan komputer dapat melakukan iterasi maksimum untuk metode PROX, misal bisa sampai 20

kali kemudian dilanjutkan dengan metode UCON sampai dengan 50 kali tergantung banyaknya data. Perbedaan hasil kalibrasi pada setiap iterasi semakin lama semakin kecil dan akan berhenti bila prosesnya sudah terpenuhi (converge) atau lebih kecil dari 0,01.

Kriteria data sesuai dengan model Rasch adalah apabila hasil korelasi point bhiserial tidak negatif dan outfitnya < 2 baik outfit butir soal maupun outfit orang. Hal ini menunjukkan bahwa data adalah fit dengan





model. Maksudnya bahwa data soal sesuai dengan model Rasch atau valid yang memiliki mean= 0 dan SD=1. Metode pengujian fit tergantung pada jumlah butir soal dalam tes: (a) tes sangat pendek (10 atau beberapa butir), (b) tes pendek (11-20 butir), atau (c) tes panjang ( >20 butir).

Outfit orang maksudnya statistik orang menunjukkan bagaimana perilaku yang    tidak         diharapkan            pada   butir   soal   yang   mempunyai  tingkat kesukaran jauh dengan kemampuan orang yang bersangkutan. Adapun Outfit butir maksudnya statistik butir soal menunjukkan bagaimana perilaku yang tidak diharapkan dari orang yang mempunyai kemampuan lebih dengan tingkat kesukaran butir yang bersangkutan.

Dalam  pelaksanaannya,  analisis  secara  IRT   tidak   serumit  seperti penjelasan di atas. Pelaksanaannya sangat mudah dipahami oleh para guru  karena  dalam  analisis  digunakan  program  komputer,  seperti program RASCAL, PASCAL, BIGSTEPS, atau QUEST. Untuk mengenal lebih jauh program-program ini, bacalah pada bab berikut.

0 komentar:

Posting Komentar

 

Aboo Deemaz's Blog Copyright © 2011 -- Template created by O Pregador -- Powered by Blogger

Related Posts Plugin for WordPress, Blogger...