makalah evaluasi pendidikan

PENDAHULUAN

Menurut Norman E. Gronlund (1976) Evaluasi pendidikan merupakan suatu proses yang sistematis untuk menentukan atau ,membuat keputusan sampai sejauh mana tujuan-tujuan pengajaran telah dicapai oleh siswa, dengan kata-kata yang berbeda tetapi mengandung pengertian yang hampir sama, Wrigstone dan kawan-kawan (1956 : 16) mengemukakan rumusan evaluasi pendidikan sebagai berikut evaluasi pendidikan ialah penaksiran terhadap pertumbuhan dan kemajuan siswa ke arah tujuan-tujuan atau nilai-nilai yang telah ditetapkan dalam kurikulum.

Untuk mengukur kesesuaian, efesiensi, kemantapan (consistency) suatu alat penilaian atau suatu tes dipergunakan bermacam-macam kualitas seperti validitas, reabilitas, keandalan, objektivitas, ekonomis, analisis butir soal dan kepraktisan serta cara menghitung validitas suatu tes.

Makalah ini akan membahas kualitas dan ciri-ciri tes yang baik, mulai dari efesiensi sampai pada cara menghitung suatu tes, bila terjadi kesalahan atau kekurangan-kekurangan dalam pembahasan materi maupun tulisan mohon kritik dan saran dari para pembaca yang budiman agar makalah ini dapat mencapai kesempurnaan.

1. Validitas

Validitas merupakan syarat yang terpenting dalam suatu alat evaluasi.

Suatu teknik evaluasi dikatakan mempunyai validitas yang tinggi (disebut valid) jika teknik evaluasi atau tes itu dapat mengukur apa sebenarnya akan alat ukur. Atau, seperti dikatakan Cronbarch: “How well a testor evaluative technichue does the job that is employed to do. “ Validitas bukanlah suatu ciri atau sifat yang mutlak dari suatu evaluasi; ia merupakan suatu ciri yang relative terhadap tujuan yang hendak dicapai oleh tes. Teknik yang sama dapat digunakan untuk beberapa tujuan yang berbeda, dan validitasnya sangat berbeda-beda dari yang tinggikepada yang rendah, bergantung pada tujuan. Suatu tes pengerjaan berhitung, misalnya, dapat mempunyai validitas yang tinggi untuk menentukan status siswa-siswa sekarang dalam kecakapannya mengerjakan berhitung. Validitas tes itu mungkin sedang atau cukup untuk mengukur kecakapan murid-murid dalam hitung dagang (bussunes arithmetic). Dan mungkin juga tes tersebut mempunyai validitas rendah dalam mengukur dan meramalkan keberhasilan dalam aspek-aspek matematis dari suatu pelajaran ilmu alam yang akan datang.

Oleh karena, validitas harus ditentukan dalam hubungannya dengan tujuan yang akan dicapai dalam alat evaluasi itu.

· Jenis-jenis validitas

Telah dikatakan bahwa validitas suatu alat evaluasi bukanlah merupakan ciri yang absolut atau mutlak. Suatu tes dapat memiliki validitas yang bertingkat tingggi: sedang ,rendah bergantung pada tujuannya. Sehubungan dengan itu, ada beberapa jenis validitas, yaitu:

1. Conten validity (curricular validity)

Suatu tes dikatakan memiliki content validity jika scope da nisi kurikulum yang sudah diajarkan. Isi tes sesuai atau mewakili sampel hasil-hasil belajar yang seharusnya dicapai menurut tujuan kurikulum.

2. Construct validity

Untuk menentukan adanya construct validity, suatu korelasi yang dengan suatu konsepsi atau teori. Items dalam tes itu harus sesuai dengan ciri-ciri yang disebutkan dalam konsepsi tadi, yaitu konsepsi tentang objek yang akan dites. Dengan kata lain, hasil-hasil tes itu disesuaikan dengan tujuan atau ciri-ciri tingakah laku (domein) yang hendak diukur.

3. Predictive validity

Suatu tes dapat dikatakan predictive validity jika hasil korelasi tes itu dapat meramalkan dengan tepat keberhasilan seseorang pada masa mendatang didalam lapangan tertentu. Tepat tidaknya ramalan tersebut dapat dilihat dari korelasi koefisian antara hasil tes itu dengan hasil alat ukur lain pada masa mendatang.

4. Concurrent validity

Jika hasil suatu tes mempunyai korelasi yang tinggi dengan hasil suatu alat ukur lain terhadap bidang yang sama pada waktu yang sama pula, maka dikatakan tes itu memiliki concurrent validity (concurrent = bersamaan waktu).

Validitas suatu tes ditanyakan dengan angka korelasi koefisien (r). Kriteria korelasi koefisien adalah sebagai berikut:

0,00 – 0,20 sangat rendah (hampir tidak ada korelasi)

0,20 – 0,40 korelasi rendah

0,40 – 0,70 korelasi cukup

0,70 – 0,90 korelasi tinggi

0,90 – 1,00 korelasi sangat tinggi (sempurna)

Cara menghitung validitas suatu tes dapat dilakukan antara lain sebagai berikut:

1. Dengan product moment correlation (metode pearson).

Rumusnya :

2. Dengan rank method of correlation (metode spearman):

p = 1 -

Cara menghitung dengan menggunakan rumus koefisien kore;asi tersebut diatas akan diterangkan kemudian.[1]

2. Reabilitas

Suatu tes dapat dikatakan tes realible apabila tes tersebut menunjukan hasil-hasil yang mantap. Ada beberapa cara yang dapat dipergunakan untuk mencari taraf realibilitas daripada suatu tes.

1. Teknik ulangan

Mencari realbilitas suatu tes dengan teknik ulangan ialah dengan jalan memberikan tes tersebut kepada sekelompok anak-anak dalam dua kesempatan yang berlainan. Misalnya suatu tes diberikan kepada group A. Selang tiga hari atau seminggu kemudian tes tersebut diberikan lagi kepada group A dengan syarat-syarat tertentu. (misalnya soal-soal dalam tes tidak dibicarakan selama waktu antara itu, situasi tepat dibuat sama, dan sebagainya). Skor yang diperoleh anak-anak dalam periode pertama dikorelasikan dengan skor yang mereka peroleh dalam period eke dua. Besar kecilnya koefisien dan korelasi yang diperoleh menunjukan reabilitas dari tes tersebut.

2. Teknik bentuk paralel

Dalam teknik ini dipergunakan dua buah tes yang sejenis (tetapi tidak identic), mengenai, isinya; proses mental yang diukur, tingkat kesukaran jumlah item dan aspek-aspek yang lain.

Kedua tes ini diberikan kepda sekelompok subyek tanpa adanya tenggang waktu. Skor yang diperoleh dari kedua tes tersebut dikorelasikan,. Besar kecilnya koefisien korelasi diperoleh menunjukan daripada tes tersebut.

Jika dibandingkan dengan teknik ulangan, teknik bentuk parallel ini lebih menguntungkan karena:

a. Item-item yang dipergunakan tidak sama maka pengaruh daripada hasil latihan dapat dihindarkan.

b. Tidak adanya tenggang waktu maka perbedaan faktor-faktor yang mempengaruhi pelaksanaan tes boleh dikatakan tidak ada. Misalnya faktor situasi tes, administrasi, pengawasan dan sebagainya.

3. Teknik belah dua

Dalam teknik ini, tes yang telah diberikan kepada sekelompok subyek dibelah menjadi dua bagian. Kemudiann tiap-tiap bagian diberikan skor secara terpisah. Ada dua procedure yang dapat dipergunakan untuk membelah dua tes yaitu :

a. Procedure ganjil genap, artinya seluruh item yang bernomor ganjil dikumpulkan menjadi suatu kelompok, dan seluruh item bernomor genap menjadi kelompok lain.

b. Procedure secara random, misalnya dengan jalan lotre, atau dengan jalan mempergunakan table bilangan random.

Koefisien korelasi yang diperoleh dari kedua belahan itu menunjukan reabilitas dari setengah tes. Untuk mencari reabilitasseluruh tes dipergunakan rumus Spearman Brown sebagai berikut:

ket:

rⁿ = Koefisien korelasi seluruh tes.

N = Perbandingan antara panjang tes seluruhnya dengan panjang tes yang dikorelasikan.

r₁ ₂ = Koefisien korelasi antara sebagian tes dengan bagian tes lainnya.

Contoh:

Suatu tes terdiri dari 50 item. Secara random diambil 25 item sebagai belahan pertama dan 25 item sebagai belahan ke dua. Sekor yang dicapai oleh pengikut tes pada kedua belahan tersebut dikorelasikan. Koefisien korelasi yang diperoleh antara kedua belahan tersebut adalah 0,627. Maka koefisien korelasi seluruh tes dapat dicari sebagai berikut:

3. Tingkat Kesukaran Dan Daya beda Suatu Tes

Suatu tes tidak boleh terlalu mudah, dan tidak boleh terlalu sukar. Sebuah item yang terlalu mudah sehingga dapat di jawab dengan benar oleh semua anak bukanlah merupakan item yang baik. Begitu pula item yang terlalu sukar sehngga tidsk dapat di jawab oleh semua anak juga merupakan item yang baik. Jadi item yang baik adalah item yang mempunyai derajat kesukaran tertentu.

Untuk mencari Derajat Kesukaran (DK) dan Daya Beda (DB) suatu item dapat di lakukan dngan jalan mengadakan analisis item-item, (items analysis). Dalam analisis item di samping mencari DK dan DB nya, juga dapat di cari efektivitas setiap option yang di gunakan dalam item tersebut. Ada beberapa cara yang dapat dilakukan dalam analisis item tersebut, di bawah ini akan di kemukakan sebuah contoh.

a. Kita misalkan yang mengikuti tes yang kita berikan adalah sebanyak 50 orang. Lembar jawaban murid- murid tersebut kita susun dari skor tertinggi paling atas sampai dengan skor terendah paling bawah.

b. Kita ambil 27% dari mereka yang mendapatkan skor tertinggi . Dalam hal ini 27% X 50 orang sama dengan 13,5 orang kita bulatkan menjadi 14 orang. Begitu pula kita ambil 27% dari mereka yang mendapatkan skor terendah. Jumlahnya tentu sama dengan kelompok atas, yaitu 14 orang juga.

c. Misalkan data yang di peroleh adalah sebagai berikut:

· Untuk item no. 1, dari kelompok bawah salah 9 orang dan dari kelompok atas salah 2 orang.

· Untuk item no. 2, dari kelompok bawah salah 8 orang dan dari kelompok atas salah 5 orang.

· Untuk item no. 3, dari kelompok bawah salah 14 orang dan dari kelompok atas salah 8 orang.

· Untuk item no .4, dari kelompok bawah salah 6 orang dan dari kelompok atas tidak ada yang salah.

· Untuk item no. 5, dari kelompok bawah salah 13 orang dan dari kelompok atas salah 11 orang.

· Untuk item no. 6, dari kelompok bawah salah 2 orang dan dari kelompok atas salah 3 orang.

d. Berdasarkan data tersebut, maka dapat di buat table seperti di bawah ini.

No. item	W˪	Wʜ	W˪ + Wʜ	W˪ - Wʜ
1 2 3 4 5 6	9 8 14 6 13 2	2 5 8 0 11 3	11 13 23 6 24 5	7 3 6 6 2 -1, dst.

e. Berdasarkan tabel diatas tersebut di atas, maka derajat kesukaran untuk masing-masing item dapat diczri sebagai berikut:

Ø Untuk item no. 1.

Ø Untuk item no. 2.

Ø Untuk item no. 3.

Ø Untuk item no. 4.

Ø Untuk item no. 5.

Ø Untuk item no. 6.

f. Berdasarkan table di atas pula, maka daya beda tiap item dapat dicari sebagai berikut:

Ø Untuk item no. 1.

Ø Untuk item no. 2.

Ø Untuk item no. 3.

Ø Untuk item no. 4.

Ø Untuk item no. 5.

Ø Untuk item no. 6.

Derajat kesukaran yang baik adalah derajat kesukaran yang bergerak anatara 25% sampai 75%. Item yang mempunyai derajat kesukaran dibawah 25% berarti bahwa item tersebut terlalu mudah. Sebaliknya item yang mempunyai derajat kesukaran di atas 75%, berarti bahwa item tersebut terlslu sukar.

Daya beda yang ideal adalah daya beda 0,40 ke atas. Namun untuk ulangan-ulangan harian, masih dapat di toleransi daya beda sebesar 0,20.

Berdasarkan ketentuan tersebut, maka dapat kita seleksi, item-item mana yang memenuhi syarat dan item mana yang tidak memenuhi syarat. Item-item yang memenuhi syarat dapat kita simpan dan kita gunakan untuk keperluan evaluasi yang akan datang. Item-item yang tidak memenuhi syarat di buang atau direvisi. Salah satu hal yangperlu di perhatikan dalammengadakan revisi item ialah effektifitas dari masing-masing option yang digunakan dalam item tersebut. Untuk mengetahui apakah suatu option berfungsi secara efektif atau tidak, di tempuh prosedure sebagai berikut:

a. Ambil 27% lembar jawaban yang mendapat skor tertinggi dan 27% lembar jawaban yang mendapat skor terendah (Jadi sama dengan prosedure mencari derajat kesukaran dan daya beda).

b. Buat tael sejumlah item yang akan di uji efektivitas option-optionnya, sebagai berikut:

Option	A	B	c	d	e
Kelompok
Atas
Bawah

c. Isikan distribusi pilihan terhadap option yang disediakan baik untuk kelompok atas atau maupun untuk kelompok bawah.

d. Berdasarkan distribusi pilihan kelompok atas dan kelompok bawah, maka dapat di hitung option mana yang berfungsi secara efektif dan option yang tidak berfungsi secara efektif. Pedoman yang di gunakan untuk menentukan efektivitas suatu option adalah sebagai berikut:

1). Untuk option kunci.

Ø Jumlah pemilih kelompok atas dan kelompok bawah tidak kurang dari 25% tetapi tidak lebih dari 75%.

Ø Frekuensi pilihan kelompok atas harus lebih tinggi daripada frekuensi pilihan kelompok bawah.

2). Untuk option pengecoh (distractor)

Ø Jumlah pemilih kelompok atas dan kelompok bawah, minimal adalah 25% kali persatu per dua kali jumlah option pengecoh kalijumlah kelompok atas ditambah kelompok bah

Contoh:

Untuk mendapatkan gambaran yang lebih jelas tentang prosedure yang ditempuh dalam menguji efektivitas option-option di bawah ini di sajikan sebuah contoh:

a. Kita misalkan jumlah murid yang di tes adalah 50 orang. Sehingga 27% nya setelah dibulatkan adalah 14 orang.

b. Misalkan pula bahwa item tersebut menggunakan lima buah option, yaitu: (a), (b),(c), (d), dan (e). Option kuncinya adalah (b), sehingga option pengecohnya adalah (a), (c), (d), dan (e).

c. Misalkan lagi bahwa kelompok atas yang memilih option (a) sebanyak satu orang, yang memilih option (b) sebanyak Sembilan orang, yang memilih option (c) sebanyak empat orang, yang memilih option (d) tidak ada dan yang memilih option (e) juga tdak ada. Kelompok bawah yang memilih option (a) sebanyak delapan lorang, yang memilih option (b) dua orang, yang memilih option (c) tiga orang, yang memilih option (d) satu orang dan yang memilih option (e) tidak ada.

Dengan demikian maka isian tabelnya adalah sebagai berikut:

Option	a	B	c	d	e
Kelompok
Atas	1	9	4	0	0
Bawah	8	2	3	1	0

d. Berdasarkan table tersebut maka dapat kita uji bagaimana efektifitas dari masing-masing option tersebut:

Ø Option (b), sebagai option kunci berfungsi efektif, sebab jumlah pemilih kelompok atas dan kelompok bawahadalah

Jadi lebih besar dari 25% dan lebih kecil dari 75%. Disamping itu frekuensi pemilih kelompok atas (9 orang), lebih besar dari frekuensi pemilih kelompok bawah (2 orang).

Ø Option (a) sebagai option pengecoh berfungsi sangat efektif sebab jumlah pemilihnya 9 orang. Jadi tidak kurang dari

Disamping itu frekuensi pemilihkelompok bawah (8 orang) lebih tinggi daripada frekuensi pemilih kelompok atas (1 orang).

Ø Option (c) sebagai option pengecoh tidak berfungsi secara efektif, sebab frekuensi pemilih kelompok atas (4 orang) lebih tinggi daripada frekuensi pemilih kelompok bawah (3 orang).

Ø Option (d) sebagai option pengecoh agak efektif, karena jumlah pemilih kelompok atas dan kelompok bawah (1 orang0 tdak kurang dari

Serta frekuensi kelompok bawah lebih besar daripada frekuensi kelompok atas.

Ø Option (e) sebagai option pengecoh tidak berfungsi secara efektif, sebab jumlah pemilih kelompok atas dan kelompok bawah kurang dari 0,875 orang. (kurang dari

Tingkat kesukaran maupun daya beda suatu item dapat berbeda-beda dari satu kelompok murid dengan kelompok murid lainnya. Oleh karena itu tidaklah bijaksana menentukan secara mutlak daya beda minimum suatu item. Yang terpenting untuk di ingat adalah: apakah item itu memiliki daya beda atau tidak, apakah setiap pengecoh berfungsi secara efektif atau tidak, apakah setiap item mengukur hasil belajar yang penting atau tidak? Kalau semua pertanayaan tersebut dapat di jawab dengan ya, maka item itu hendaknya di pertahankan, dan di simpan dalam suatu map untuk dapat di gunakan kemudian hari.

Kalau item tadi di gunakan lagi pada kelompok murid yang akan datang, hendaknya di adakan analisis kembali, dan mencatat item tersebut dalam sebuah kartu kecil dengan menuliskan pula tingkat kesukaran, daya beda dan efektivutas option-optionnya.[2]

4. Keandalan

Reliability adalah ketetepan atau ketelitian suatau alat evaluasi. Suatu tes atau alat evaluasi dikatakan andal jika ia dapat di percaya, konsisten, atau stabil dan produktif. Jadi, yang di pentingkan disini ialah ketelitiannya: sejauh mana tes atau alat tersebut dapat di percaya kebenarannya.

Keandalan suatu tes dinyatakan coefficient of reliability (r), yaitu dengan jalan mencari korelasi . misalnya:

1. Dengan metode dua tes: Dua tes yang paralel dan setaraf (akuivalen) diberikan kepada sekelompok anak. Hasil kedua tes tersebut kemudian di cari kolerasinya. Dalam hal ini dapat juga di gunakan metode Pearson dan metode Spearman seperti dikatakan terdahulu.

2. Dengan metode satu tes: Sebuah tes di berikan dua kali pada sekelompok murid yang sama, tetapi dalam waktu yag berbeda. Kedua hasil itu kemudian di cari korelasinya.

3. Metode “split-half” (masih dengan satu tes): Suatu tes di bagi menjadi dua bagisn yang sama tingkat kesukarannya, sama isi dan

Cara membagi misalnya dengan jalan semua item yang bernomor genap untuk tes A dan semua yang bernomor ganjil untuk tes B. Setelah kita mendapat korelasi antara setengah tes yang pertama (tes A)dengan setengah tes yang kedua (tes B), untuk menghitung keandalan seluruh tes itu digunakan rumus sebagai berikut:

Keandalan seluruh tes (r)

4. Termasuk “split-half method” dengan cara lain yang tidak memerlikan perhitungan korelasi, yaitu sebagai berikut. Dengan menggunaka n deviasi standar masing-masing dari kedua bagian tes dan deviasi standar seluruh tes. Rumusnya:

Keterangan:

Sɪ = DS dari ½ tes yang pertama

Sɪɪ = DS dari ½ tes yang kedua

St = DS dari seluruh tes

5. Dengan metode Kuder-Richardson, yaitu dengan menggunakan rumus yang dikemukakan oleh dua orang ahli measurement yang bernama Kuder dan Richardson. Koefesien korelasinya terkenal dengan KR 21 dan KR 20.

Menurut Kuder-Richardson, keandalan suatu tes dihitung dengan mencari:

KR 21

KR 20

Keterangan:

Faktor-faktor yang dapat mempengaruhi keandalan suatu tes

1) Luas tidaknya sampling yang di ambil

Makin luas suatu sampling, berarti tes semakin andal.

2) Perbedaan bakat dan kemampan murid yang di tes

Makin variable kemamapuan peserta tes, berarti makin tinggi koefisien tes. Tes diberikan kepada beberapa tingkat kelas yang berbeda lebih tinggi keandalannya daripada yang hanya diberikan kepada beberapa kelas yang sama karena tingkat kelas yang berbeda akan menghasilkan achievement yang lebih luas.

3) Suasana dan kondisi testing

Suasana ketika berlangsung testing, seperti tenang, gaduh, banyak gangguan, pengetes yang marah-marah dapat menggangu pengerjaan tes sehingga demikian pula mempengaruhi hasil dan keandalan tes.

5. Objektivitas

Objektivitas suatu tes ditentukan oleh tingkat atau kualitas kesamaan skor-skor yang diperoleh dengan tes tersebut meskipun hasil tes itu di nilai oleh beberapa orang penilai. Untuk ini di perlukan kunci jawaban tes(scoring key).

Kualitas objektivitas suatu tes dpat dibedakan menjadi tiga tingkatan, yaitu:

· Tinggi

· Sedang

· Fleksibel

1. Objektivitas tinggi ialah jika hasil-hasil tes itu menunjukkan tingkat kesamaan yang tinggi, contoh: tes yang sudah distandardisasi, hasil penskorannya sangat objektif.

2. Objektivitas sedang ialah seperti seperti tes yang sudah distandardisasi, tetapi pandangan subjektif skor masih mungkin muncul dalam penilaian dan interprestasinya.

3. Objektivitas fleksibel ialah seperti beberapa jenis tes yang digunakan oleh LBP (Lembaga Bimbingan dan Penyuluhan) untuk keperluan counseling, misalnya tes yang bersifat open-end item (open-end quenstionaires).[3]

6. Ekonomis

Yang dimaksud dengan ekonomis di sini adalah bahwa pelaksanaan tes tersebut tidak membutuhkan biaya yang mahal, tenaga yang banyak dan waktu yang lama.[4]

7. Kepraktisan

Kepraktisan suatu tes penting juga diperhatikan. Suatu tes dikatakan mempunyai kepraktisan yang lebih jika kemungkinana untuk menggunakan tes itu besar.Kreteria untuk mengukur praktis-tidaknya suatu tes dapat dilihat dari:

a) Biaya yang diperlukan untuk menyelenggarakan tes itu,

b) Waktu yang diperlukan untuk menyusun tes itu,

c) Sukar-mudahnya menyusun tes itu,

d) Sukar-mudahnya menilai (scoring) hasil tes,

e) Sulit-tidaknya menginterprestasikan (mengolah) hasil tes itu,

f) Lamanya waktu yang diperlukan untuk melaksanakan tes itu.

Tentu saja menentukan ukuran tepat untuk kriteria tersebut di atas itu sukar karena penentuan mahal-murah, lama-tidak, sukar-mudah, itu relative, tergantung pada dan dipengaruhi oleh berbagai factor.[5]

8. Analisis Butir Soal

A. Validitas butir

Yang dimaksud dengan validitas butir adalah butir tes dapat menjalankan fungsi pengukurannya dengan baik, hal ini dapat diketahui dari seberapa besar peran yang diberikan butir soal tes tersebut dalam mencapai keseluruhan skor seluruh tes.

Untuk dapat mengetahui besar-kecilnya peran tersebut adalah dengan jalan mengkorelasikan antara skor yang diperoleh dari butir tersebut dengan

skor totalnya dengan menggunakan korelasi Product Moment, sebagai contoh.

TABEL SKOR TES PENDIDIKAN ISLAM

Peserta tes	Skor item										Skor total
Peserta tes	1	2	3	4	5	6	7	8	9	10	Skor total
Husein s. Trio P. Fredy s. Candra Pj. Ahmad fauz Erwin Romy B. Ida Tisna Tantiana Khozali	0 0 1 1 1 1 0 1 1 0	1 1 1 1 1 0 1 0 1 0	1 1 0 0 1 0 1 1 1 1	0 0 1 0 1 0 1 1 1 1	1 0 1 0 1 0 1 0 1 1	1 1 0 0 1 0 1 0 1 1	1 0 1 0 1 1 1 1 1 1	1 1 1 0 1 0 1 1 1 1	0 1 1 1 0 0 0 1 1 1	1 1 1 1 1 0 0 0 1 1	7 6 8 4 9 2 7 6 10 8
Jumlah	6	7	7	6	6	6	8	7	6	7	67

Dari contohh data tersebut di atas dapat di cari validitas butir item mulai dari butir 1 sampai butir 10, Misalnya kita cari vadilitas butir nomor 1 dapat dicari dengan jalan mencari koefisien korelasi antara skor butir tersebut dengan skor total sebagaimana berikut ini. Harga kritik r Product Moment untuk N 10= 99%sebesar 0,766, dan 95% sebesar 0,632. Ternyata nilai r hasil korelasi antara butir 1 dengan skor total pada tes ini menunjukan arah negative (korelasi negative), walaupun besarnya tidak signifikan. Oleh karna itu dapat disimpulkan bahwa butir soal nomor 1 pada tes tersebut tidak valid, Selanjutnya untuk pembaca dapat melanjutkan perhitungan tersebut untuk nomor-nomor berikutnya.

A. Menentukan Tingkat Kesukaran Item

Item yang baik adalah item yang tingkat kesukarannya dapat diketahui tidak terlalu sukar dan tidak tterlalu mudah. Sebab tingkat kesukaran item itu memiliki korelasi dengan daya pembeda. Bilamana item memiliki tingkat kesukaran maksimal, maka daya pembedanya akan rendah, demikian pula bila item itu terlalu mudah juga tidak akan memiliki daya pembeda.

Tingkat kesukaran item dinyatakan dalam proporsi perbandingan antara yang menjawab benar dengan yang menjawab salah seluruh soal. Jadi bilamana item soal itu di jawab oleh 50 orang kemudian yang benar adalah 30 orang, berarti presentase yang menjawab benar adalah 0,60 atau tingkat kesukarannya mejadi 60%. Bila tingkat kesukarannya ini hanya di hitung dengan cara ini, berarti yang ditemukan sebenarnya bukan tingkatkesukaran, melainkan kemudahan soal.

Indeks kesukaran yang lebih memadai adalah indeks kesukaran dengan harga z, yaitu transfomasi proporsi jawaban benar itu ke skor baku (Sumadi Suryabrata, 1987:97). Oleh karena itu cara menghitung harga z ini membutuhkan perhitunkan statistik yang rumit, dan tidak praktis untuk guru yang mengajar dikelas, maka dalam modul ini hanya diperkenalkan cara pertama sebab lebih mudah perhitungannya.

Untuk menghitung TK sekaligus menghitung DP dapat dilakukan sekaligus dalam suatu table kerja. Hitungan ini membutuhkan dua samoel yng ekstrim yang menggambarkan sampel dari kelompok pandai dan sampel dari kelompok bodoh. Sampel dari kelompok pandai diambilkan 27% dari siswa yang memperoleh skor tinggi pada mata tes tersebut, dan sampel untuk kelompok bodoh diambilkan 27% dari siswa yang memperoleh skor rendah pada masa tes tersebut. Adapun rumus untuk menghitung tingkat kesukaran itemnya adalah:

Keterangan:

TK = adalah tingkat yang ingin dicari

WH = jumlah siswa yang menjawab salah dari kelompok pandai

WL = jumlah siswa yang menjawab salah dari kelompok rendah

2n = adalah jumlah sampel pandai dan sampel rendah

Untuk dapat mengetahui contoh penggunaan rumus ini sekaligus disajikan dalam halaman berikut.

B. Menentukan kemampuan daya Pembeda

Item yang baik sebagaimana dijelaskan di halaman terdahulu adalah item yang mampu meebadakan antara kemampuan siswa yang pandai dan siawa yang rendah. Adapun rumus untuk mengetahui daya pembeda adalah:

Keterangan:

DP = adalah besarnya daya pembeda yang ingin dicari

n = besarnya sampel dari salah-satu kelompok

C. Menghitung TK dan DP sekaligus

Untuk menghitung TK dan DP sekaligus, dapat diambil contoh sebuah tes mat pelajaran PMP di ujikan kepada kelas III A,B,C terdiri atas 130 siswa. Untuk menghitung TK dan DP-nya dapat duketahui dengan langkah-langkah sebagai berikut:

a. Memeriksa jawaban terhadap 130 siswa dan memberikan skor pada masing-masing siswa.

b. Menyusun rangking nilai berdasarkan tinggi rendahnya skor yang diperoleh pada tes tersebut.

c. Mengambil sampel 27% rangking atas yang mewakili kelompok tinggi (pandai) dan 27% rangking dari bawah mewakili siswa yang bodoh (rendah). Sehingga masing-masing kelompok untuk tes ini di wakili 35 siswa.

d. Menghitung kesalahan yang dilakukan baik oleh kelompok pandai maupun oleh kelompok rendah untuk masing-masing item.

e. Menyusun Tabel Kerja untuk mencari TK dan DP seperti berikut:

TABEL 10. TABEL KERJA UNTUK MENCARI TK DAN DP TES PMP

No.item	WL	WH	TK	DP
1.	25	15
2.	35	32
3.	14	30
4.	2	1
5.	20	7
6.	35	2

Bila dilihat contoh tersebut di ats akan diperoleh beberapa hasil analisis yang berbeda-beda sebagai berikut:

a. Item nomor 1, TK-nya 57%, dan DP 0,285, berarti item ini memiliki TK sedang dan DP yang cukup.

b. Item nomor 2, TK-nya 95,7% jadi cukup sulit sehingga DK-nya hanya 0,086.

c. Iten nomor 3, TK-nya dapat diketahui 62,8%, tetapi DP-nya terbalik yakni -0,457, jadi item soal ini jelek.

d. Item nomor 4, TK-nya 4,2%, dan DP-nya 0,082, karena item ini sangat mudah, maka DP-nya juga rendah sekali.

e. Item nomor 5, TK-nya 38,5%, dan PD-nya 0,371, Item ini kesukarannya sedang dan memiliki daya pembeda yang baik.

f. Item nomor 6, TK-nya 52,8% dan Dp-nya 0,943 item ini kesukarannya baik, dan DP-nya sangat baik.

Contoh kerja ini baru dapat mendeteksi tingka kesukaran item dan daya pembeda, tetapi belum dapat mengungkap sebab-sebab dari kelemahan item tersebut, misalnya item nomor 3, karena item nomor 3 inilah terparah. Usaha untuk mengetahui kelemahan item tersebut adalah dengan jalan mengadakan analisis terhadap pemakaian distractor dan kunci jawaban.

D. Menganalisis Penggunaan Distraktor

Dalam setiap tes objektif selalu digunakan lternaif jawaban yang mengandung dua unsur sekaligus, yaitu jawaban tepat dan jawaban yang salah sebagai penyesat(distractor). Tujuan pemakaian distractor ini adalah mengecohkan mereka yang kurang mampu (tidak tau) untuk membedakan dengan yang mampu. Oleh karena itu distractor yang baik adalah yang dapat dihindari oleh anak-anak yang pandai dan terpilih oleh anak-anak yang kurang pandai, jangan sampai terjadi sebaliknya seperti nomor3 tersebut di atas.

Sebagai contoh, tes bidang studi PMP sebagaimana tersebut diatas dapat disusun dalam table kerja seperti terlihat di halaman berikut.

Dari contoh table analisis tersebut ada beberapa hasil yang dapat diketahui, yaitu;

1) Pada umumnya alternative jawaban sudah baik, artinya setiap alternative pernah dipilih oleh sisiwa

No.item (kunci)	Klp 27%	Key/Distraktor						WL WH	TK	DP
No.item (kunci)	Klp 27%	A	B	C	D	E	O	WL WH	TK	DP
1 (A)	L	10	7	5	10	3	-	25	57	0,28
1 (A)	H	20	3	6	5	1	-	15	57	0,28
2 (B)	L	7	19	4	0	5	-	35	95,7	0,08
2 (B)	H	17	7	6	3	2	-	32	95,7	0,08
3 (C)	L	9	12	9	3	2	-	14	62,8	-0,4
3 (C)	H	0	5	20	5	5	-	30	62,8	-0,4

2) Pada item nomor 3,secara jelas peletakan kunci jawaban menjadi salah, sebab DP-nya menunjukan angka negative, sedangkan pada kunci jawaban yakni alternatif (A) ternyata tidak seorang pun dari kelompok H (pandai) memilih alternative tersebut. Diduga justru jawaban yang benar adalah alternatif C.

3) Alternatif jawaban A dan C perlu di kaji kembali. Perbedaan antara kunci yang ditetapkan (A) dengan jawaban kebanyakan siswa terutama siswa yang pandai bisa jadi salah dalam menentukan kunci atau guru yang salah dalam mengajar, Te tapi kedua pertimbangan ini tetap menjadikan penulis soal harus merivisi item nomor 3 tersebut di atas.

4) Distraktor yang baik paling harus terpilih oleh sedikitnya 2%.

E. Menghitung TK dan DP Menggunakan Tabel Fan

Dalam mencari TK dan DP dengan menggunakan Tabel Fan, dalam tabel ini dapat mencapai beberapa hasil perhitungan yang penting yaitu (a) tingkat kesukaran item (sebenarnya lebih tepat disebut dengan tingkat kemudahan) yang ditulis dengan simbul “P”, (b) daya pembeda item, yang dituliskan dalam simbul “r” dan (c) indeks tingkat kesukaran item yang dituliskan dalam simbul?

Sedangkan untuk mencari besarnya “P”, “r” dan ? cukup dengan mencari besarnya PH dan PL, PH adalah besarnya proporsi sampel kelompok tinggi yang menjawab benar, sedangkan PL adalah besarnya proporsi yang menjawab benar pada kelompok rendah.

Untuk menghitung TK dan DP pada tabel Fan ini menggunkan sampel tinggi 27% dan sampel kelompok rendah juga 27%. Sebagai contoh, kita ambil bahan dari Tabel 10 diatas pada item 4; 5 dan 6. Catatan n= 35 (27%).

Dari bahan tabel tersebut di atas dapat diketahui bahwa:

a. Pada item 4 yang menjawab betul kelompok tinggi = 34 yang menjawab betul kelompok rendah = 33

b. Pada item 5 yang menjawab betul kelompok tinggi = 28 yang menjawab betul kelompok rendah = 15

c. Pada item 6 yang menjawab betul kelompok tinggi = 33 yang menjawab betul kelompok rendah = 0.

Sehingga dengan demikian dapat di cari besarnya PH dan PL sebagai berikut:

a. Item 4 PH = 34 : 35 = 0,97, PL = 33 : 35 = 0,94

b. Item 5 PH = 28 : 35 = 0,80, PL = 15 : 35 + 0,43

c. Item 6 PH= 33 : 35 = 0,95, PL = 0 : 35 = 0,01 (pembulatan).

Setelah diketahui besarnya PH dan PL dijadikan sebagai kunci untuk mencari “p”, “r” dan ? pada tabel Fan. Dalam hal ini dapat diketahui:

Item 4, PL = 0,94 dan PH = 0,97 besarnya p = 0,95

r = 0,08

? = 6,4

Item 5, PL = 0,43 dan PH = 0,80 besarnya p = 0,62

r = 0,39

? = 11,7

Item 6, PL = 0,01 dan PH = 0,94 besarnya p = 0,42

r = 0,90

? = 13,7

Keterangan:

1. Besarnya indek p mulai dari 0 – 0,95

2. Besarnya indek r mulai dari 0 – 0,93

3. Besarnya indek ? mulai dari 1 – 25

Adapun cara menafsirkan data dari tabel tersebut adalah sebagai berikut, bahwa besarnya p menunjukan proporsi sampel yang menjadi benar, semakin tinggi p berarti semakin mudah item tersebut; bahwa besarnya r menunujukan besarnya pembeda item tersebut antara kelompok pandai ddan rendah, item nomor 4 DP-nya sangat rendah sedangkan item nomor 6 DP-nya cukup tinggi. Sedangkan cara menafsirkan? (indk kesukaran item) dengan pedoman sebagai berikut:

21 – 25 item sangat sukar

16 – 20 item sukar

11 – 15 item sedang

6 – 10 item mudah

1 – 5 item sangat nudah

Sehingga billa ditafsirkan, item nomor 4 sangat mudah dan DP-nya rendah sekali, item nomor 5 mudah dan DP-nya agak rendah, sedangkan item monor 6, termasuk item mudah tetapi DP-nya tinggi, artinya kemampuan membedakan antara siswa yang pandai dengan siswa yang lemah cukup baik. Dengan cara ini mengadakan analisis item tidak terlalu sulit, prkatis dan cepat, hanya saja perlu dipersiapkan Tabel Fan yang tebalnya mencapai 32 halaman.

F. Cara Menghitung Validitas Suatu Tes

1. Dengan “Product Moment Correlation” (Metode Pearson)

Rumusnya:

Dengan rumus ini kita dapat menghitung validitas suatu tes dengan membandingkan atau memcari korelasi anatara dua kelompok skor, dihitung berdasarkan deviasi skor dari mean. Misalkan sebuah item ilmu bumi dicobakan kepada dua kelompok murid yang berjumlah 14 orang tiap kelompok. Skor hasil tes dari kelompok tersebut seperti berikut:

Kelompok A : 31 36 36 30 38 37 28 37 36 36 38 38 40 34

Kelompok B : 24 34 36 29 36 36 24 31 31 27 36 35 35 32

Tabel 7.1

Perhitungan Product Moment Correlation

No.Urut siswa	Skor		Deviasi		Kuadrat Deviasi		Deviasi Produk Χ΄Υ΄
No.Urut siswa	X	Y	Χ΄	Υ΄	Χ΄²	Υ΄²	Deviasi Produk Χ΄Υ΄
1 2 3 4 5 6 7 8 9 10 11 12 13 14	31 36 36 30 38 37 28 37 36 36 38 38 40 34	24 34 36 29 36 36 24 31 31 27 36 35 35 32	-4 +1 +1 -5 +3 +2 -7 +2 +1 +1 +3 +3 +5 -1	-8 +2 +4 -3 +4 +4 -8 -1 -1 -5 +4 +3 +3 0	16 1 1 25 9 4 49 4 1 1 9 9 25 1	64 4 16 9 16 16 64 1 1 25 16 9 9 0	32 2 4 15 12 8 56 -2 -1 -5 12 9 15 0
Nx=Ny =14	M΄x=35 M΄y=32				155	250

Untuk menghitung korelasi dengan rumus tersebut di ats kits susun kedua kelompok skor itu ke dalam kelompok sebuah tabel, kita cari mean dari tiap kelompok dan deviasitiap skor dari mean seperti ternyata dalam Tabel 7.1 di atas. (Dalam menyusun skor-skor dari dua kelompok itu ke dalam kolom dua tidsk perlu diurutkan menurut besar kecilnya skor, tetapi sebaliknya menurut nomor urut siswa dari kedua kelompok tersebut).

Dengan rumus product moment of correlation, hasil perhitungan dari Tabel 7.1 adalah:

Penafsiran;

Kriteria untuk penafsiran korelasi koefisien, seperti telah dikemukakan pada uraian yang lalu, adalah sebagai berikut;

r antara 0,00 – 0,20 : hampir tidak ada korelasi

0,20 – 0,40 : korelasi rendah

0,41 – 0,70 : korelasi cukup

0,71 – 0,90 : korelasi tinggi

0,91 – 1,00 : korelasi sangat tinggi (sempurna)

Dengan melihat hasil r = 0,80 berarti bahwa korelasi antara kedua kelompok skor ilmu bumi tersebut cukup tinggi sehingga kkita dapat mengambil kesimpulan bahwa tingkat validitas tes tersebut cukup tinggi pula. Dengan kata lain, tes tersebut memiliki validitas yang tinggi.

Langkah-langkah Penyusunan Tabel

Adapun langkah-langkah dalam menyusunTabel “Product Moment Correlation” seperti dikemukakan di muka adalah sebagai berikut:

1) Deretkan kedua kelompok skor di dalam kolom dua. Kelompok A di bawah lajur X dan kelompok B di bawah lajur. Urutan besar-kecilnya skor tidak perlu diperhatikan.

2) Carilah mean dari kelompok skor tersebut.Boleh juga memakai mean yang sesungguhnya dengan rumus

, atau dapat pula dengan menggunakan mean dugaan (M΄), pada tabel muka, kita menggunakan mean dugaan, yaitu M x = 35 dan M΄y = 32.

3) Hitunglah deviasi setiap skor dari mean, memasukkan ke dalam kolom tiga, dan kemudian jumlahkan.

4) Kuadratkan deviasi-deviasi tiapp skor itu, dan masukkan kedalam kolom empat. Kemudian jumlahkan sehingga memperoleh Σx΄² dan Σy΄².

5) Isilah kolom lima dengan mengalikan setiap pasangan diviasi pada kolom tiga, kemudian jumlahkan sehingga memperoleh Σx΄y΄ .

6) Carilah korelasi koefisien (r) dengan rumus yang telah ditentukan.

2. Rumus “Product Moment Correlation” yang Lain

Rumus ini di gunakan untuk mencari korelasi dengan cara dihitung langsung dari raw score, dengan menggunakan mean dari masing-masing kelompok skor tersebut.

Sebagai contoh, misalkan kita akan menghitung korelasi skor-skor ilmu alam dan aljabar yang dicapai oleh 10 murid. Caranya dengan jalan menyusun tabel beserta perhitungannya seperti yang terlihat pada tabel 7.2. Dengan rumus tersebut di atas maka:

Dengan melihat hasil koefisien korelasi (r) = 0,75 ini berarti bahwa antara kedua kelompok skor ilmu alam dan aljabar terdapat korelasi yang cukup tinggi.

TABEL 7.2

Nama Murid	Skor I. Alam (X)	Skor Aljabar (Y)	X²	Y²	XY
Amran	45	50	2025	2500	2250
Arifin	60	60	3600	3600	3600
Basri	55	40	3025	1600	2200
Mamat	50	55	2500	3025	2750
Rohani	65	70	4225	4900	4550
Fatah	60	70	3600	4900	4200
Hasanah	40	50	1600	2500	2000
Sutoro	55	45	3025	2025	2475
Taslim	70	70	4900	4900	4900
Mardi	30	40	900	1600	1200
Jumlah	530	550	29.400	31.550	30.125

Keterangan:

3. Dengan “Rank Method of Correlation” (Metode Spearman)

Disamping metode Pearson seperti yang telah kita bicarakan, untuk menghitung validitas suatu tes dapat juga kita pergunakan metode Spearman yang disebut rank method of correlation.

Rumusnya:

Cara menghitung koefisien korelasi menurut metode Spesrman ini bukan berdasarkan nilai-nilai yang sebenarnya dari skir-skor yang terdapat di dalam kedua kelompok, melainkan didasarkan atas nilai relative ranking(nilai urut tingkat sacara relatif) dari tiap skor di dalam kedua kelompok tersebut.

Misalkan seseorang guru akan mencar korelasi untuk melihat coefficient of reliability dari suatu tes. Tes tersebut dicobakan dua kali kepada kelompok murid yang sama, tetapi dalam waktu yang berbeda. Dengan menggunakan rank method of correlation menurut Spearman itu guru tersebut menyusun dan mnegerjakan tabel seperti berikut (tabel 7.3)

Penjelasan tentang langkah-langkah Penyusunan Tabel.

a) Skor kelompok 1 dalam kolom dua disusun menurut urutan (peringkat) dari yang tertinggi kepada yang terendah. Kenudian nomor urut tingkatan dari skor kelompok 1 di masukan ke dalam kolom tiga, yakni:1 s.d. 20, sesuai dengan banyaknya skor atau murid yang di tes.

b) Dalam menyusun peringkat tersebut, skor-skor yang sama, seperti: 56, 53, dan 49 (maasing-masing terdapat dua angka), besarnya peringkat menjadi berubah; yang seharusnya menjadi peringkat 2 dan 3, karena kedua-duanya sama, manjadi peringkat

TABEL 7.3

(Perhitungan Korelasi dengan Metode Spearman)

Nama Murid	Skor		Peringkat		D	D²
	I	II	I	II
A B C D E F G H I J K L M N O P Q R S T	57 56 56 54 53 53 52 51 50 49 49 47 46 43 41 38 26 32 25 5	38 34 35 33 31 32 33 36 30 36 26 27 30 29 25 28 25 24 15 20	1 2½ 2½ 4 5½ 5½ 7 8 9 10½ 10½ 12 13 14 15 16 17 18 19 20	1 5 4 6½ 9 8 6½ 2½ 10½ 2½ 15 14 10½ 12 16½ 13 16½ 18 20 19	0 2½ 1½ 2½ 3½ 2½ ½ 5½ 1½ 8 4½ 2 2½ 2 1½ 3 ½ 0 1 1	0 6¼ 2¼ 6¼ 12¼ 6¼ ¼ 3¼ 2¼ 64 20¼ 4 6¼ 4 2¼ 9 ¼ 0 1 1
ΣD² = 178

Pada peringkat skor 53 bukan 5 dan 6, melainkan

Demikianlah selanjutnya pada skor-skor lain yang sama. Jika skor yang sama itu ada tiga, maka ketiga skor tersebut di jumlahkan, kemudian di bagi dengan tiga, dan seterusnya.

c) Demikian pula kita lakukan terhadap skor-skor kelompok II. Hanya kebetulan skor-skor kelompok II tidak berurutan karena bergantung pada pencapaian skor tiap murid dalam pelaksanaan tes yang kedua. Dengan demikian, peringkatnya pun tidak beurutan.

d) Kolom empat (kolom D) diisi dengan selisih antara kedua peringkat dari kolom tiga, sedangkan kolom lima (kolom D²) berisi pangkat dua dari selisih pangkat pada kolom emapt (kolom D).

e) Langkah selanjutnya ialah menjumlahkan isi kolom D² di bawah kolom lima sehingga memperoleh ΣD² = 178

Dengan menggunakan rumus menurut metode Spearman:

Maka koefisien korelasi dari tes tesebut, sesuai dengan perhitungan dalam tabel,

Dengan melihat kriteria penafsiran k korelasi seperti telah dikemukakan dimuka, dengan koefisien korelasi sebesar +0,87 berarti bahwa kedua hasil tes tersebut memiliki korelasi yang tinggi. Dengan demikian dapat pula dikatakan bahwa tes tersebut memiliki tingkat keandalan yang cukup baik, tes tersebut andal (riliable).

Perlu ditambahkan bahwa metode Spearman hanya baik untuk mencari korelasi antara data-data yang berjumlah kecil, sedangkan untuk data-data yang berjumlah besar, metode Spearman ini kurang teliti dan sukr digunakan. Kekurangtelitiannya antara lain disebut oleh kemungkinan adanya range yang tidak sama (terlalu besar dan atau terlalu kecil) antara skor dengan skor berikutnya sehingga tidak seimbang dengan peningkatannya.

Oleh karena itu, untuk menghitung korelasi data-data yang jumlahnya banyak sering kali dipergunakan metode lain seperti antara lain metode Pearson atau “diagram pencar”.

Penutup

Kualitas dan ciri-ciri teknik evaluasi yang baik merupakan sub bab dari evaluasi pendidikan, yang mana teknik tersebut selalu menjadi bagian dari evaluasi pendidikan,Validitas Rebilitas Tingkat Kesukaran dan Daya Beda Suatu Tes Keandalan Objektivitas Ekonomis Kepraktisan Analisis butir soal Cara mengitung validitas suatu tes, semoga akalah ini bermanfaat untuk para pembaca sekalian.

Daftar Pustaka

Ø Wayan Nurkancana. I dan P.P.N Sumarsono. 1986. Evaluasi Pendidikan. Surabaya: Usaha Nasional.

Ø Chabib Thoha, M.,. 1996. Teknik Evaluasi Pendidikan. Jakarta: PT Rajaj Grafindo Pustaka

Ø Purwanto, M. Ngalim. 2010. Prinsip-prinsip dan Teknik Evaluasi Pengajaran. Bandung: Remaja Rosdakarya.

Ø Widoyoko, S. Eko Putro. 2011. Evaluasi Program Pembelajaran. Yogyakarta: Pustaka Pelajar.

Ø Slameto, 2001. Belajar dan Pembelajaran. Bandung: Alfa Beta

[1] M. Ngalim Purwanto, Prinsip-prinsip Evaluassi Pengajaran, (Bandung: Remaja Rosdakarya, 2010), h. 137-139.

[2] Wayan Nurkancana & Sumartana, Evaluasi Pendidikan, (Surabaya: Usaha Nasional, 1986), h. 131-144.

[3] M. Ngalim Purwanto, Op Cit., h. 139-141.

[4] S. Eko Putro Widyoko, Evaluasi Program Pembelajaran, (Yogyakarta: Pustaka Pelajar, 2011), h. 102.

[5] M. Ngalim Purwanto, Op Cit., h. 141-142.

Laman

Wednesday, 28 March 2012