Top Banner

of 94

Valid It As

Jul 10, 2015

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript

TEORI VALIDITASKonsep Validitas Menurut Azwar (1986) para ahli psikometri telah menetapkan kriteria bagi suatu alat ukur psikologis untuk dapat dinyatakan sebagai alat ukur yang baik dan mampu memberikan informasi yang tidak menyesatkan. Kriteria itu antara lain adalah valid, reliabel, norma dan praktis. Sifat reliabel dan valid diperlihatkan oleh tingginya reliabilitas dan validitas hasil ukur suatu tes. Suatu alat ukur yang tidak reliabel atau tidak valid akan memberikan informasi yang keliru mengenai keadaan subjek atau individu yang dikenai tes itu. Apabila informasi yang keliru itu dengan sadar atau tidak dengan sadar digunakan sebagai dasar pertimbangan dalam pengambilan suatu keputusan, maka keputusan itu tentu bukan merupakan suatu keputusan yang tepat. Seringkali pula keputusan itu tidak menyangkut individu secara langsung akan tetapi mengenai suatu kelompok. Dalam berbagai studi dan penelitian tidak jarang dipergunakan alat ukur untuk mengetahui keadaan atau status psikologis sekelompok individu tertentu. Berikut ini akan dibahas antara lain adalah pengertian validitas, koefisien validitas, tipe-tipe umum pengukuran validitas, dan konsep pengukuran validitas. a. Pengertian Validitas Validitas berasal dari kata validity yang mempunyai arti sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya (Azwar 1986). Suatu skala atau instrumen pengukur dapat dikatakan mempunyai validitas yang tinggi apabila instrumen tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut. Sedangkan tes yang memiliki validitas rendah akan menghasilkan data yang tidak relevan dengan tujuan pengukuran. Terkandung di sini pengertian bahwa ketepatan pada validitas suatu alat ukur tergantung pada kemampuan alat ukur tersebut mencapai tujuan pengukuran yang dikehendaki dengan tepat. Suatu tes yang dimaksudkan untuk mengukur variabel A dan kemudian memberikan hasil pengukuran mengenai variabel A, dikatakan sebagai alat ukur yang memiliki validitas tinggi. Suatu tes yang dimaksudkan mengukur variabel A akan tetapi menghasilkan data mengenai variabel A' atau bahkan B, dikatakan sebagai alat ukur yang memiliki validitas rendah untuk mengukur variabel A dan tinggi validitasnya untuk mengukur variabel A' atau B (Azwar 1986).

Sisi lain dari pengertian validitas adalah aspek kecermatan pengukuran. Suatu alat ukur yang valid tidak hanya mampu menghasilkan data yang tepat akan tetapi juga harus memberikan gambaran yang cermat mengenai data tersebut. Cermat berarti bahwa pengukuran itu dapat memberikan gambaran mengenai perbedaan yang sekecil-kecilnya di antara subjek yang satu dengan yang lain. Sebagai contoh, dalam bidang pengukuran aspek fisik, bila kita hendak mengetahui berat sebuah cincin emas maka kita harus menggunakan alat penimbang berat emas agar hasil penimbangannnya valid, yaitu tepat dan cermat. Sebuah alat penimbang badan memang mengukur berat, akan tetapi tidaklah cukup cermat guna menimbang berat cincin emas karena perbedaan berat yang sangat kecil pada berat emas itu tidak akan terlihat pada alat ukur berat badan. Demikian pula kita ingin mengetahui waktu tempuh yang diperlukan dalam perjalanan dari satu kota ke kota lainnya, maka sebuah jam tangan biasa adalah cukup cermat dan karenanya akan menghasikan pengukuran waktu yang valid. Akan tetapi, jam tangan yang sama tentu tidak dapat memberikan hasil ukur yang valid mengenai waktu yang diperlukan seorang atlit pelari cepat dalam menempuh jarak 100 meter dikarenakan dalam hal itu diperlukan alat ukur yang dapat memberikan perbedaan satuan waktu terkecil sampai kepada pecahan detik yaitu stopwatch. Menggunakan alat ukur yang dimaksudkan untuk mengukur suatu aspek tertentu akan tetapi tidak dapat memberikan hasil ukur yang cermat dan teliti akan menimbulkan kesalahan atau eror. Alat ukur yang valid akan memiliki tingkat kesalahan yang kecil sehingga angka yang dihasilkannya dapat dipercaya sebagai angka yang sebenarnya atau angka yang mendekati keadaan sebenarnya (Azwar 1986). Pengertian validitas juga sangat erat berkaitan dengan tujuan pengukuran. Oleh karena itu, tidak ada validitas yang berlaku umum untuk semua tujuan pengukuran. Suatu alat ukur biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang spesifik. Dengan demikian, anggapan valid seperti dinyatakan dalam "alat ukur ini valid" adalah kurang lengkap. Pernyataan valid tersebut harus diikuti oleh keterangan yang menunjuk kepada tujuan (yaitu valid untuk mengukur apa), serta valid bagi kelompok subjek yang mana? Istilah validitas ternyata memiliki keragaman kategori. Ebel (dalam Nazir 1988) membagi validitas menjadi concurrent validity, construct validity, face validity, factorial validity, empirical validity, intrinsic validity, predictive validity, content validity, dan curricular validity. Concurrent Validity adalah validitas yang berkenaan dengan hubungan antara skor dengan kinerja. Construct Validity adalah validitas yang berkenaan dengan kualitas aspek psikologis apa yang diukur oleh suatu pengukuran serta terdapat evaluasi bahwa suatu konstruk tertentu dapat dapat menyebabkan kinerja yang baik dalam pengukuran.

Face Validity adalah validitas yang berhubungan apa yang nampak dalam mengukur sesuatu dan bukan terhadap apa yang seharusnya hendak diukur. Factorial Validity dari sebuah alat ukur adalah korelasi antara alat ukur dengan faktorfaktor yang yang bersamaan dalam suatu kelompok atau ukuran-ukuran perilaku lainnya, dimana validitas ini diperoleh dengan menggunakan teknik analisis faktor. Empirical Validity adalah validitas yang berkenaan dengan hubungan antara skor dengan suatu kriteria. Kriteria tersebut adalah ukuran yang bebas dan langsung dengan apa yang ingin diramalkan oleh pengukuran. Intrinsic Validity adalah validitas yang berkenaan dengan penggunaan teknik uji coba untuk memperoleh bukti kuantitatif dan objektif untuk mendukung bahwa suatu alat ukur benar-benar mengukur apa yang seharusnya diukur. Predictive Validity adalah validitas yang berkenaan dengan hubungan antara skor suatu alat ukur dengan kinerja seseorang di masa mendatang. Content Validity adalah validitas yang berkenaan dengan baik buruknya sampling dari suatu populasi. Curricular Validity adalah validitas yang ditentukan dengan cara menilik isi dari pengukuran dan menilai seberapa jauh pengukuran tersebut merupakan alat ukur yang benar-benar mengukur aspek-aspek sesuai dengan tujuan instruksional. Sementara itu, Kerlinger (1990) membagi validitas menjadi tiga yaitu content validity (validitas isi), construct validity (validitas konstruk), dan criterion-related validity (validitas berdasar kriteria). b. Koefisien Validitas Bila skor pada tes diberi lambang x dan skor pada kriterianya mempunyai lambang y maka koefisien antara tes dan kriteria itu adalah rxy inilah yang digunakan untuk menyatakan tinggi-rendahnya validitas suatu alat ukur. Koefisien validitas pun hanya punya makna apabila apalagi mempunyai harga yang positif. Walaupun semakin tinggi mendekati angka 1 berarti suatu tes semakin valid hasil ukurnya, namun dalam kenyataanya suatu koefisien validitas tidak akan pernah mencapai angka maksimal atau mendekati angka 1. Bahkan suatu koefisien validitas yang tinggi adalah lebih sulit untuk dicapai daripada koefisien reliabilitas. Tidak semua pendekatan dan estimasi terhadap validitas tes akan menghasilkan suatu koefisien. Koefisien validitas diperoleh hanya dari komputasi statistika secara empiris antara skor tes dengan skor kriteria yang besarnya disimbolkan oleh rxy tersebut. Pada pendekatan-pendekatan tertentu tidak dihasilkan suatu koefisien akan tetapi diperoleh indikasi validitas yang lain. c. Tipe-tipe Umum Pengukuran Validitas

Tipe validitas sebagaimana disajikan sebelumnya, pada umumnya digolongkan dalam tiga kategori, yaitu content validity (validitas isi), construct validity (validitas konstruk), dan criterion-related validity (validitas berdasar kriteria). 1). Validitas Isi Validitas isi merupakan validitas yang diperhitumgkan melalui pengujian terhadap isi alat ukur dengan analisis rasional. Pertanyaan yang dicari jawabannya dalam validasi ini adalah "sejauhmana item-item dalam suatu alat ukur mencakup keseluruhan kawasan isi objek yang hendak diukur oleh alat ukur yang bersangkutan?" atau berhubungan dengan representasi dari keseluruhan kawasan. Pengertian "mencakup keseluruhan kawasan isi" tidak saja menunjukkan bahwa alat ukur tersebut harus komprehensif isinya akan tetapi harus pula memuat hanya isi yang relevan dan tidak keluar dari batasan tujuan ukur. Walaupun isi atau kandungannya komprehensif tetapi bila suatu alat ukur mengikutsertakan pula item-item yang tidak relevan dan berkaitan dengan hal-hal di luar tujuan ukurnya, maka validitas alat ukur tersebut tidak dapat dikatakan memenuhi ciri validitas yang sesungguhnya.

Gambar 3. Validitas Isi Apakah validitas isi sebagaimana dimaksudkan itu telah dicapai oleh alat ukur, sebanyak tergantung pada penilaian subjektif individu. Dikarenakan estimasi validitas ini tidak melibatkan komputasi statistik, melainkan hanya dengan analisis rasional maka tidak diharapkan bahwa setiap orang akan sependapat dan sepaham dengan sejauhmana validitas isi suatu alat ukur telah tercapai. Selanjutnya, validitas isi ini terbagi lagi menjadi dua tipe, yaitu face validity (validitas muka) dan logical validity (validitas logis).

Face Validity (Validitas Muka). Validitas muka adalah tipe validitas yang paling rendah signifikasinya karena hanya didasarkan pada penilaian selintas mengenai isi alat ukur. Apabila isi alat ukur telah tampak sesuai dengan apa yang ingin diukur maka dapat dikatakan validitas muka telah terpenuhi. Dengan alasan kepraktisan, banyak alat ukur yang pemakaiannya terbatas hanya mengandalkan validitas muka. Alat ukur atau instrumen psikologi pada umumnya tidak dapat menggantungkan kualitasnya hanya pada validitas muka. Pada alat ukur psikologis yang fungsi pengukurannya memiliki sifat menentukan, seperti alat ukur untuk seleksi karyawan atau alat ukur pengungkap kepribadian (asesmen), dituntut untuk dapat membuktikan validitasnya yang kuat.

Gambar 4. Validitas Muka Logical Validity (Validitas Logis). Validitas logis disebut juga sebagai validitas sampling (sampling validity). Validitas tipe ini menunjuk pada sejauhmana isi alat ukur merupakan representasi dari aspek yang hendak diukur. Untuk memperoleh validitas logis yang tinggi suatu alat ukur harus dirancang sedemikian rupa sehingga benar-benar berisi hanya item yang relevan dan perlu menjadi bagian alat ukur secara keseluruhan. Suatu objek ukur yang hendak diungkap oleh alat ukur hendaknya harus dibatasi lebih dahulu kawasan perilakunya secara seksama dan konkrit. Batasan perilaku yang kurang jelas akan menyebabkan terikatnya item-item yang tidak relevan dan tertinggalnya bagian penting dari objek ukur yang seharusnya masuk sebagai bagian dari alat ukur yang bersangkuatan. Validitas logis memang sangat penting peranannya dalam penyusunan tes prestasi dan penyusunan skala, yaitu dengan memanfaatkan blue-print atau tabel spesifikasi. 2). Validitas Konstruk

Validitas konstruk adalah tipe validitas yang menunjukkan sejauhmana alat ukur mengungkap suatu trait atau konstruk teoritis yang hendak diukurnya (Allen & Yen, dalam Azwar 1986). Pengujian validitas konstruk merupakan proses yang terus berlanjut sejalan dengan perkembangan konsep mengenai trait yang diukur. Walaupun pengujian validitas konstruk biasanya memerlukan teknik analisis statistik yang lebih kompleks daripada teknik yang dipakai pada pengujian validitas empiris lainnya, akan tetapi validitas konstruk tidaklah dinyatakan dalam bentuk koefisien validitas tunggal. Konsep validitas konstruk sangatlah berguna pada alat ukur yang mengukur trait yang tidak memiliki kriteria eksternal.

Gambar 5. Validitas Konstruk

3). Validitas Berdasar Kriteria Pendekatan validitas berdasar kriteria menghendaki tersedianya kriteria eksternal yang dapat dijadikan dasar pengujian skor alat ukur. Suatu kriteria adalah variabel perilaku yang akan diprediksikan oleh skor alat ukur. Untuk melihat tingginya validitas berdasar kriteria dilakukan komputasi korelasi antara skor alat ukur dengan skor kriteria. Koefisien ini merupakan koefisien validitas bagi alat ukur yang bersangkutan, yaitu rxy, dimana x melambangkan skor alat ukur dan y melambangkan skor kriteria. Dilihat dari segi waktu untuk memperoleh skor kriterianya, prosedur validasi berdasar kriteria menghasilkan dua macam validitas yaitu validitas prediktif (predictive validity) dan validitas konkuren (concurrent validity).

Gambar 6. Validitas Berdasar Kriteria Validitas Prediktif. Validitas prediktif sangat penting artinya bila alat ukur dimaksudkan untuk berfungsi sebagai prediktor bagi kinerja di masa yang akan datang. Contoh situasi yang menghendaki adanya prediksi kinerja ini antara lain adalah dalam bimbingan karir; seleksi mahasiswa baru, penempatan karyawan, dan semacamnya. Contohnya adalah sewaktu kita melakukan pengujian validitas alat ukur kemampuan yang digunakan dalam penempatan karyawan. Kriteria yang terbaik antara lain adalah kinerjanya setelah ia betul-betul ditempatkan sebagai karyawan dan melaksanakan tugasnya selama beberapa waktu. Skor kinerja karyawan tersebut dapat diperoleh dari berbagai cara, misalnya menggunakan indeks produktivitas atau rating yang dilakukan oleh atasannya. Koefisien korelasi antara skor alat ukur dan kriteria merupakan petunjuk mengenai saling hubungan antara skor alat ukur dengan skor kriteria dan merupakan koefisien validitas prediktif. Apabila koefisien ini diperoleh dari sekelompok individu yang merupakan sampel yang representatif, maka alat ukur yang telah teruji validitasnya akan mempunyai fungsi prediksi yang sangat berguna dalam prosedur alat ukur di masa datang. Prosedur validasi prediktif pada umumnya memerlukan waktu yang lama dan mungkin pula beaya yang tidak sedikit dikarenakan prosedur ini pada dasarnya bukan pekerjaan yang dianggap selesai setelah melakukan sekali tembak, melainkan lebih merupakan kontinuitas dalam proses pengembangan alat ukur. Sebagaimana prosedur validasi yang lain, validasi prediktif pada setiap tahapnya haruslah diikuti oleh usaha

peningkatan kualitas item alat ukur dalam bentuk revisi, modifikasi, dan penyusunan item-item baru agar prosedur yang dilakukan itu mempunyai arti yang lebih besar dan bukan sekedar pengujian secara deskriptif saja. Validitas Konkuren. Apabila skor alat ukur dan skor kriterianya dapat diperoleh dalam waktu yang sama, maka korelasi antara kedua skor termaksud merupakan koefisien validitas konkuren. Suatu contoh dimana validitas konkuren layak diuji adalah apabila kita menyusun suatu skala kecemasan yang baru. Untuk menguji validitas skala tersebut kita dapat mengunakan skala kecemasan lain yang telah lebih dahulu teruji validitasnya, yaitu dengan alat ukur TMAS (Tylor Manifest Anxiety Scale). Validitas konkuren merupakan indikasi validitas yang memadai apabila alat ukur tidak digunakan sebagai suatu prediktor dan merupakan validitas yang sangat penting dalam situasi diagnostik. Bila alat ukur dimaksudkan sebagai prediktor maka validitas konkuren tidak cukup memuaskan dan validitas prediktif merupakan keharusan. Konsep Pengukuran Validitas Pengukuran validitas sebenarnya dilakukan untuk mengetahui seberapa besar (dalam arti kuantitatif) suatu aspek psikologis terdapat dalam diri seseorang, yang dinyatakan oleh skor pada instrumen pengukur yang bersangkutan. Dalam hal pengukuran ilmu sosial, validitas yang ideal tidaklah mudah untuk dapat dicapai. Pengukuran aspek-aspek psikologis dan sosial mengandung lebih banyak sumber kesalahan (error) daripada pengukuran aspek fisik. Kita tidak pernah dapat yakin bahwa validitas instrinsik telah terpenuhi dikarenakan kita tidak dapat membuktikannya secara empiris dengan langsung. Pengertian validitas alat ukur tidaklah berlaku umum untuk semua tujuan ukur. Suatu alat ukur menghasilkan ukuran yang valid hanya bagi satu tujuan ukur tertentu saja. Tidak ada alat ukur yang dapat menghasilkan ukuran yang valid bagi berbagai tujuan ukur. Oleh karena itu, pernyataan seperti "alat ukur ini valid" belumlah lengkap apabila tidak diikuti oleh keterangan yang menunjukkan kepada tujuannya, yaitu valid untuk apa dan valid bagi siapa. Itulah yang ditekankan oleh Cronbach (dalam Azwar 1986) bahwa dalam proses validasi sebenarnya kita tidak bertujuan untuk melakukan validasi alat ukur akan tetapi melakukan validasi terhadap interpretasi data yang diperoleh oleh prosedur tertentu. Dengan demikian, walaupun kita terbiasa melekatkan predikat valid bagi suatu alat ukur akan tetapi hendaklah selalu kita pahami bahwa sebenarnya validitas menyangkut masalah hasil ukur bukan masalah alat ukurnya sendiri. Sebutan validitas alat ukur hendaklah diartikan sebagi validitas hasil pengukuran yang diperoleh oleh alat ukur tersebut. Reliabilitas dan Validitas

Masalah reliabilitas (keterandalan) dan validitas pengukuran (kesahihan) merupakan 2 hal pokok dalam penelitian yang tidak boleh ditinggalkan. Reliabilitas didefinisikan sebagai keterandalan alat ukur yang dipakai dalam suatu penelitian. Apakah kita benarbenar dapat mengukur dengan tepat sesuai dengan alat atau instrumen yang dimiliki. Dikenal beberapa jenis reliabilitas, yaitu berikut ini. 1. Intercoder dan intracoder, yaitu pemberian kode dari luar dan dari dalam. 2. Pretest, yaitu pengujian atau pengukuran perbedaan nilai antara juri-juri pemberi nilai. 3. Reliabilitas kategori, yaitu derajat kemampuan pengulangan penempatan data dalam berbagi kategori. Validitas adalah kesahihan pengukuran atau penilaian dalam penelitian. Dalam analisis isi, validitas dilakukan dengan berbagai cara atau metode sebagai berikut. 1. Pengukuran produktivitas (productivity), yaitu derajat di mana suatu studi menunjukkan indikator yang tepat yang berhubungan dengan variabel. 2. Predictive validity, yaitu derajat kemampuan pengukuran dengan peristiwa yang akan datang. 3. Construct validity, yaitu derajat kesesuaian teori dan konsep yang dipakai dengan alat pengukuran yang dipakai dalam penelitian tersebut.

ANALISIS ISI KUALITATIF Analisis Wacana Analisis wacana adalah analisis isi yang lebih bersifat kualitatif dan dapat menjadi salah satu alternatif untuk melengkapi dan menutupi kelemahan dari analisis isi kuantitatif yang selama ini banyak digunakan oleh para peneliti. Jika pada analisis kuantitatif, pertanyaan lebih ditekankan untuk menjawab apa (what) dari pesan atau teks komunikasi, pada

analisis wacana lebih difokuskan untuk melihat pada bagaimana (how), yaitu bagaimana isi teks berita dan juga bagaimana pesan itu disampaikan. Beberapa perbedaan mendasar antara analisis wacana dengan analisis isi yang bersifat kuantitatif adalah sebagai berikut. Analisis wacana lebih bersifat kualitatif daripada yang umum dilakukan dalam analisis isi kuantitatif karena analisis wacana lebih menekankan pada pemaknaan teks daripada penjumlahan unit kategori, seperti dalam analisis isi. Analisis isi kuantitatif digunakan untuk membedah muatan teks komunikasi yang bersifat manifest (nyata), sedangkan analisis wacana justru memfokuskan pada pesan yang bersifat latent (tersembunyi). Analisis isi kuantitatif hanya dapat mempertimbangkan apa yang dikatakan (what), tetapi tidak dapat menyelidiki bagaimana ia dikatakan (how). Analisis wacana tidak berpretensi melakukan generalisasi, sedangkan analisis isi kuantitatif memang diarahkan untuk membuat generalisasi. Model analisis wacana yang diperkenalkan oleh van Dijk sering kali disebut sebagai kognisi sosial, yaitu suatu pendekatan yang diadopsi dari bidang psikologi sosial. Menurut van Dijk, ada 3 dimensi yang membentuk suatu wacana sehingga analisis yang dilakukan terhadap suatu wacana harus meliputi ketiga dimensi tersebut, yaitu teks, kognisi sosial, dan konteks sosial.

Analisis Semiotik (Semiotic Analysis) Pengertian semiotika secara terminologis adalah ilmu yang mempelajari sederetan luas objek-objek, peristiwa-peristiwa, seluruh kebudayaan sebagai tanda. Menurut Eco, semiotik sebagai ilmu tanda (sign) dan segala yang berhubungan dengannya cara berfungsinya, hubungannya dengan kata lain, pengirimannya, dan penerimaannya oleh mereka yang mempergunakannya.

Menurut Eco, ada sembilan belas bidang yang bisa dipertimbangkan sebagai bahan kajian untuk semiotik, yaitu semiotik binatang, semiotik tanda-tanda bauan, komunikasi rabaan, kode-kode cecapan, paralinguistik, semiotik medis, kinesik dan proksemik, kode-kode musik, bahasa yang diformalkan, bahasa tertulis, alfabet tak dikenal, kode rahasia, bahasa alam, komunikasi visual, sistem objek, dan sebagainya Semiotika di bidang komunikasi pun juga tidak terbatas, misalnya saja bisa mengambil objek penelitian, seperti pemberitaan di media massa, komunikasi periklanan, tanda-tanda nonverbal, film, komik kartun, dan sastra sampai kepada musik.

Analisis Framing Analisis Framing adalah bagian dari analisis isi yang melakukan penilaian tentang wacana persaingan antarkelompok yang muncul atau tampak di media. Dikenal konsep bingkai, yaitu gagasan sentral yang terorganisasi, dan dapat dianalisis melalui dua turunannya, yaitu simbol berupa framing device dan reasoning device. Framing device menunjuk pada penyebutan istilah tertentu yang menunjukkan julukan pada satu wacana, sedangkan reasoning device menunjuk pada analisis sebab-akibat. Di dalamnya terdapat beberapa turunan, yaitu metafora, perumpamaan atau pengandaian. Catchphrases merupakan slogan-slogan yang harus dikerjakan. Exemplar mengaitkan bingkai dengan contoh, teori atau pengalaman masa silam. Depiction adalah musuh yang harus dilawan bersama, dan visual image adalah gambar-gambar yang mendukung bingkai secara keseluruhan. Pada instrumen penalaran, Roots memperlihatkan analisis sebab-akibat, Appeals to principles merupakan premis atau klaim moral, dan Consequences merupakan kesimpulan logika penalaran.

TOMMY PUTRA ALAFANTAMinggu, 05 Juni 2011

Evaluasi Hasil BelajarBAB I PENDAHULUAN A. Pengertian Evaluasi Menurut pengertian bahasa, kata evaluasi berasal dari bahasa inggris Evaluation yang berarti penilaian atau penafsiran (John M. Echols dan Hasan Sahdily), 1983 : 220. Sedangkan menurut pengertian istilah evaluasi merupakan kegiatan yang terencana untuk mengetahui keadaan suatu obyek dengan menggunakan instrument dan hasilnya di bandingkan dengan tolak ukur untuk memperoleh kesimpulan. Anne Anastasi mengertikan evaluasi sebagai A Systematic Process Of Detar Mining The Extent To Which Instructional Objec Tives Are Achieved By Pupils (Anne Anastasi, 1978 : 6). Evaluasi bukan sekedar menilai suatu aktivitas secara spontan dan insidental, melainkan merupakan kegiatan untuk menilai sesuatu secara terencana, sistematik, dan terarah berdasarkan atas tujuan yang jelas.

Ada beberapa istilah yang sering digunakan untuk pengertian yang serupa dengan evaluasi, yaitu measurement atau pengukuran, assement atau penaksiran dan teks. Ketika istilah itu kadang-kadang digunakan secara bergantian dan dianggap memiliki pengertian yang sama, padahal ketiganya terdapat perbedaan. Measurement atau pengukuran diartikan proses untuk menentukan luas atau kuantitas sesuatu {Wond t,Edwin and G.W. Brown; 1957:1} dengan pengertian lain pengukuran adalah sesuatu usaha untuk mengetahui keadaan seperti adanya yang dapat di kuantitaskan, hal ini dapat diprole dengan jelas tes atau cara lain. Hasil suatu pegukuran belumbanyak memiliki arti sebelum di tafsirka dengan jalan membandingkan hasil pengukuran standar atau pematokan yang telah ditentukan sebelumnya. Dalam penilaian pendidikan patokan itu dapat berupa batas minimal kompetensi materi pelajaran yang harus dikuasi, atau rata-rata nilai yang diperoleh oleh kelompok. Sebagai contoh siswa yang memperoleh skor tujuh, dapat berarti memiliki nilai rendah apabila dibandingkan dengan rata-rata kelompok yang mencapai skor delapan, tetapi nilai tersebut dapat berarti tinggi apabila dibandingkan dengan batas lulus yang hanya dibutuhkan angka lima misalnya. Sedangkan pengertian tes lebih di tekankan pada penggunaan alat pengukuran. Cronbach memberikan batasan tes sebagai berikut : .......a systematic procedur for observing a persons behafior and discribing it with the old of a numercal scale ora category system (Cronbach 1970 : 26). Sedangkan Sumadi Suryabrata memberikan pengertian sebagai berikut : Tes adalah pertanyaan-pertanyaan yang harus dijawab dan atau perintah-perintah yang harus di jalankan, yang mendasarkan harus bagaimana teste menjawab pertanyaan-pertanyaan atau melakukan perintah-perintah itu penyelidik mengambil kesimpulan dengan cara membandingkannya dengan standar atau teste yang lai (Sumadi Suryabrata, 1984 : 22) Unsur-unsur pokok yang harus ada dalam kegiatan pengukuran adalah : 1. Adanya obyek yang di ukur 2. Adanya tujuan pengukuran 3. Adanya alat ukur

4. Proses pengukuran 5. Hasil pengukuran yang bersifat kuantitatif Adapun unsur pokok dalam penilaian selain mencakup kegiatan pengukuran mencakup pola : Adanya standar yang di jadikan pembanding Adanya proses perbandingan antara hasil pengukuran dengan standar Adanya hasil penilayan yang bersifat kualitatif Pengertian assement tidak sampai ke taraf evaluasi, melainkan sekedar mengukur dan mengadakan estimasi terhadap hasil pengukurann. Penelitian memiliki pengertian yang lebih luas dari pada evaluasi. Oleh karena itu evaluasi pendidikan dapat berfungsi sebagai bagian dari penelitian yang sering disebut dengan action research yaitu proses penelitian yang hasi-hasilnya selalu dipakai untuk memperbaiki pelaksanaan proses, kemudian diadakan penelitian ulang, yang hasilnya dipakai menyempurnakan lagi kegiatan tersebut, begitu seterusnya. B. Mengapa Dalam Pendidikan Diperluakan Evaluasi ? Ada tiga alasan utama mengapa dalam kegiatan pendidikan selalu memerlukan evaluasi. Pertama, apabila dilihat dari pendekatan proses, kegiatan pendidikan secara sederhana dapat digambarkan dalam segitiga sebagaimana di kemukakan oleh David Mekay yang menggambarkan interaksi ketiga proses tersebut sbb :

EducationalObjektives

Learning Experiences

Evaluation Procedurs

Alasan kedua, kegiatan evaluasi terhadap hasil pelajar merupakan salah satu ciri dari pendidik profesional. Satu pekerjaan dipandang memerlukan kemampuan profesional bila pekerjaan tersebut memerlukan pendidikan lanjut (Advanced Education) dan latihan khusus (Special Training). Pekerjaan pendidikan profesional meliputi : menyusun rencana belajar mengajar, mengorganisasikan, menata pendidikan, membimbing dan membina terlaksananya proses belajar-mengajar secara relevan, efesien dan efektif, menilai program dan hasil belajar, dan mendiagnosis faktor-faktor yang mempengaruhi tingkat keberhasilan proses belajar bagi dapat disempurnakannya proses belajar-mengajar selanjutnya (Prof. Dr. Soediarto, MA 1991, hlm 7). Ketiga, bila dilihat dari pendekatan kelembagaan, kegiatan pendidikan adalah merupakan kegiatan manajemen, yang meliputi kegiatan planning, programming, organizing, actuating, controlling, dan evaluating. Dua hal yang terakhir ini hampir merupakan titik lemahdalam manajen tradisional yang menganggap bahwa fungsi kontrol dan evaluasi pada setiap proses termasuk pendidikan, dianggap sebagai upaya mengurangi kebebasan dan kemerdekaan para pelaksana kegiatan tersebut.

C. Tujuan Dan Fungsi Evaluasi Dalam Pendidikan Dr. Muchtar Buchori M. Ed, mengemukakan bahwa tujuan khusus evaluasi pendidikan ada dua yaitu : 1. Untuk mengetahui kemajuan belajar peserta didik setelah ia menyadari pendidikan selama jangka waktu tertentu. 2. Untuk mengetahui tingkat efesien metode-metode pendidikan yang dipergunakan pendidikan selama jangka waktu tertentu

Dalam bidang pengajaran evaluasi bertujuan : a. b. Menetapkan kompetensi isi pengajaran spesifik yang dimiliki oleh peserta didik Memperbaiki proses belajar mengajar Evaluasi juga bertujuan untuk melakukan diagnosis terhadap kesulitan belajar peserta didik yang selanjutnya dipakai sebagai upaya untuk menyadarkan perbaikan terhadap cara belajar dan mengajar yang ada. Disamping iitu evaluasi pendidikan juga bertujuan memperoleh informasi tentang potensi peserta didik sehingga penempatannya dapat disesuaikan dengan bakat dan minatnya.

Evaluasi ppendidikan bertujuan melakukan penilaian total terhadap pelaksanaankukrikulum terhadap suatu lembaga pendidikan. Sehingga dengan demikian dapat dilakukan usaha perbaikan , mencari faktor penghambat dan pendukung terhadap pelaksanaan kurikulum. Melalui evaluasi kurikulum suatu lembaga pendidikan dapat diukur keberhasilannya secara operasional, sehingga dapat dilakukan penilaian terhadap aktifitas kelembagaan pendidikan. Menurut Sumadi Suryabrata, Ph. D, tujuan evaluasi pendidikan dapat dikelompokkan dalam tiga klasifikasi yaitu : 1. Evaluasi berdasaarkan fungsinya evaluasi bertujuan untuk memenuhi kebutuhan : a. Psikologik, evaluasi dapat dipakai sebagai kerangka acuan kemana ia harus bergerak menuju tujuan pendidikan. b. Didaktik/intruksional, tujuan evaluasi memotifasi belajar kepada peserta didik, memberikan pertimbangan dalam menentukan bahan pengajaran dan metode mengajar serta dalam rangka mengadakan bimbingan secara khusus kepada peserta didik. c. Administratif / manajerial, bertujuan untuk mengisi buku rapor, menentukan indeks prestasi pengisian STTB, dan tentang kenaikan siswa. 2. Klasifikasi berdasarkan keputusan pendidikan tujuan evaluasi dapat digunakanuntuk mengambil ; a. Keputusan individual b. Keputusan institusional c. Keputusan-keputusan penelitian 3. Klasifikasi formatif dan sumatif a. Evaluasi formatif diperlukan untuk mendapatkan umpan-balik guna menyempurnakan proses belajar mengajar b. Evaluasi sumatif berfungsi untuk mengukur keberhasilan seluruh program pendidikan yang dilaksanakan pada akhir pelaksanaan proses belajar mengajar (akhir semester/tahun) (Sumadi Suryabrata, 1983 : 3448) Adapun fungsi evaluasi pendidikan bagi masyarakatdan pemakai jasa pendidikan adalah untuk : 1. Mengetahui kemajuan sekolah 2. Ikut mengadakan kritik dan saran pendidikan bagi kurikulum pendidikan pada sekolah tersebut 3. Lebih meningkatkan partisipasi masyarakat dalam usahanya membantu lembaga pendidikan

D. Ciri-Ciri Evaluasi Pendidikan

Ciri-ciri evaluasi pendidikan, dijelaskan oleh H.G. Shane. (1958 : 55-57) maupun Suharsmi Arikunto (1981 : 9) Pertama penilaian dalam pendidikan itu dilakukan secara tidak langsung. Obyek pengukuran dan penilaian dalam pendidikan adalah peserta didik, tidak dilihat dari sosok fisiknya, seperti sikap, mental, bakat, intelegensi dan tinggi badannya melainkan aspek psikologiknya, seperti sikap, minat, bakat, intelegensia dan hasil belajar. Aspek-aspek tersebut tidak dapat diukur secara langsung. Sebagai contoh, untu mengukur kepandaian peserta didik yang dapat dilakukan hanyalahhanyalah mengukur hasil belajar dengan jalan menjawab atau mengerjakan soal-soal tes. Jawaban terhadap soal tes tersebut yang dipakai untuk menggambarkan kepandaian peserta didik.

Kedua, penggunaan pengukuran kuantitatif, karena penilaian selalu dimulai dari pengukuran, maka hasil pengukuran akan menggunakan satuan-satuan secara kuntitatif. Penggunaan satuan kuantitatif ini untuk mendapatkan hasil pengukuran yang obyektif pasti setelah itudapat diolah dan ditafsirkan kedalam satuan kuantitatif.

Ketiga, penilaian pendidikan itu menggunakan unit satuan yang tetap. Obyek pengukuran hendaknya menggunakan satuan yang tetap.

Keempat, penilaian pendidikan bersifat relatifartinys hasil penikaian itu sudah menggunakan satuan yang tetap, hasilnya tidaklah selalu samadari waktu-kewaktu. Sebab hasil penilaian tidak semata-mata ditentukan oleh alat ukur yang valid, namun juga dipengaruhi oleh keadaan obyek yang selalu berkembang serta keadaan lingkungan yang mempengaruhi pelaksanaan pendidikan tersebut.

Kelima, penilaian pendidikan tidak mungkin terhindar dari kesalahan-kesalahan tersebut dapat diakibatkan alat ukur yang valid, atau sikap subyektif penilai, maupun kesalahan dalam penghitung, keadaan fisik dan psikis siswa yang dinilai, serta situasi tempat pelaksanaan penilaian itu dilaksanakan.

E. Ruang Lingkup Evaluasi Pendidikan Ruang lingkup evaluasi pendidikan, sebenarnya dapat dilihat dari ruang lingkup proses pendidikan sebagai suatu sistem. Sebagaimana dijelaskan didepan evaluasi merupakan bagian dari proses pendidikan secara menyeluruh, evaluasi pendidikan bukan hanya sekedar kumpulan teknik-teknik yang

diperlukan oleh guru dalam mengukur hasil belajar siswa, melainkan merupakan sustu proses kontinu yang mendasari seluruh proses pendidikan dan pengajaran yang baik. Evaluasi pendidikan dapat dibagi menjadi empat : 1. Evaluasi masukan (input) 2. Evaluasi proses 3. Evaluasi produk 4. Evaluasi konteks (Akta Mengajar V, Buku III. C 1981). Evaluasi input adalah evaluasi yang sasarannya adalah proses belajar mengajar, termasuk faktor instrumentalnya, seperti evaluasi terhadap kemampuan guru dalam mengaja. Sedangkan evaluasi proses, adalah evolusi yang sasarannyaadalah proses belajar-mengajar, termasuk faktor instrumentalnya, seperti evaluasi terhadap kemampuan guru dalam mengajar, kesesuian metode yang digunakan oleh guru, evaluasi kurikulum, evaluasi terhadap media pendidikan, kelembagaan pendidikan, yakni peserta didik. Evaluasi produk, adalah penilaian pendidikan yang sasarannya hasil akhir suatu proses pendidikan, yakni peserta didik. Hal-hal yang perlu dilakukan penilaian adalah seluas tujuan pendidikan, yang secara umum dapat dikelompok dalam dua aspek, yakni aspek intelektif, dan nonintelektif. Sebagai mana daapat dilihat dalam bagan berikut ini : Jenis keempat adalah evaluasi konteks yakni evaluasi yang berkaitan dengan masalah-masalah kompleks yang melibatkan hal-hal diluar proses pendidikan. Evaluasi konteks ini dapat dibatasi pada aspek environ mental seperti pengaru sosial, budaya, keluarga, iklim terhadap pelaksanaan dan hasil pendidikan, tetapi dapat pula meluas seperti melakukan terhadap hasil pendidikan dengan menggunakan keriteria eksternal, contohnya meningkatkan hasil pendidikan dengan tuntutan masyarakat agama dan bangsanya.

F. Langkah-Langkah Pokok Evaluasi Secara umum langkah-langkah pokok evaluasi pendidikan meliputi tiga kegiatan utama yaitu : 1. Persiapan 2. Pelaksanaan

3. Pengolahan hasil

Ketiga langkah tersebut dapat dijabarkan dalam langkah-langkah yang lebih oprasional meliputi : 1. Perencanaan perumusan keriterium 2. Pengumpulan data 3. Persifikasi dat pengolahan data 4. Penafsiran data (Muchtar Buchori, 1980 : 21)

Langkah perencanaan dan perumusan kurikulum mencakup (a) perumusan tujuan evaluasi (b) penetapan aspek-aspek yang akan diukur (c) menetapkan metode dan bentuk tes (d) merencanakan waktu evaluasi (e) melakukan uji-coba tes untuk mengukur validitas dan realibilitas.

Pengumpulan data, dimaksudkan untuk memperoleh informasi tentang keadaan obyek dengan menggunakan alat yang telah di ujicobakan untuk pengumpulan data dapat menggunakan metode tes tulis, tes lisan dan tes tindakan, yang akan dibicarakan tersendiri.

Persifikasi data merupakan langkah untuk penelitian terhadap data, mendata diantara data yang baik dan tidak, yakni yang dapat memberikan gambaran sesungguhnya tentang keadaan individu.sedangkan langkah penafsiran data, adalah merupakan verbilisasi atau pemberian makna dari data yang telah diolah, sehingga tidak akan terjadi penafsiran yang overstatement maupun penafsiran yang understatement.

BAB II PERENCANAAN EVALUASI

Secara panjang lebar, Sumadi Suryabrata dalam bukunya pengembangan tes hasil belajar, utamanya evaluasi yang menggunakan tes obyektif. Evaluasi yang menggunakan tes uraian, observasi dan wawancara, dalam perencanaannya menggunakan alat berfikir tes obyektif dengan meniadakan beberapa langkah yang tidak diperlukan. Lima tahap dalam merencanakan dan menyusun tes sehingga menjadi tes yang baik, dan dapat dibakukan, lima tahap tersebut adaah :

1. Pengembangan spesifikasi tes 2. Penulisan soal 3. Penelaahan soal 4. pengujian butir-butir soal secara empirik 5. Admistrasi tes bentuk akhir untuk tujuan pembakuan (Sumadi Suryabrata, 1987 : 2)

A. PENGEMBANGAN SPESIFIKASI TES

Spesifikasi tes adalah suatu urian yang menunjukan keseluruhan kualitas tes ciri-cirinya yang harus dimiliki oleh tes yang akan dikemmbangkan (Sumadi Suryabrata, 1987 : 5)

Hal-hal yang penting dibicarakan dalam pengembangan spesifikasi tes tersebut adalah : 1. Menentukan tujuan 2. Menyusun kisi-kisi soal 3. Memilih tipe-tipe soal 4. Merencanakan taraf kesukaran soal 5. Merencanakan banyak sedikitnya soal 6. Merencanakan jadwal penerbitan soal

1. Menentukan Tujuan Evaluasi

Untuk menentukan dan merumuskan tujuan evaluasidengan jelas, diperlukan kepastian daerah medan psikologik peserta didik yang akan diukur, dan kedudukan tujuan tersebut dalam rangka pencapaian tujuan pendidikan yang lebih tinggi. Dalam sistem pendidikan dikenal adanya pendidikan nasional, tujuan pendidikan institusional tujuan kurikuler serta tujuan instruksional umum dan khusus yang sering disebut dengan tujuan perilaju.

Untu memudahkan cara merumuskan dan merencanakan evaluasi, tujuan pendidikan hendaknya dirumuskn dalam tujuan instruksional yang mencakup tiga aspek pokok sebagaimana di jelaskan Mayer (1962) sebagai berikut :

a.

Performance, tujuan instruksional mencakup pernyataan tentang kemampuan apa yang di harapkan dapat dilakukan oleh siswa.

b.

Condition, tujuan instruksional harus dapat menjelaskan suatu kondisi tertentu yang diperlukan bagaimana performance itu teerjadi.

c.

Criterion, tujuan instruksional hendaknya menjelaskan bagaimana keriteria performance yang dapat diterima sebagai hasil belajar. (Nurhida, 1980 hlm. 43).

a. Taksonomi Tipe Hasil Belajar Gagne

Taksonomi ini dikembangkan oleh Robert M. Gagne (1970) yang didasarkan atas pendapat Thorndike, Hull, Skiner dan Ivan pavolov, yang secara ringkas dapat dijadikan dalam tabel berikut : Tipe 1 Jenis Belajar Belajar atas tanda (signal learning) Ciri-Ciri - Paling elementer - Kecakapan yang Muncul bukan kesadaran - Sangat terikat dengan signal II Menjawab stimulus (stimulus and respons) - Membuat koneksi - Belajar atas kemauan siswa - Sesuai untuk belajar motorik - Bersifat mekanistik Sangat terikat dengan stimulus, kurang terkait dengan belajar konteks III Mengait (chaning) Mengkaitkan jawaban respon Skiner & Gilbert yang satu dengan yang lain Sudah memahami adanya konsep yang sederhana (1962) Thorndike (1998), dan Sumber 1. Pavlov (1972)

skinner(1938), kimble (1961)

Tipe

hasil belajar tersebut, memberikan memberikan kemudahan baagi pendidik untuk

merumuskan tujuan evaluasi, sasaran, dan aspek-aspeknya yang harus diukur. Disampin itu berguna untuk menentukan metode dan alat/instrumen evaluasi; misalnya jenis belajar yang dikerjakan peserta

didik adalah tipe problem solving, maka cara pengukurannya mwnggunakan metode tes obyektif yng menjadi tidak sesuai dengan hasil belajarnya. Kelemahan penggunaan taksonomi ini untuk perumusan tujuan evaluasi, kesulitan untuk mendapatkan standarisasi/tolak ukur yang sama tentang aspek-aspek psikologi yang harus diukur, pengembangan alat ukur, sebab rumusannya terlalu luas, kata-kata kunci juga belum ada keseragaman, yaitu : 1. Cognitif domain 2. Affectif domain 3. Psicho-motor

Benjamin S. Bloom menawarkan konsepnya ini di boston pada tahun 1948, perkembangan selanjutnya Bloom sendiri hanya mengembangkan cognitif domain, pada tshun 1956, sedangkan affektif domain, dikembangkan oleh David R.Krathwol, bersama dengan B.S.Bloom dan Bertram B. Masia (1964), selanjutnya psicho-motor domaim oleh Simpson, (1972).

2. Menyusun Kisi-Kisi Soal

tujuan penyusunan ksi-kisi soal adalah merumuskan setepat mungkin ruang-lingkup, tekanan, dan bagian-bagian tes sehingga perumusan tersebut dapat menjadi petunjuk yang efektif bagi si penyusun tes (Sumadi Suryabrata, 1987:7). Dalam penyusunan kisi-kii soal disusun dalam tabel analisa ganda, sekurang- kurangnya terdiri atas dua aspek yaitu: a. Aspek isi pengetahuan b. Aspek tujuan pendidikan, yang dirumuskan dalam TIK yang diformulasikan dari taksonomi Blooms

Analisis dari dua aspek ini diperoleh informasi mengrnai rincian tingkat kompetensi, sehingga sebaran soal pada tiap pokok bahasan yang menunjang kompetensi tersebut dapat diperhitungkan secara merata. Selanjutnya masalah format kisi-kisi soal dapat berkembang sesuai dengan kreasi masing-masing pendidik, namun secara umum prinsip analisis ganda antara isi pengetahuan, aspek psikologik yang diukur dan variasi penggunaan jenis soal baik tingkat kesukarannya maupun maupun bentuk soalnya masih tetap ada.

3. Memilih Tipe-Tipe Soal Dalam contoh kisi-kisi diatas, disajikan tipe soal, khususnya tes obyektif. Yang menjadi masalah adalah pertimbangan apakah yang digunakan untuk memilih tipe soal tersebut? Untuk itu beberapa hal yang perlu diperhatikan, yakni: a. Kesesuian antara tipe soal dengn materi pelajaran b. Kesesuaian anatara tipe soal dengan tujuan evaluasi c. Kesesuaian antara tipe soal dengan skoring d. Kesesuaian antara tipe soal dengan pengolahan hasil evaluasi e. Kesesuaian antara tipe soal dengan administrasites yaitu penyelenggaraan dan pelaksanaan tes f. Kesesuaian antara tipe soal dengan dana dan kepraktisan Tujuan evaluasi juga menjadi menjadi pertimbangan untuk memilih tipe soal terutama apabila tujuan yang bersifat operasionalseperti penjelasan diatas. Apabila pendidik menghendaki hasil evaluasiakan dipergunakan untuk kepentingan yang lebih luas, maka skoring harus benar-benar diusahakan bersifat seobyektif mungkin. Untuk itu tipe soal bentuk obyektif tes paling mudah untuk kepentingan keajegan dan konsistensi dalam skoring. Demikian hasilnya apabila hasil evaluasi akan diolah dengan komputer, maka tipe soal lembaran jawaban diusahakan harus disesuaikan.

4. Merencanakan Taraf Kesukaran Soal

Satu hal yang harus diperhitungkan oleh perancang tes, adalah mempertimbangkan taraf kesukaran soa. Secara umum taraf kesukaran soal dapat diketahui secara empirik dari persentase peserta yang gagal dalam menjawab soal, secara rinci akan dijelaskan pada analisis item.

Ksukaran soal demikian itu hanya dapat diketahui bilamana soal tersebut telah diujikan. Namun pada bentuk soal tertentuseperti bentuk uraian; pemberian tugas karya tulis, sudah dapat diperhitungkan tingkat kesukarannya, yakniberdasarkan berat-ringannya beban penyelesaian soal

tersebut. Oleh karena itu bagi pendidik dalam merencanakan suatu tes, sebaiknya butir-butir soal diujicobakan terlebih dahulu, hasil ujicoba dapat dipakai untuk mengetahui tingkat kesukaran soalnya.

Faktor yang perlu dipertimbangkan berkaitan dengan tingkat kesukaran butir soal adalah acuan yang digunakan oleh pendidik untuk menentukan keberhasilan belajar/evaluasi. Bilamana pendidik menggunakan acuan patokan, maka tingkat kesukaran soal hendaknya dibuat dalam radius disekitar daerah rata-rata, tetapi bilamana digunakan acuan kelompok (norma)penyebaran tingkan kesukaran dapat diperlonggar.\

5. Merencanakan Banyak Sedikityna Soal

Dalam memperhitungkan banyak sedikitnya soal pada suatu tes, beberapa hal yang perlu diperhatikan, yaitu: a. Hubungan banyak sedikitnya soal dengan realibilitas tes b. Hubungan banyak sedikitnya soal dengan bobot keseluruhan bagian c. Hubungan banyak sedikitnya soal dengan waktu tes d. Hubungan banyak sedikitnya soal dengan ujicoba suatu tes (Sumadi Suryabrata) Suatau tes yang baik, hendaknya memiliki tingkat relibilitas yang tinnggi, reliabilitas merupakan interkorelasi antar butir soal, sehingga makin banyak soal, makin tjnggi pula tingkat reliabilitasnya. Untuk menghitung secara praktis tingkat reliabilitas suatu tes akan akan dijelaskan pada bab tersendiri. Bila mana masing-masing butir-butir soal diketahui bobotnya, maka tiap butir soal dapat diketahui berapa besar kontribusinya untuk menyumbang hasil tes secara keseluruhan. Apabila semua boboot butir soal sama, maka kontribusi terhadap keberhasilan suatu tes secara keseluruhan sama. 6. Merencanakan Jadwal Penerbitan Soal Dalam mempersiapkan suatu tes, perlu diperhatikan waktu untuk mengadakan soal, apalagi jika lembaga pendidikan belum memiliki tenaga profesional untuk keperluan ini dan tidak memiliki alat-alat moderen, seperti mesin cetak yang mampu bekerja secara optimal dalam waktu singkat dapat mengadakan soal dalam jumlah yang besar. Disamping faktor pengadaan menjadi pertimbangan utama

bagi perencanaan tes, perlu juga dipertimbangka tingkat kerumitan soal, sebab soal yang rumit memerlukan keahlian khususuntuk menyelesaikannyaserta memakan waktu lebih lama.

B. PENULISAN SOAL

Merencanakan sebaran butir soal mencakup seluruh kurikulum, merencanakan banyak sedikitnya soal, jenis soal, dan tingkat kesukaran soal, belum menjamin soal itu benar-benar baik. Persoalannya bagaimanakah butir soal itu ditulis dengan baik, kesalah dalam penulisan soal berakibat kesalahan data yang terkumpul, dan salah pula analisa yang dilakukan, selanjutnya keputusan yang diambil terhadap peserta tes menjadi salah pula. Secara umum, kemampuan khusus yang harus dimilikibagi penulis soal adalah: 1. Penguasaan pengetahuan 2. Kesadaran akan tata nilai yang mendasari pendidikan 3. Pemahaman akan karakteristik individu yang dites 4. Kemampuan membahaskan gagasan 5. Penguasaan akan teknik penulisan soal 6. Kesadaran akan kekuatan dan kelemahan dalam menulis soal (Sumadi Suryabrata,1987:28). Penguasaan pengajaran mutlak diperlukan bagi orang yang menulis soal. Perencana evaluasi tidak cukup hanya menguasai teknik evaluasi saja. Yang utama adalah penguasaan materi yang akan ditulis dalam soal. Setiap butir soal, hendaknya memiliki validitas contectartinya alat ukur tersebut memang bena-benar momot materi yang akan diukur, sehingga kesesuaian antara alat ukur dengan isi yang diukur benar-benar terwujud dalam penulisan soal. Peserta didik adalah individu yang hidup, dipengaruhi oleh lingkungan sosial budaya serta lingkunagan pendidikan tempat dia dikembangkan. Butir-butir soal yang sesuaidengaan karakteristiknya akan memungkinkan munculnya data secara alami: sebab antara tester dengan testee memiliki persamaan persepsi tentang soal yang ditulis. Hal ini berakibat jawaban yang diberikan oleh testee sesuai dengan apa dengan yang dikehendak oleh tester. Seorang penulis soal harus menguasai teknik penulisan soal yang baik dan benar, ia harus tahu tentang ciri masing-masing jenis soal dan bagaimana menulisnya, kelebihan dan kekurangannya, sehingga obyektivitas soal dapat terjamin.

Karena dalam penulisan soal membutuhkn persyaratan yang banyak, maka tidak semua orang memiliki kemampuan sempurna. Tiap orang mempunnyai kelebihan dan kekurangan, oleh karena itu ketika menafsirkan hasil tes untuk membuat keputusanpenting terhadap peserta didikharus menyadari keterbatasan soal tersebut. C. PENELAAHAN SOAL

Setelah butir soal selesai ditulis dalam format penulisan soal, maka butir soal tersebut harus diuji validitas rasionalnya. Yaitu kesesuaian antara butir soal dengan materi pengajaran ; daan antara tujun evaluasi dengan teknikpenulisan soal yang baik. Bagi tes buatan guru yang hanya ditujukan kepada muridnya sendiri, penelaahan soal tersebut dapat dilakukan oleh guruyang bersngkutan, namun bilaman tes akan diberlakukan untuk kalangan yang lebih luas, diperlukan tim khusus untuk melakukan penelaahan dan reviewsoal tersebut. D. PENGUJIAN BUTIR-BUTIR SOAL SECARA EMPIRIS Tujuan pengujian soal srcara empiris adalah untuk mengetahui validitas dan reliabilitastes secara empirik. Ujicoba dapat dilakukan beberapa kali melihat kepentingan tes tersebut. Apabila tes akan diberlakukan dalam skala nasional atau regional, maka pengujian butir soal tidak cukup dilakukan satu kali, akan tetapi harus dilakukan berulang kali sampai memperoleh butir-butir soal yang benar-benar baik. Dalam melakukan ujicoba soal, yang perlu diperhatikan adalah karakteristik sampel hendaknya sesuai dengan karakteristik obyek yang akan mengikuti testing. Demikian jumlah sampel, henndaknya memadai sebagai sampel ujicoba tersebut sulit untukdipakai memperdiksikan keberhasilan obyek yang sebenarnya.. Tetapi apabila tujuan tes hanya untuk mengukur kemampuan bidang studi tertentu, atau mengukur prestasi belajar peserta didiknya, persoalannya adalah masalah kerahasiaan soal, dihindarkan adalah kemungkinan bocornya soal. Bilamana pertimbangan ini tidak mengizinkan, maka uji coba itu dapat dari asil hasil tes yang sesungguhnya; hasilnya dianalis, butir soal yang tidak memenuhi syarat dapat disingkirkan, dan tidak diperhitungkn untuk menentukan hasil akhir peserta didik.

BAB III MACAM-MACAM TES A. PENNGERTIAN TES

Tes bersal dari bahasa latintestum yang berarti alat untuk mengukur tanah. Dlam bahasa perancis kuno, kata tes berarti ukura yang dipergunakan untuk membedakan antara emas denga perak serta logam lainnya. Sedangkan Sumadi Suryabrata, mengartikan tes adalah: pertanyaan-pertanyaan yang harus dijawab dan atau perintah-perintah yang harus dojalankan, yang mendasarkan harus bagaimana testee menjawab pertanyaan-pertanyaan atau melakukan perintah-perintah itu, penyelidik mengambil kesimpulan dengan cara membandingkan dengan standar atau testee lainnya (Sumadi Suryabrata, 1984:22)

Dari kedua pengertian diatas, diambil pengertian, tes adalh alat pengukuran berupa pertanyaan, perintah dan petunjuk yang dutujukan kepada testee unruk mendapatkan respon sesuai dengan petunjuk itu. Atas dasar respon tersebut ditentukan tinggi rendahnya skor dalam bentuk kuantitatif selanjutnyadibandingkan dengan standar yang telah ditentukan untuk ditarik kesimpulan yang bersifat kualitatif.

B. MACAM-MACAM TES

Secara umum tes dapat dibedakan berdasarkan obyek pengukurannyadapat dibagi menjadi dua, yaitu tes kepribadian (Personality Test) dan tes hasil belajar (Achievement Test).Personality test: A test intident to measure one or more of the nonintellctive aspects of and individuals mental or psycological makeup.(Stanley and Kenneth, 1978:454). Yang termasuk dalam jenis tesini banyak digunakan dalam pendidikan adalah: 1. Pengukuran sikap 2. Ppengukuran minat 3. Pengukuran bakat

4. Tes inteligensi Selain tes tersebut diatas masihh banyak jenis tes lain yang termasuk tes nonintelektif. Dimasukkannya tes inteligensi pada kelompok tes kepribdian hanya untuk memudahkan dalam membedakan dengan tes hasil belajar yang menjadi perhatian utama dalam buku ini. Adapun pengertian achievement tes secara umum adalah: A test that measures the extent to which a person has achieved something acquired certain information or mastered certain skills, usually as a result of specific instruction (Stanley and kenneth, 1978:448).

Berdasarkan fungsinya,tes dapat dibedakan dalam empat jenis yaitu: 1. Tes penempatan, 2. Tes formatif, 3. Tes diagnotik, dan 4. Tes sumatif

1.

Tes Penempatan Tes penempatan adalh tes untuk mengukur kemampuan dasar yang dimiliki oleh anak didik; kemampuan tersebut dapat dipakai meramalkan meramalkan kemampuan peserta didik pada masa mendatang, sehingga kepadanya dapat dibimbing, diarahkan atau ditempatkan pada jurusan yang sesuai dengan kemampuan dasarnya.

Penyusunan tes ini henndaknya menggunakan taraf kesukaran yang relatif rendah, tetapi penilaiannya menggunakan acuan patokan. Sedangkan keriteria keberhasilannyaadlah sejauh mana peserta didik berhasil menguasai sejumlah pre-requisit entry skilltiap mata pelajaran atau program pendidikan tertentu. Manfaat yang diperoleh dari tes ini dapat unruk memprbarui kualitas masukan, dapat digunakan untuk mengukur kelebihan serta kekurangan proses belajar mengajar sebelumnya.

2.

Tes Pembinaan

Tes pembinaan disebut dengaformative test, diselenggarakan pada saat berlangsungnya proses belajar-mengajar, diselenggarakan secara priodik, isinya mencakup semua unitpengajaran yang telah

diajarkan. Tujuan utamanya untuk mengetahui keberhasilan dan kegagalan proses belajar-mengajar, dengan demikian dapat dipakai untuk memperbaiki dan menyempurnakannya.

Oleh karena tujuan tes formatif untuk pembinaan dan perbaikan PBM, maka hendaknya guru memiliki kebesaran hati mencaari kekurangan pada dirinya dalam mengajar; meliputi aspek metodologik, didaktik, kurangnya motifasi, kemampuan mengelola kelas, kemampuan membangkitkan motifasibelajar peserta didik, serta kurangnya penguasaan bahan.

Dengan demikian sasran tes formatif tidak ditujukan untuk menentukan kelulusan peserta didik, melainkan merangsang agar peserta didik lebih rajin bekajar, sekaligus mengetahui bagian-bagian manakah dari materi yang diajarkan kepadanya yang belum dapat dikuasai dengan baik, selanjutnya dilakukan perbaikan dan pengulangan dalam belajar.

3.

Tes Sumatif

Tes ini disebut tes akhir semester atau evaluasi belajar tahap akhir (EBTA). Tes ini bertujuan mengukur keberhasilan belajar peserta didik secara menyeluruh, materi yang diujikan seluruh pokok bahasan dan tujuan pengajaran dalam suatu program tahunan atau semesteran, masing-masing pokok bahasan terwakili dam butir-butir soal yang diujikan.

Hasil evaluasi sumatif dipakai untuk membuat keputusan penting bagi peserta didik, misaalnya penentuan kenaikan kelas, kelulusan sekolah, dan membuat keputusan lainnya yang terikat dengan kepentingan peserta didik.

Standar yang digunakan untuk menentukan kualitas hasil evaluasi sumatif menggunakan acuan kelompo. Namun dalam hal-haal tertentu dapat menggunakan acuan patokan, atau acuan nilai. Kapan dan bagaimana cara menggunakan accuan tersebut secara jelasdapat dibaca pada penggunaan acuan dalam penilaian

4.

Tes Diagnostik

Tes diagnostik digunakan untuk sebab kegagalan peserta didik dalam belajar. Oleh karena itu dalam menyusun butir-butir soal seharusnya menggunakan itemyamg memiliki tingkat kesukaran rendah. Tes diagnostik dapat digunakan untuk kepentingan lain sesuai dengan terapi yang ingin dilakukan terhadap peserta didi, antara lain adalah: a. Diagnostik untuk kepentingan sleksi b. Diagnostik untuk kepentingan pemilihan jabatan dan lapangan studi c. Diagnostik untuk kepentingan psikoterapi,dan d. Diagnostik untuk kepentingan bimbingan dan penyuluhan dalam belajar (Sumadi Suryabrata 1984:43)

Tes diagnostik untuk kepentingan sleksi dapat digunakan dalam suatu lembaga pendidkan bermksud menerima murid baru secara terbatas, sedangkan pelamar lebih dari yang dibutuhkan, untuk menerima murid tersebut diadakan sleksi guna memilih calon terbaik. Naaamun untuk menentukan tepat tidaknya seorang pelamar diterima sebagai murid pada lembaga pendidikan yang menggunakan tes diagnostik, dasarnya tidak hanya kemampuan intelektual, melainkan kesesuaian antara beberapa ciri kepribadian, kemampuan dasar yang dimiliki dengan sifat lembaga pendidikan tersebut. 5. Tes Standar

Penggunaan tes standar secara sempit adalah tes yang disusun oleh suatu tim ahli, atau disusun lembaga yang khusus menyelenggarakan secara profesional. Tes tersebut diketahui memenuhi syarat sebagai tes yang baik; yakni diketahui validitas dan reliabilitas baik validitas rasional maupun validitas empirik, reliabilitas dalam arti teruji tingkat stabilitas, maupun homoginitasnya. Yang dituntut dalam tes standar bukan standar prestasi peserta didik dari penguasaan materi yang diajarkan pada suatu tingkat, lembaga pendidikan tertentu, melainkan adanya kesamaan performance pada kelompok peserta didik atau lembaga pendidikan disebabkan adanya kesamaan tolak ukur. Oleh karena itu dalam tes standar, masalah keseragaman dan konsistensi skoring penting untuk diperhatikan; sehingga tes tersebut dapat dipakai untuk membandingkan prestasi prestasi peserta didik dari berbagi sekolah. Menurut Suharsmi Arikunto kegunaan tes standar adalah sebagai berikut: a. Membandingkan prestasi belajar dengan pembawaan individual atau kelompok,

b.

Membandingkan tingkat prestasi siswa dalam keterampilan di berbagai bidang studi untuk individu atau kelompok,

c. d.

Membandingkan prestasi siswa berbagai sekolah atau kelas Mempelajari perkembangan siswa dalam suatu priode atau waktu tertentu (Suharsmi Arikunto, 1984:113)

Apabila pendidik bermaksud menstandarisasikan tes buatannya sendiri

memerlukan

perencanaan sendiri, memerlukan perencanaan yang baik, dilakukan uji coba di lapangan beberapa kali, dan ada beberapa yang perlu distandarisasikan, yaitu a. Materi yang akan di ujikan b. Sistem evaluasi yang digunakan c. Waktu penyelesaian soalan tes d. Tingkat kesukaran soal e. Cara pengolahan soal, termasuk skoring yang digunakan

6.

Tes Nonstandar

Tes non standar kebalikan tes standar, yaitu tes yang disusun oleh seorang pendidik yang belum memiliki keahlian profesional dalam penyusunan tes, atau yang mereka yang memiliki keahlian tetapi tidak sempat menyusun tes secara baik, mengujicobakan, melakukan analisis sehingga validitas dan reliabilitasnya belum dapat dipertanggungjawabkan. Tes nonstandar sering digunakan untuk menyebut tes buatan guru, artinya disusun oleh seorang guru tanpa bantuan tim ahli. Sebenarnya penggunaan yang kedua istilah ini tidak tepat, sebab mendiskriditkan guru sebagai orang yang tidak mampu menyusun tes yang baik penulis lebih cendrung menggunakan pengertian yang mendasarkan pada keriteria kualitatif daripada dilihat dari siapa yang menyusun. Untuk memberikan gambaran yang jelas, disajikan tabel perbandingan kedua tes tersebut Tes standar Tes nonstandar

1. Didasarkan atas bahan dan tujuan umum Didasarkan atas bahan dan tujuan khusus yang 1. pendidikan di seluruh negara 2. Mencakup aspek yang luas dan 2. dirumuskan oleh guru untuk kelasnya sendiri. dapat terjadi hanya mencakup pengetahuan

pengetahuan atau keterampilan dengan atau pengetahuan yang sempit

hanya sedikit butir tes untuk setiap keterampilan/topik 3.Disusun dengan kelengkapan staf, profesor, 3. pembahasan,dan editor butir tes. 4.Menggunakan butir tes yang sudah 4. Biasanya disusun sendiri oleh guru dengan sedikit atau tanpa bantuan orang lain Jarang menggunakan butir-butir yang sudah

diujicobakan, dianalisisdan direfisi sebelum ddiujicobakan, dianalisis dan direfisi. diujikan 5.Mempunyai reliabilitasyang tinggi 5. Mempunyai reliabilitas sedang atau rendah.

6. Dimungkinkanuntuk menggunakan norma 6.Norma kelompok terbatas kelas tertentu. untuk seluruh negara

7.

Tes Tulis Tes tulis termasuk kedalam tes ferbal, ialah tes yang soal dan jawabannya yang diberikan ole siswa berupa bahasa tulisan. Tes ini kelebihannya dapat mengukur kemampuan sejumlah besara peserta didik dalam dalam tempat yang terpisah dalam waktu yang sama. Pada tes tulis, karena soal sama obyekrifitas hasil penilaian lebih dapat dipertanggungjawabkan daripada tes lisan atau tes tindakan. Namun demikian, tes tulis memiliki kekurangan antara lain belum tentu cocock mengukur rana psikomotor, mengukur rana efektif pada tingkat ccharacterization. Disamping itu apabila tidak menggunakan bahasa yang tegas, lugas daapat mengundang pengertian ganda, berakibat data yang masuk salah, demikian pula dalam mengambil kesimpulan. Tes tulis secara umum dapat diukur dapat dibedakan menjadi dua bagian yaitu:

a.

Tes obyektif (Tes Terstruktur) Yaitu tes tulis yang itemnya dapat dijawab dengan memilih jawaban yang sudah tersedia; sehingga peserta didik menampilkan keseragaman data, bagi yang menjawb benar maupun mereka yang menjawab salah.kesamaan data inilah yang memungkinkan adanya keseragaman analisis, sehingga subyektivitas pedidik rendah, sebab unsur subyektivitasnya sulit berpengaruh dalam menentukan sektor jawaban. Penjelasan lebih lanjut mengenai pola tes obyektif diuraikan pada bab tersendiri.

b.

Tes Subyektif (Tes Uraian)

Tes subyektif sering disebut dengan tes u raian, tes ini peserta didik memiliki kebebasan memilih dan menentukan jawaban. Kebebasan ini berakibat data jawaban bervariasi, hal inilah yang menggunakan subyektifitas penilai ikut berperan menentukan. Karena itu tes ini disebut pula dengan tes subyektif.

8.

Tes Lisan Tes ini termasuk kelompok tes verbal, yaitu tes soal dan jawabannya mmenggunakan bahasa lisan. Tes lisan ini memiliki beberapa kelebihan antara lain:

a.

Dapat digunkan untuk menilai kepribadian dan kemampuan penguasaan pengetahuan peserta didik, krena dilakukan secara face to face.

b.

Jika peserta didik belum jelas dengan pertanyaan yang digunakan, pendidik dapat mengubah pertanyaan sehingga dimengerti.

c.

Darisikap dan cara menjawab pertanyaan, pendidik dapat mengetahui apa yang tersirat disamping apa yang tersurat dalam jawaban.

d.

Pendidik dapat menggali lebih lanjut jawaban peserta didik sampai mendetil sehingga mengetahui bagian mana yang dikuasai oleh peserta didik.

e.

Tepat unttuk mengukur kecakapan tertentu, seperti kemampuan membaca, menghafal kalimat tertentu.

f.

Pendidikdapat mengetahui secara langsung hasil tes seketika, (Ngalim Purwanto 1985:46)9.

9.

Tes Tindakan Yang dimaksud dengan tes tindakan adalah tes dimana repon atau jawaban yang dituntut dari peserta didik berupa tindakan, tingkah-laku kongkrit. Alat yang dapat digunakan untuk melakukan tes ini adalah observasi atau pengamatan terhadap tingka-laku tersebut. Bentuk tes ini dapat berupa petunjik-petunjukatau perintah-perintah baik secara lisan maupun tulisan., dapat berupa penyediaan situasi dimana peserta didik diminta untuk bereaksi terhadap situasi tersebut, baik dengan disengaja ataupun tidak. Tes ini mengandung beberapa keuntungan, dan mengandung beberapa kelemahan. Keuntungan bentuk tes ini antara lai.

a. b.

Tepat untuk mengukur psikomotor Tepat untuk mengetahui sikap sikap yang merefleksi dalam tingka-laku sehari-hari

c.

Pendidik secara langsung dapat mengetahui dengan jelas jawaban-jawaban sehingga lebih muda dalam memberikan penilaian.

BAB IV PENYUSUNAN TES OBYEKTIF

A. Macacam-Macam Tes Obyektif Tes obyektif, menurut Berg, (1958), sebagaimana dikutip oleh Stanle, tes ini secara umum dapat dibagi menjadi du macam, yakni: 1. Free response item terdiri dari a. Completion test, dan b. Short answer 2. Fixed-respons items, terdiri dari a. Tru-flase, b. Multiple-choice, c. Matching d. Rearregement exercise (Stanley, and Keneth)

Tipe soal obyektif soal jawab bebas, baik dalam bentuk melengkapi maupun jawab pendek, pada hakikatnya dapat dibedakan dengan tes uraian. Perbedaan itu terletak pada panjang pendeknya jawaban. Tes uraian jawaban dari peserta didik relatif lebih panjang, dan dimungkinkan munculnya beberapa alternatif jawaban benar. Tetapi dalamtes ini jawaban singkat jika perlu hanya terdiri dari saatu kata, dan hanya satu jawaban yang benar.

B. 1.

PRNSIP-PRINSIP PENYUSUNAN TES OBYEKTI Fre-response items

Prinsip penyusunan tes obyektif jawab bebas ini secara umum sama dengan seluruh tes obyektif, yakni munculnya keseragaman dan kepastian tentang jawaban yang benar tersebut penididik

dapat memberikan penilaian yang obyektif karena karena kesimpulan yang diambil sudah didasarkan atas data yang ajeg, dengan demikian memperkecil peluang munculnyasubyektifitas penilian. a. Short-answer objective item Beberapa petunjuk penyusunan tes ini antara lain dijelaskan Stanley, sebagai berikut 1. Menggunakan kalimat tanya akan lebih baik daripada menggunakan kalimat berita 2. Pertanyaan sebaiknya disususn sedemikian rupa sehingga jawaban yang muncul dapat disampaikan sesingkat mungkin, kalau perlu hanya dijawab dengan satu kata lebih baik, 3. Apabila lembaran jawaban ingin dijadikan satu dengan lembar soal, sebaiknya disediakan kolom jawban yang terpisah engan soalnya. 4. Hindarkan penggunaan penyusunan kalimat yang persis dalam buku tes, 5. Pertanyaan disususn sedemikian rupa sehingga hanya ada satu kemungkinan jawaban yang benar. (Stanley, and Kenneth 1978:220-221)

b.

Complrtion Tes

Pengertian Completion test, tes completion adalah merupakan salah-satu tes jawaban bebas, dimanan butir-butir soalnya berupa satu kalimat di mana dimanan bagian-bagian tertentu dianggap penting dikosongkan. Kepada testee diminta untuk mengisi bagian-bagian yang ditiadakan tersebut (Stanley and Kenneth, 1978:221).

2.

Fixed-response Tipe ini merupakan salah-satu bentuk tes obyektif, dimana butir-butir soal yang diberikan kepada peserta didik disertai dengan alternatif jawaban,sehingga peserta didik tinggal memilih satu diantara alternatif yang disediakan. Jawaban tersebut hanya ada satu yang benar ataua yang paling benar, sedangkan lainnya salah. Selanjutnya untukmengetahui bentuk tes tersebut secara rinci dapat diikuti keterangan berikut

a.

True-Falsse test

True-False Test adalah suatu bentuk tes dimana itemnya berupa statemen yang mengandung dua kemungkinan: benar atau salah. Tetapi sistem itu sebenarnya hanya memiliki satu kemungkinan, yaitu bisa benar bisa salah, peserta didik diminta untuk menentukan pilihannya terhadap statement tersebutdengan memilih salah-satu diantara benar atau salah. Ciri bentuk tes ini antara lain,mudah disusun dan dapat mengungkap bahan yang cukup luas; sedangkan kelemahannya adalah faktor terkaan sangat besar sebab hanya memiliki du kemungkinan antara benar atau salah, disamping ituvaliditas dan reliabilitasnya rendah.

b.

Multiple Choice Test

Pengertian bentuk tes tersebut adalah:tes pilihan ganda merupakan tes obyektif di mana masing-masing item disediakan lebih dsri dua kemungkinan jawaban, dan hanya satu dari pilihan-pilihan tersebut yang benar atau yang paling benar. (Noeng Muhajir, 1981:81) Adapun jenis jawaban yang paling tepat pada tes bentuk multiple-choiceadalah tes setelah pertanyaan/pernyataan diikuti oleh sejumlah alternatif jawaban mengandung kebenaran. Hanya diantara alternatif tersebut ada jawaban yang paling benar/tepat. Contoh : Imam Malik, menulis kitab Al-Muwatta karena memiliki tujuan untuk A. Memenuhi pesanan khalifah B. Membukukan sebagian dari hadis-hadis yang telah dihafalnya C. Membukukan sejumlah hadis-hadis sahi, asar, dan fatwa tabiin D. Menulis kitab hadis yang ditashih dan disepakati oleh para ulama hadis pada masa itu E. Menulis kitab yang dapat dijadikan pegangan utama bagi para qadhi dalam memutuskan perkara.

c. Tes Bentuk Matching (Menjodohkan) Tes bentuk menjodohkan merupakan bentuk khusus dari tes pilihan jamak. Bentuk ini terdiri atas dua macam kelompok paralel, tiap kolom berisi statement yang satu menepati posisi sebagai soal daan satunya sebagai jawaban, kemudian peserta didikiminta untuk menjodohkan kesesuaian antar dua statement tersebut diatas.

Tes ini sering digunakan untuk mengukur informasi tentang fakta; hubungan dan pertingan simbol tertentu. Penyusunan tes ini relatif lebih mudah, dan faktor terkaan peserta didikdapat diperkecil. Kelemahan tes ini hanya dapat mengukur ingatan saja, sedangkan kemampuan analisis dan evaluatif sulit diketahui. Beberapa petunjuk praktis menyusun tes bentuk ini adalah: 1. 2. Kelompokan hanya premis-premis yang homogen dan jawaban homogen-homogen Jumlah statemen yang dijadikan jawaban hendaknya lebih banyak bila dibandingkan dengan statemen yang dijadikan soal. Perbandingan tersebut dapat berkisar 10:15 3. 4. Statemen yang menjadi jawaban hendaknya disusun dalam kalimat yang lebih pendek dan ringkas Statemen yang menjadi soal, diletakan di sebelah kiri dengan diberi nomor arab, sedangkan jawaban diletakan diwebelah kanan dengan menggunakan abjad. 5. Dalam membuat petunjuk, jelaskan yang digunakan untuk menjodohkan yang bersifat sederhana, dasar untuk menjodohkan mungkin sudah jelas. Kendatipun demikian harus dijelas secara eksplisit pada petunjuk, sehingga tidak menimbulkan keraguan pada peserta didik 6. Jangan membuat penjodohan sempurna atau lawan satu. Satu jawaban mungkin dapat dengan lebih satu statemen. Adakalanya baik memasukan jawaban yang tidak ada pasangannya. 7. Karena kecilnya faktor terkaan dalam menjawaab tes bentuk ini, nilai dihitung dari jumlah jawaban yang benar

d.

Rearrangement Exercises Yang dimaksud kan rearrangemen exercises adalh bentuk tes berupa rangkaian kalimat utuh dan benar, kemudian diceraikan secara tidak beraturan, sehingga bentuk aslinya sulit dikenali, peserta didik diminta menyusun kembali sesuai dengan urutan yang benar. Tes bentuk ini dapat mengukur kemampuan berfikir logik atau logical sequencepeserta didik. Bentuk tes ini banyak digunakan untuk mata pelajaran bahasa. Kesulitannya adalahdalam menentukan topik bahasan yang memiliki homogenitas yang cukup baik. Bentuk ini apabila diterapkan pada mata pelajaran bahasa tidak ada masalah yang pokok. Tetapi jika digunaakan dalam ilmu sosial seperti sejarah, geografi, dan agama, problemhomogenitas tersebut muncul.

BAB V MASALAH PENGGUNAAN ACUAN DALAM PENILAIAN

A.

DASAR-DASAR PENNGUNAAN ACUAN DALAM PENILAIAN

Jika pada pengukuran problem utama yang dihadapi adalah bagaimana (1) menentukan obyek pengukuran, hal ini dijelaskan secara panjang lebar dalamm taksonomi hasil belajar, (2) bagaimana menyusun alat ukur yang baik, dalam hal ini dibahas tentang masalah bentuk-bentuk tes, validitas dan realibilitas tes dan analisis item, (3) kapan dan bagaimana prosedur pengukuran dan hasil belajar, (4) bagai mana cara mengelola data hasil pengukura.

PENGGUNAAN ACUAN DALAM PENILAIAN

Asumsi Fisolosofi

Kurikulum

Tujuan Pengajara

PBM

Acuan

Psikologik 1. Keragaman individu 2. Inshomorphisme 3.

Dinamika mengejar perkembangan

Kemampuan berkembang peserta

CBSA mengembangkan

PAK

keriteria

berkembang dengan

didik kompetensi sehat sesuai

Normalitas ilmu distribusu teknologi baru

dan lebih diutamakan antar yang dari penguasaan didik materi

peserta kelompokny

Paedagogik 1. Mereduksi keragaman 2. Beda sebelum/sesuds belajar 3. Dapat menerima

Statik ilmu dan Kemampuan teknologi sudah dan keriterianya tidak berkembang yang penguasaan mapan materi jelas kemampuan menjalankan tugas tertentu

Belajar Modulasi dan Belajar Mamdiri

tuntas PAP Paket sesuai

keriteria dengan

Belajar tujuanpengajaran

lebih diutamakan

perlukuan guru

Teologik 1.

Aagama Manusia humanoria

dan Menjadikan manusia baik, bermoral, dan iman, takwa.

PAP Nilai keriteria

asalnyafitrah/baik 2.

kebenaran

benar/baik bersifat mutlak

Pendidikan dapat mutlak mengubah fitrah

universal datang

3. Satunya ilmu-iman dari tuhan dan amal

Berdasarkan materik tersebut diatas ada tiga acuan yang dapat dikembangkan dalam penilaian hasil belajar, yakni: 1. Penilaian dengan Acuan Patokan 2. Penilaian dengan Acuan Kelompok, 3. Penilaian dengan Acuan Nilai.

B.

PENILAIAN ACUAN PATOKAN (PAP)

Apabila kita membaca hasil penilaian terkandung pengertian bahwa hasil belajar tersebut menunjukkan kemampuan peserta didik bergerak dari tidak menguasai materi pelajaran; menguasai; sampai pada tahap sangat menguasai. Seberapa jauh tingkat penguasaan dianggap memadai, tergantung kepada standar atau patokan yang ditetapkan. Apabila ketiga asumsi ini dapat brjalan semua, maka proses pendidikan akan berjalan dengan baik, namun salah-sati asumsi tersebut tidak dapat dilaksanakan, maka hasil belajar tidak sesuai dengan kenyataan yang diharapkan. Oleh karena itu jika asumsi dapat dilaksanakan seharusnya dalam proses pendidikan sebagian besar peserta didik harus memperoleh nilai A dan B, dan hanya sebagian kecil saja yang kurang atau gagal, tetapi jika proses pengajarannya gagal akan membentuk juling positif.

Tujuan pengajaran secara khusus untuk menguasai sejumlah teori atau keterampilan tertentu. Dan metode mengajar yang digunakana adalah mastery learning,atau metode belajar tuntas, pendidik menekankan pada penguasaan materi daripada kemampuan kreatif peserta didik. Sebagai gambaran dalam menetapkan besar kecilnya persentase untuk penetapan nilai dalam Penilaian Acuan Kelompok (PAK) ini adalah sebagai berikut

TARAF PENGUASAAN BAHAN Taraf penguasaan 91-100% 81-90% 71-60% 61-70% Kurang 60% kualifikasi Memuaskan Baik Cukup Kurang Gagal Nilai hurf A B C D E Angka kualitas 4 3 2 1 0

C.

PENILAIAN ACUAN KELOMPOK

Pendidikan yang menggunakan acuan kelompok sebagai dasar penilaian, didasarkan atas asumsi psikologik, yakni pandangan yang menyadari bahwa tidak semua orang itu memiliki kesamaan kemampuan, individu itu memiliki kemampuan yang beragam. Namu apabila kemampuan keragaman ini ditarik dari penelitian atas sejumlah sampel akan memberikan gambaran yang membentuk distribusi frekwensi normal, yakni sebagian besar frekwensi akan berada disekitar daerah mean, sedangkan sebagian kecil berada didaerah ekor kanan dan kiri dalam posisi yang berimbang. Penggunaan acuan ini sangat dependen dengan jenis kelompok, tempat, dan waktu. Kelompok yang homogen berbeda dengan kelompok yang heterogen; kelompok belajar di kota berbeda dengan kelompok belajar di daera terpencil, demikian juga kemampuan kelompok belajar lima tahun yang lalu berbeda dengan kemampuan kelompok belajar sekarang Oleh karena keriteria penilaian dalam PAK ini adalh kemampuan rata-rata kelompok, kemudian individu diukur seberapa jumlah penyimpangannya terhadap rata-rata tersebut, hal ini berarti bahwa tes

ini harus dapat memberikan gambaran diskriminatif antara kemampuan peserta didik yang pandai dengan yang bodoh. Dalam kaitannya dengan daya diskriminatif sebagai titik-tolak pengembangan tes hasil belajar, ada indikasi makin tinggi daya diskriminatif suatu butir soal, menandakan tes tersebut semakin baik. Daya diskriminatif itu mencakup 1. 2. 3. Daya diskriminasi antarindividu Daya diskriminasi antarsituasi belajar-mengajar, dan Daya diskriminasi antarkelompok (Neong Muhadjir, 1983:7)

D.

PENGOLAHAN HASIL TES DENGAN ACUAN KELOMPOK (PAK)

Jika persoalan yang dihadapi dalam penilaian acuan kelompok adalah masalah sampling materi tes, dan penetapan tinggi rendahnya patokan yang ditetapakan sebagai keriteria keberhasilan, dalam penilaian acuan kelompok adalah pengolahan data karakteristiknya. Sebab standar yang digunakan dalam penilaian ini adalah skor rata-rata kelompok yang mengikuti tes, sehingga penentuannya dilakukan dengan mengola data nilai secara empirik. Pendidikan tidak dapat menetapkan patokan terlebih dahulu seperti pada penilaian acuan patokan. Adapun langkah yang ditempuh untuk mengelola skor mentah menjadi nilai adalaah sebagai berikut: 1. 2. 3. 4. 5. Memberikan skor kepada setiap peserta didik, Mencari nilai rata-rata kelompok, Mencari besarnya simpang baku, Membuat pedoman konversi berdasarkan skala yang dikehendaki, Menentukan nilai masing-masing peserta didik berdasarkan pedoman konversi tersebut

1.

Memberi Skor Mentah Dalam memberikan skor mentah pada tiap-tiap tes, terlebih dahulu harus diperhatikan

1. 2.

Bentuk masing-masing sub tes, dan Bobot masing-masing subtes.

Bila tes terdiri dari beberapa subtes, misalnya tiga bentuk Tru-flase, Multiple-choice dan matching, tentunya dalam memberikan skoring tidak sama, tidak dapat hanya menjumlahkan jawaban benar saja, atau sebaliknya menghitung jumlah jawaban sala saja kemudian baru ditentukan nilainya.

Sebab pada dasarnya bobot kesukarannya item yang disajikan dalam bentuk yang befariasi itu berbeda. Oleh karena itu memberikan skor dengan memperhatika variasi bentuk soal sebenarnya meningkatkan kewaspadaan untuk mengurangi kelemahan yang melekat bentuk tes.

Adapun cara memberikan skor masin-masing bentuk tes adalah sebagai berikut: 1. Tes bentuk esai, tinggi rendahnya skor ditentukan atas dasar banyak sedikit volume tugas yang diperlukan bagi peserta didik untuk menyelesaikan tes tersebut. 2. 3. 4. Tes obyektif bentuk True-flase,skornya dengan rumus B-S (Benar dikurangi salah). Tes obyektif bentuk jawab singkatdan isian pendek cukup dengan menjumlah jawaban yang benar. Tes obyektif bentuk multiple-choiceskornya dengan rumus: B Keterangan B = jumlah jawaban yang benar S = jumlah jawaban yang salah n = jumlah option (alternatif jawaban) 5. Tes obyektif bentuk matching, cara menghitungnya dengan skornya dengan rumus

Keterangan B S = = = jumlah jawaban yang benar jumlah jawaban yang salaah jumlah item pada lajur kiri (soal) jumlah item pada lajur kanan

n1 n26.

=

tes obyektif rearengement-exerices, sama dengan memberikan skor pada multiple-choice.

2.

Mencari Nilai Rata-Rata

Setelah masing-masing peserta didik memperoleh skor mentah sesuai dengan petunjuk diatas, kemudian dicari besar kecilnya skor rata-rata tes. Ada empat rumus yang digunakan untuk besarnya mean, yaitu: a. M = Besarnya rata-rata yang dicari X = Jumlah nilai N = Jumlah peserta tes Rumus ini mudah digunakan untuk mencari nilai rata-rata untuk sampel kecil, contoh Nilai bahasa arab Mahasiswa Fak. Tarbiah Jurusan PAI Tahun 1988 Nomor 1 2 3 4 5 6 7 8 9 10 N Nilai 45 70 60 55 63 75 50 49 62 66 595 M= fX = Nilaidikalikan dengan frekwensi Rumus ini digunakan apabila peserta tes cukup banyak dan nilai disusun dengan nilai berdasrakan distribusi frekwensi, baik tunggal maupun bergolongan. Penggunaannya dalam distribusi frekwensi tunggal sebagai berikut: b. Rumus keddua adalah Diketahui: N = 10 = 595

Nilai bahasa arab mahasiswa Fak. Tarbiyah Jurusan PAI Nilai 70 65 60 52 50 49 30 25 f 5 6 7 15 12 6 4 2 fX 350 390 420 780 600 294 120 3. 50 Mencari Besar Kecilnya Standar Devisi Jadi nilai rata-ratanya adalah

Setelah diketahui besar kecilnya mean yang akan digunakan sebagai acuan dalam menentukan nilai tiap-tiap individu, langkah berikutnya adalah mencari besarnya standar devisi.

N = 57

3004 a.

Untuk menghitung besar kecilnya SD dicari melalui dua rumus Rumus kasar

b. Rumus yang agak mudah digunakan dan cepat menggunakan dan dapat menghitungnya karena tidak dapat melibatkatkan angka-angka besar, adalah rumus mencari SD dengan mean terkaan, seperti berikut ini:

Kelemahan rumus ini ialah angka-aangka yang berbeda dibelakang koma, sehingga apabila taidak diteliti dengan cermat juga memberi peluang yang sangat beasar untuk menyebabkan salah hitung. Sebagai contoh penerapan dapat diambil rumus yang kedua, dengan bahan terdapatpada halaman 96.

Interval nilai 70-74 65-69 60-64 55-59 50-54

f

X

fX

fX2

3 15 40 30 9 97

+2 +1 0 -1 -2 0

+6 +15 0 -30 -18 -27

12 5 0 30 36 93

Diketahui : fX = -27 fX2 = 93 Sehingga besarnya SD = N = 97 i =5

SD = 5

=5 =5 =5 = 4,693 dibulatkan menjadi 4,69 4. Membuat Pedoman Konversi Nilai

Setelah diketahui besarnya mean dan SD, langkah berikutnya adalah membuat pedoman konversi nilai. Untuk menyusun pedoman ini ada dua hal yang perlu diperhatikan yaitu: 1. 2. Menetapkan skala yang akan digunakan, dan Menghitung dan menetapkan tabel konversinilai untuk menentukan besar kecilnya nilaiyang diperoleh peserta didik.

5.

Menentukan Nilai Peserta Didik

Yang menjadi dasar semua itu adalah nilai menta peserta didik. Sebelum dijadikan nilai standar, terlebih dahulu dipergunakan dengan nilai rata-rata kelompok. Selamam peserta tes memiliki homogenitas yang cukup tinggi, distri busi nilai akan membentuk kurva normal, dan distribusi pesertanya akan menjadi seperti disebutka diatas. Tetapi apabila keadaan siswa tidak homogen akan membentuk kurva juling negatif. Hal ini akan sedikit menimbulkann kesulitan sebabb penyebaran nilainya tidak merata.

E. Pennilaian Acuan Nilai

Acuan nilai yang dapat digunakan untuk melakukan evaluasi pendidikan yangg mengggunakan dasar fiilosofik agama, yakni pandangan yang menyatakan bahwa manusia itu pada dasarnya memiliki fitrah baik, tidak ada unsur dosa waris, atau manusia itu memiliki potensi bawaan yang bersifat jelek. Sebagai conntoh: niilai berpakaian, dalam islam nilai esensialnya adalah untuk menutup aurat, bersifat mutlak dan universal. Adapun tentang bentuknya, warnanya, bahannya, mode jahitan dan sebagainya, adlh nilai instrumental, bersifat lokal dan temporal. Pada musim dingin di daera yang memiliki suhu dibawa 0 derajat, pakaian dapa dari mantel bulu, ketat, hitam. Tetaoi oada musim panas, pakaian tidak perlu terlalu tebal asalkan menutup aurat. Yang menjadi kesulitan dalam melakukan penilaian adalaah mengembangkan alat ukur yang memiliki validitas dan reliabilitas yang dapat diandalkan, disamping itu juga menentukan skoringnya. Tekanan skoringnya didasarkan atas adanya proses perubahan peserta didik ke arah yang lebih baik. Misalnya perubahan ke semakin taat beribdah-semakin toleran-semakin menghormati orang lainsemakin rajin kemesjid-semakin tebal nasionalismenya-semakin baik budi pekertiny. Tidak semata-mata didasrkan atas penguasaan teori, atau kemampuan mendemonstarsasikan satu tata-nilai tertentu.

BAB VI VALIDITAS DAN RELIABILITAS TES

A. VALIDITAS TES 1. Pengertian Validitas

Validitas sering diartikan dengan kesahihan, sedangkan reliabilitasdiartikan dengan keterandalan. Suatu alat ukur disebut memiliki validitas bilaman alat ukur tersebut isinya layak mengukur obyek yang seharusnya diukur dan sesuai dengan keriteria tertentu. Artinya adanya kesesuaian antara alat ukur dengan funngsi pengukuran dan sasaran pengukuran. Adapun jenis validitas tes secara umum dapat dikelompokkan kedalam tiga pengelompokan, yaitu:

a. Validitas konstruksi b. Validitas isi c. Validitas keriteria Validitas pengukuran setara Validitas pengukuran serantak Validitas prediktif

2. a.

Jenis Validitas Validitas Konstruksi Validitas konstruksi atau construc validity adalah suatu tes dimana butir soal tersebut membangun setiap aspek berfikir seperti yang disebutkan dalam tujuan instruksional khusus (TIK). Atau dengan kata lain validitas konstruksi yaitu tes yang butir-butir soalnyamengukur aspek berfikir sesuai dengan konsep atau pendekatan yang digunakn untuk mengurangi aspek berfikir tersebut. Untuk menguji validitas konstruksi ini digunakan:

1. Pengujian validitas konvergen 2. Pengujian validitas diskriminan 3. Pengujian stabilitas dan keajegan (Noeng Muhadjir 1983:77).

Cara menguji validitas konstruksi dengan uji validitas konvergen adalah dengan cra uji empirik, yaitu mengkorelasikan skor total dengan skor faktor; dengan asumsi antara skor total dengan skor faktor terdapat korelasi yang signifikan.

b.

Validitas Isi Validitas sis atau content validty, atau validitas tes mempersoalkan apakah isi butir tes yang diujikan mencerminkan isi kurikulum yang seharusnya diukur atau tidak. Misalnya seorang guru menyusun tes tentang akhlak siswa SMP. Dapat dipersoalkan bahwakeselurhan tes itu mampu mengungkap tingkah-laku siswa SMP dari tingkah-laku yang baik sampai tingkah-laku yang kurang baik; bukan mengumgkap kemampuan menghafal teori tentang tingkah-laku; dan bukan pula mengunngkap kemampuan menghafal pendapat para ahli ilmu akhlak. Kecuali dalam kurikulum mencakup tiga segiitu, yaitu aspek kesejahtraan ilmu, aspek teoritiktentang akhlak dan akhlak praktis.

c.

Validitas Keriteria Validitas keriteri, artinya tes memiliki kesahihan bilamana terdapat kesesuaian dengan keriteria tertentu yang digunakan untuk mnguji tingkat validitas tes tersebut. Keriteria dapat bersifat internal dan dapat pula bersifat external. Keriteria yang bersifat internal yaitu keriteria yang digunakan untuk melakukan uji validitasitu terkandung dalam tes tersebut, misalnyavaliditas vaktor. Yaitu bilamana tes tersebut memiliki kesesuaian antara skor faktor dengan skor total, ini berarti terdapat konsistensi antara faktor-fktor yang dijadikan indikator pengukuran. Keriteria yang bersifat eksternal, yaitu bilamana keriteria yang digunakan sebagai prameter untuk melakukan uji validitas dari luar tes tersebut, misalnya diambilkan hasil pengukuran orang lain yang menggunakan alat lain; hasil pengukuran orang lain yang menggunakan alat sejenis; dan hasil pengukuran dalam bidang yang sama dalam tahun berikutnya.

3.

Hubungan Antara Validitas Dengan Reliabilitas

Ada kemunkinan hubungan antara validitas reliabilitas itu bersifat independent, bebas satu sama lain dan dapat pula bersifat detrimental. Tujuan validitas dan reliabilitas seringkali bersalingan. Bila kita ingin mempunyai suatu tes reliabel sekaligus valid dengan koefesien tinggi, sering kita mengerjakan pekerjaan yang mempunyai tujuan yang

bersalingan. Reliabilitas maksimal membutuhkan interkorelasi tinggi antaritem, sedangkan validitas prediktif yang maksimaal memerlukan interkorelasi antaritem rendah. Reliabilitas maksimal membutuhkan item dengan tingkat kesukaran sama, sedangkan validitas prediktif malsimal menuntut tes memiliki taraf kesukaaran berbeda, sehingga perlu kompromi. Namun jika langkah ini kita ambil, sebaiknya diperhitungkan apakah penambahan faktor umum ini dapat terjangkau oleh peserta didik. Oleh karena ituperlu dalam penentuan perencanaan, terutama dalam penyusunan kis-kisi tes, faktor umum yang akan diperbanyak itu diperhitungkan juga jangan terlalu keluar dari program dan proses pendidikan sebelumnya.

B. RELIABILITAS TES 1. Pengertian Reliabilitas

Reliabilitas sering diartikan dengann keterandalan. Artinya suatu tes memiliki keterandalan bilamana tes tersebut dipakai mengukur berulang-ulang hasilnya sama. Dengan demikian reliabilitas dapat pula diartikan dengan keajegan atau stabilitas. Reliabilitas diartikan dengan stabilitas bilamana tes itu diujikan dan hasilnya diadakan analisis reliabilitas dengan menggunakan keriteria internal dalam tes tersebut. Cara untuk mengetahui koefisien stabilitas ini adalah dengan beberapa rumus yang seharusnnya cukup menggunakan satu tes dengan sekali diujikan kepada siswa.

2.

Beberapa Pendekatan Uji Reliabilitas

Beberapa cara ynag dapat digunakan untuk mengadakan uji reliabilitas tes adalah sebagai berikut: a. b. c. Metode test-retest Reliability Metode Equivalent-Forms Reliability Metode Spilt-Half Reliability

1. Rumus Sperman-brown 2. Rumus Flagan 3. Rumus Rulon d. Uji Homogenitas

1. Rumus K-R. 20 2. Rumus K-R. 21

3. Rumus Alpha.

3.

Metode Tes-Reset Reliability Yang dimaksud adalah untuk menguji reliabilitas tes dengan jalan mengujikan tes tersebut dua kali atau lebih, kemudian hasilnya dilkorelasikan. Tujuan uji reliabilitas ini untuk mengetahui koefesien stabilitas tes. Tes tersebut memiliki keterandalan bilamana dipakai untuk mengukur obyek yang sama dalamwaktu yang berbeda-beda hasilnya sama. Adapun langkah yang dapat ditempuh pada uji reliabilitas ini sebagai berikut:

a. b. c. d. e. f.

Menyusun sebuah tes yang akan diukur reliabilitasnya Mengujikan tes yang tersusun tersebut (tahap I), Menghitung skor hasil tes tahap I Mengujikan ulang tes yang tersusun tersebut (tahap II) Menghitung skor hasil tes ulang (tahap II) Menghitung tes reliabilitas tes tersebut dengan jalan mengkorelasikan skor tes Idengan skor tes II dengan rumus korelasi Product Moment Pearson

4.

Metode Equivalent-Form Reliabilty

Metode ini adalah cara mengukur reliabilitas tes dengan jalan mengukur dua buah tes yang memiliki kemiripan atau kesamaan (equivalent). Walaupun tesnya terdiri dari dua macam, namun hakikat isinya mengukur hal yang samadan alat ukur ini keduanya juga sama. Cara ini dapat digunakan untuk mengetahui koefisien stabilitas tes dengan asumsi bahwa sistem yang diukur dengan tes tersebut tidak akan berubah dengan hanya digunakan dua bentuk tes. Adapun langkah yang ditempuh adalah: a. b. c. d. Menyusun dua tes yang ekuivalen, Menguji kedua tes tersebut (dalam waktu yang bersamaan atau beriringan) Memberikan skor hasil tes yang telah diujikan, disusun dengan memisahkan antara tes A dan tes B Mencari koefisien stabilitas kedua tes (A dan B) dengan jalan mencari korelasinya melalui rumus korelasi Product Moment.

Persoalannya adalah bagaimana menyusun dua buah tes yang equivalent tersebut? Untuk itu ada beberapa hal yang perlu diprhatikan, yakni: a. b. c. d. e. f. Materi yang ditanyakan sama, Bentuk soal sama, Tingkat kesukaran soal sama, Banyak sedikit soal sama, Waktu yang dibutuhkan untuk mengerjakan soal sama, Sistem evaluasinya sama.

Yang dapat berbeda adalah pembahasan sitematika soal. Bilamana dua buah tes sudah disusun berdasarkan petunjuk tersebut dan sudah diujikan pada suatu sampel, maka hasil kedua buah tes tersebut dikorelasikan dengan rumus korelasi Product Moment seperti digunakan di atas. Bilamana hasilnya menunjukkan korelasi positif, maka tes tersebut reliabel. Tetapi bilamana sebaliknya, maka ia tidak reliabel.

5.

Metode Split-Half Reliability

Metode ini dipakai untuk mengetahui tingkat reliabilitas tes dengan jalan membelah tes menjadi dua bagian dan skor kedua belahan tersebut dikorelasikan dengan rumus tertentu. Asumsi yang mendasari penggunaan metode ini sebagai cara mengukur reliiabilitas tes adalah tes tersebut disusun dengan pola yang sitematik, sehingga bilamana dibelah menurut belahan ganjil genap atau belahan atas bawah, tidak akan mengubah posisi skir masing-masing siswa. Yang akan dicari dalam metode ini adalah koefisien konsistensi internal dari tes tertentu. a. Macam Macam Reliabilitas Dengan Menggunakan Rumus Spearman-Brown

Rumus ini dapat digunakan untuk mencari reliabilitas tes dengan mengguanakan keriteria inte