IV-1 BAB IV PENENTUAN JENIS KATA (PART OF SPEECH TAGGING) UNTUK BAHASA INDONESIA Pada Bab IV ini akan dijelaskan mengenai proses-proses yang diperlukan dalam proses penentuan jenis kata (part of speech tagging) yang diambil dari kamus maupun yang tidak ada dalam kamus. Gambaran proses penentuan jenis kata dapat dilihat pada Gambar IV-1. Gambar IV-1 Proses Penentuan Jenis Kata jika tidak dapat diprediksi jika tidak ditemukan jika dapat diprediksi jika ditemukan mengambil data kata selanjutnya melihat jenis kata di dalam kamus memprediksi jenis kata dengan aturan morfologi memprediksi jenis kata dengan metode bigram kalimat yang mengandung kata yang akan ditentukan jenis katanya diambil per kata untuk ditentukan jenis katanya semua kata dalam kalimat masukan telah ditentukan jenis katanya memberikan tag jenis kata pada kata leksikon POS tagging grammar
13
Embed
BAB IV PENENTUAN JENIS KATA (PART OF SPEECH · PDF fileKoordinatif Kata hubung yang ... nomina) SBAR sub kalimat majemuk SBARQ sub kalimat setelah kata tanya ... Pola Imbuhan Contoh
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
IV-1
BAB IV PENENTUAN JENIS KATA (PART OF SPEECH TAGGING)
UNTUK BAHASA INDONESIA
Pada Bab IV ini akan dijelaskan mengenai proses-proses yang diperlukan dalam
proses penentuan jenis kata (part of speech tagging) yang diambil dari kamus
maupun yang tidak ada dalam kamus. Gambaran proses penentuan jenis kata
dapat dilihat pada Gambar IV-1.
Gambar IV-1 Proses Penentuan Jenis Kata
jika tidak dapat diprediksi
jika tidak ditemukan
jika dapat diprediksi
jika ditemukan
mengambil data
kata selanjutnya
melihat jenis kata di dalam kamus
memprediksi jenis kata dengan aturan morfologi
memprediksi jenis kata dengan metode bigram
kalimat yang mengandung kata yang akan ditentukan jenis katanya
diambil per kata untuk ditentukan jenis katanya
semua kata dalam kalimat masukan telah ditentukan jenis katanya
memberikan tag jenis kata pada kata
leksikon
POS tagging
grammar
IV-2
Proses penentuan jenis kata akan dilakukan dalam tiga tingkat, tapi jika penentuan
jenis kata pada setiap tingkat telah berhasil maka tingkat selanjutnya tidak perlu
dialui. Tingkat yang pertama adalah melihat pada kamus yang telah disiapkan,
jika kata ada dalam kamus maka tag akan langsung diberikan pada kata, jika tidak
maka akan dilanjutkan ke proses tingkat berikutnya. Tingkat berikutnya adalah
memeriksa morfologi kata dan mencoba menentukan jenis kata menggunakan
aturan morfologi pada bahasa Indonesia. Jika kata dapat diprediksi maka hasil dari
tingkatan proses tersebut juga dapat digunakan untuk memperkaya kamus. Jika
kata masih belum bisa ditentukan jenis katanya maka pada tingkatan ketiga akan
digunakan metode bigram untuk memprediksi jenis kata. Jika kata dapat
diprediksi maka hasil dari bigram juga akan digunakan untuk memperkaya kamus.
Jika kata belum dapat diprediksi jenis katanya maka kata akan diberi label X
(unknown).
IV.1 Leksikon/Kamus
Proses POS tagging tidak akan berjalan tanpa adanya leksikon/kamus. Dipilih
berbasis kamus karena menurut penelitian yang dilakukan Fadillah Z. Tala (2003)
bahwa pemrosesan temu balik informasi POS tagging dan stemming untuk bahasa
Indonesia lebih baik berbasis kamus yang menghasilkan lebih sedikit kesalahan
dibanding berbasis aturan [26]. Kamus kata yang digunakan adalah kamus KEBI
(Kamus Elektronik Bahasa Indonesia) yang didapat dari ITB. KEBI merupakan
Kamus Bahasa Indonesia - Bahasa Inggris yang dikembangkan oleh Badan
Pengkajian dan Penerapan Teknologi (BPPT) yang boleh digunakan untuk
keperluan riset. Kamus ini mengandung 29.396 kata berbahasa Indonesia. Jenis
kata dalam kamus dikelompokkan menjadi lima belas jenis kata antara lain kata
sifat (adjektiva), kata keterangan (adverbia), kata sandang (dibedakan menjadi
determiner dan article), kata bantu (auxiliary), kata hubung (konjungsi), kata seru
(interjeksi), kata benda (nomina), kata bilangan (dibedakan menjadi numeral dan
ordinal), kata tugas partikel, kata fatis (kata yang menekankan seperti
assalamualaikum, bismillah), kata depan (preposisi), kata ganti (pronomina), dan
kata kerja (verba). Namun kamus KEBI tidak dapat langsung digunakan karena
IV-3
harus diubah menjadi format leksikon pada pengurai Collins. Proses yang harus
dilakukan untuk mempersiapkan kamus antara lain:
Menghapus frase pada kamus (kamus KEBI juga memuat frase)
Mengurutkan kata pada kamus KEBI
Diubah formatnya menjadi
[kata] [jenis_kata] [klasifikasi]
misal menjadi
cangkul NN 0
dimana klasifikasi diisi dengan 0 jika kata termasuk jarang muncul
(dihitung probabilitasnya pada file treebank) dan diisi dengan 1 jika kata
tergolong sering muncul. Pengklasifikasian jarang atau sering muncul
dihitung secara probabilistik kemunculan kata saat proses pembelajaran
menggunakan treebank dengan nilai threshold yang ditentukan oleh
penulis yaitu 0.3.
Kamus ini akan menjadi kamus awal yang disiapkan dan akan terus diperkaya
seiring dengan banyaknya pohon kalimat pada treebank yang digunakan untuk
pembelajaran. Pada saat sistem melakukan pembelajaran maka akan digunakan
metode bootstrapping untuk memperkaya kamus seperti pada Gambar IV-2.
Bootstrapping dalam konteks tesis ini merupakan proses memperkaya leksikon
kamus dengan menggunakan treebank untuk menambah leksikon beserta jenis
katanya.
IV-4
Gambar IV-2 Proses Memperkaya Kamus
IV.2 Morfologi Tata Bahasa Indonesia
Morfologi (ilmu tata kata) adalah cabang ilmu bahasa yang mengidentifikasi
satuan-satuan dasar bahasa sebagai satuan makna yang dapat berubah-ubah
bergantung pada urutan kata, intonasi, bentuk, serta kata tugas penentu kalimat
(gramatikal). Morfologi dapat digunakan untuk mengidentifikasi jenis sebuah kata
bentukan dari kata dasar yang berimbuhan. Oleh karena itu morfologi juga
diperlukan untuk memprediksi jenis kata yang tidak ada di dalam kamus.
IV.2.1 Jenis Kata
Kata adalah satuan sintaksis (makna) dalam tutur atau kalimat. Penamaan jenis
kata mengacu pada Penn treebank yang juga digunakan oleh pengurai Collins
dengan penambahan jenis kata jika tidak ada pada Penn treebank [20] (misal
untuk jenis tanda baca, pada tesis ini menggunakan PU sedangkan pada pengurai
treebank
Pembelajaran
diuraikan menjadi struktur pohon dalam struktur program per kalimat
pembangkitan events
bootstrapping leksikon
file events
IV-5
Collins diberi tag yang sama dengan tanda baca itu). Daftar penamaan jenis kata
(tag) yang digunakan dalam tesis ini dapat dilihat pada Tabel IV-1.
Tabel IV-1 Penamaan Jenis Kata yang Digunakan
Simbol Jenis Kata Keterangan Contoh JJ Adjektiva Kata sifat; kata yang memberi penjelasan
tentang suatu benda cantik, baik, buruk
RB Adverbia Kata keterangan nanti, sekarang
AR Artikula Kata sandang si, sang
CC Konjungtor Koordinatif
Kata hubung yang menghubungkan klausa pada kalimat majemuk setara.
dan, lalu
CS Konjungtor Subordinatif
Kata hubung pada kalimat majemuk bertingkat
ketika, walaupun
MD Modal Kata Keterangan Modalitas boleh
PR Pronomina Kata ganti; kata yang dipakai untuk menggantikan kata atau yang dibendakan
saya, itu
WH Kata Tanya Kata yang digunakan untuk menanyakan sesuatu
siapakah, bagaimanakah
NN Nomina Kata benda; kata yang menyebut benda atau yang dibendakan
buku, meja, orang
CD Numeralia Kata bilangan; kata yang menyatakan jumlah benda atau jumlah kumpulan atau jurusan dari nama-nama benda
seribu
IN Preposisi Kata depan; kata yang merangkaikan kata-kata atau bagian-bagian kalimat
di, ke, dari
UH Interjeksi Kata seru ai, ah, ceile
RP Partikel Kata tugas partikel pun, per
VB Verba Kata kerja; kata yang bermakna melakukan aktivitas atau kegiatan, atau lebih jelas kalau dikatakan melakukan pekerjaan