Top Banner
IV-1 BAB IV PENENTUAN JENIS KATA (PART OF SPEECH TAGGING) UNTUK BAHASA INDONESIA Pada Bab IV ini akan dijelaskan mengenai proses-proses yang diperlukan dalam proses penentuan jenis kata (part of speech tagging) yang diambil dari kamus maupun yang tidak ada dalam kamus. Gambaran proses penentuan jenis kata dapat dilihat pada Gambar IV-1. Gambar IV-1 Proses Penentuan Jenis Kata jika tidak dapat diprediksi jika tidak ditemukan jika dapat diprediksi jika ditemukan mengambil data kata selanjutnya melihat jenis kata di dalam kamus memprediksi jenis kata dengan aturan morfologi memprediksi jenis kata dengan metode bigram kalimat yang mengandung kata yang akan ditentukan jenis katanya diambil per kata untuk ditentukan jenis katanya semua kata dalam kalimat masukan telah ditentukan jenis katanya memberikan tag jenis kata pada kata leksikon POS tagging grammar
13

BAB IV PENENTUAN JENIS KATA (PART OF SPEECH · PDF fileKoordinatif Kata hubung yang ... nomina) SBAR sub kalimat majemuk SBARQ sub kalimat setelah kata tanya ... Pola Imbuhan Contoh

Mar 01, 2018

Download

Documents

builien
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: BAB IV PENENTUAN JENIS KATA (PART OF SPEECH · PDF fileKoordinatif Kata hubung yang ... nomina) SBAR sub kalimat majemuk SBARQ sub kalimat setelah kata tanya ... Pola Imbuhan Contoh

IV-1

BAB IV PENENTUAN JENIS KATA (PART OF SPEECH TAGGING)

UNTUK BAHASA INDONESIA

Pada Bab IV ini akan dijelaskan mengenai proses-proses yang diperlukan dalam

proses penentuan jenis kata (part of speech tagging) yang diambil dari kamus

maupun yang tidak ada dalam kamus. Gambaran proses penentuan jenis kata

dapat dilihat pada Gambar IV-1.

Gambar IV-1 Proses Penentuan Jenis Kata

jika tidak dapat diprediksi

jika tidak ditemukan

jika dapat diprediksi

jika ditemukan

mengambil data

kata selanjutnya

melihat jenis kata di dalam kamus

memprediksi jenis kata dengan aturan morfologi

memprediksi jenis kata dengan metode bigram

kalimat yang mengandung kata yang akan ditentukan jenis katanya

diambil per kata untuk ditentukan jenis katanya

semua kata dalam kalimat masukan telah ditentukan jenis katanya

memberikan tag jenis kata pada kata

leksikon

POS tagging

grammar

Page 2: BAB IV PENENTUAN JENIS KATA (PART OF SPEECH · PDF fileKoordinatif Kata hubung yang ... nomina) SBAR sub kalimat majemuk SBARQ sub kalimat setelah kata tanya ... Pola Imbuhan Contoh

IV-2

Proses penentuan jenis kata akan dilakukan dalam tiga tingkat, tapi jika penentuan

jenis kata pada setiap tingkat telah berhasil maka tingkat selanjutnya tidak perlu

dialui. Tingkat yang pertama adalah melihat pada kamus yang telah disiapkan,

jika kata ada dalam kamus maka tag akan langsung diberikan pada kata, jika tidak

maka akan dilanjutkan ke proses tingkat berikutnya. Tingkat berikutnya adalah

memeriksa morfologi kata dan mencoba menentukan jenis kata menggunakan

aturan morfologi pada bahasa Indonesia. Jika kata dapat diprediksi maka hasil dari

tingkatan proses tersebut juga dapat digunakan untuk memperkaya kamus. Jika

kata masih belum bisa ditentukan jenis katanya maka pada tingkatan ketiga akan

digunakan metode bigram untuk memprediksi jenis kata. Jika kata dapat

diprediksi maka hasil dari bigram juga akan digunakan untuk memperkaya kamus.

Jika kata belum dapat diprediksi jenis katanya maka kata akan diberi label X

(unknown).

IV.1 Leksikon/Kamus

Proses POS tagging tidak akan berjalan tanpa adanya leksikon/kamus. Dipilih

berbasis kamus karena menurut penelitian yang dilakukan Fadillah Z. Tala (2003)

bahwa pemrosesan temu balik informasi POS tagging dan stemming untuk bahasa

Indonesia lebih baik berbasis kamus yang menghasilkan lebih sedikit kesalahan

dibanding berbasis aturan [26]. Kamus kata yang digunakan adalah kamus KEBI

(Kamus Elektronik Bahasa Indonesia) yang didapat dari ITB. KEBI merupakan

Kamus Bahasa Indonesia - Bahasa Inggris yang dikembangkan oleh Badan

Pengkajian dan Penerapan Teknologi (BPPT) yang boleh digunakan untuk

keperluan riset. Kamus ini mengandung 29.396 kata berbahasa Indonesia. Jenis

kata dalam kamus dikelompokkan menjadi lima belas jenis kata antara lain kata

sifat (adjektiva), kata keterangan (adverbia), kata sandang (dibedakan menjadi

determiner dan article), kata bantu (auxiliary), kata hubung (konjungsi), kata seru

(interjeksi), kata benda (nomina), kata bilangan (dibedakan menjadi numeral dan

ordinal), kata tugas partikel, kata fatis (kata yang menekankan seperti

assalamualaikum, bismillah), kata depan (preposisi), kata ganti (pronomina), dan

kata kerja (verba). Namun kamus KEBI tidak dapat langsung digunakan karena

Page 3: BAB IV PENENTUAN JENIS KATA (PART OF SPEECH · PDF fileKoordinatif Kata hubung yang ... nomina) SBAR sub kalimat majemuk SBARQ sub kalimat setelah kata tanya ... Pola Imbuhan Contoh

IV-3

harus diubah menjadi format leksikon pada pengurai Collins. Proses yang harus

dilakukan untuk mempersiapkan kamus antara lain:

Menghapus frase pada kamus (kamus KEBI juga memuat frase)

Mengurutkan kata pada kamus KEBI

Diubah formatnya menjadi

[kata] [jenis_kata] [klasifikasi]

misal menjadi

cangkul NN 0

dimana klasifikasi diisi dengan 0 jika kata termasuk jarang muncul

(dihitung probabilitasnya pada file treebank) dan diisi dengan 1 jika kata

tergolong sering muncul. Pengklasifikasian jarang atau sering muncul

dihitung secara probabilistik kemunculan kata saat proses pembelajaran

menggunakan treebank dengan nilai threshold yang ditentukan oleh

penulis yaitu 0.3.

Kamus ini akan menjadi kamus awal yang disiapkan dan akan terus diperkaya

seiring dengan banyaknya pohon kalimat pada treebank yang digunakan untuk

pembelajaran. Pada saat sistem melakukan pembelajaran maka akan digunakan

metode bootstrapping untuk memperkaya kamus seperti pada Gambar IV-2.

Bootstrapping dalam konteks tesis ini merupakan proses memperkaya leksikon

kamus dengan menggunakan treebank untuk menambah leksikon beserta jenis

katanya.

Page 4: BAB IV PENENTUAN JENIS KATA (PART OF SPEECH · PDF fileKoordinatif Kata hubung yang ... nomina) SBAR sub kalimat majemuk SBARQ sub kalimat setelah kata tanya ... Pola Imbuhan Contoh

IV-4

Gambar IV-2 Proses Memperkaya Kamus

IV.2 Morfologi Tata Bahasa Indonesia

Morfologi (ilmu tata kata) adalah cabang ilmu bahasa yang mengidentifikasi

satuan-satuan dasar bahasa sebagai satuan makna yang dapat berubah-ubah

bergantung pada urutan kata, intonasi, bentuk, serta kata tugas penentu kalimat

(gramatikal). Morfologi dapat digunakan untuk mengidentifikasi jenis sebuah kata

bentukan dari kata dasar yang berimbuhan. Oleh karena itu morfologi juga

diperlukan untuk memprediksi jenis kata yang tidak ada di dalam kamus.

IV.2.1 Jenis Kata

Kata adalah satuan sintaksis (makna) dalam tutur atau kalimat. Penamaan jenis

kata mengacu pada Penn treebank yang juga digunakan oleh pengurai Collins

dengan penambahan jenis kata jika tidak ada pada Penn treebank [20] (misal

untuk jenis tanda baca, pada tesis ini menggunakan PU sedangkan pada pengurai

treebank

Pembelajaran

diuraikan menjadi struktur pohon dalam struktur program per kalimat

pembangkitan events

bootstrapping leksikon

file events

Page 5: BAB IV PENENTUAN JENIS KATA (PART OF SPEECH · PDF fileKoordinatif Kata hubung yang ... nomina) SBAR sub kalimat majemuk SBARQ sub kalimat setelah kata tanya ... Pola Imbuhan Contoh

IV-5

Collins diberi tag yang sama dengan tanda baca itu). Daftar penamaan jenis kata

(tag) yang digunakan dalam tesis ini dapat dilihat pada Tabel IV-1.

Tabel IV-1 Penamaan Jenis Kata yang Digunakan

Simbol Jenis Kata Keterangan Contoh JJ Adjektiva Kata sifat; kata yang memberi penjelasan

tentang suatu benda cantik, baik, buruk

RB Adverbia Kata keterangan nanti, sekarang

AR Artikula Kata sandang si, sang

CC Konjungtor Koordinatif

Kata hubung yang menghubungkan klausa pada kalimat majemuk setara.

dan, lalu

CS Konjungtor Subordinatif

Kata hubung pada kalimat majemuk bertingkat

ketika, walaupun

MD Modal Kata Keterangan Modalitas boleh

PR Pronomina Kata ganti; kata yang dipakai untuk menggantikan kata atau yang dibendakan

saya, itu

WH Kata Tanya Kata yang digunakan untuk menanyakan sesuatu

siapakah, bagaimanakah

NN Nomina Kata benda; kata yang menyebut benda atau yang dibendakan

buku, meja, orang

CD Numeralia Kata bilangan; kata yang menyatakan jumlah benda atau jumlah kumpulan atau jurusan dari nama-nama benda

seribu

IN Preposisi Kata depan; kata yang merangkaikan kata-kata atau bagian-bagian kalimat

di, ke, dari

UH Interjeksi Kata seru ai, ah, ceile

RP Partikel Kata tugas partikel pun, per

VB Verba Kata kerja; kata yang bermakna melakukan aktivitas atau kegiatan, atau lebih jelas kalau dikatakan melakukan pekerjaan

mencoba, lempar, menari

AUX Kata bantu Kata bantu akan, dapat

FW Kata asing Kata asing download, notebook

PU Tanda baca Tanda baca ., , , :, (, ), “, ‘, ”, ’

SYM Simbol matematika

Simbol matematika +, #, $

X unknown Kata yang tidak dapat diprediksi jenis katanya

Page 6: BAB IV PENENTUAN JENIS KATA (PART OF SPEECH · PDF fileKoordinatif Kata hubung yang ... nomina) SBAR sub kalimat majemuk SBARQ sub kalimat setelah kata tanya ... Pola Imbuhan Contoh

IV-6

Jenis kata akan menjadi simbol terminal pada tesis ini. Penjelasan selengkapnya

mengenai jenis-jenis kata dapat dilihat di Lampiran 1. Simbol-simbol non

terminal yang digunakan pada tesis juga meliputi simbol yang menyatakan sub

kalimat atau frase (satuan makna yang terdiri lebih dari satu kata yang memiliki

jabatan tertentu pada kalimat). Simbol-simbol non-terminal untuk sub-

kalimat/frase yang digunakan dalam tesis ini dapat dilihat pada Tabel IV-2.

Tabel IV-2 Simbol Non Terminal

Simbol Keterangan

S Kalimat ADJP frase yang menyatakan sifat (frase

adjektiva)

ADVP frase yang menyatakan keterangan (frase adverbia)

NP frase yang menyatakan benda (frase nomina)

SBAR sub kalimat majemuk

SBARQ sub kalimat setelah kata tanya

VP frase yang menyatakan kerja (frase verba)

IV.2.2 Imbuhan

Imbuhan dalam bahasa Indonesia adalah tambahan yang melekat pada kata untuk

membentuk sebuah makna baru [21]. Imbuhan dapat digunakan untuk

memprediksi kata-kata yang tidak ada di dalam kamus. Imbuhan pada bahasa

Indonesia antara lain prefiks atau awalan, sufiks atau akhiran, infiks atau sisipan,

dan konfiks (imbuhan di depan dan di belakang kata dasar). Prefiks disebut juga

awalan. Prefiks adalah afiks (imbuhan) yang ditempatkan di bagian muka suatu

kata dasar. Kumpulan awalan yang ada dalam bahasa Indonesia dapat dilihat pada

Lampiran 2 berikut jenis kata yang dapat dibentuk dari awalan. Sufiks atau

akhiran adalah afiks (imbuhan) yang digunakan di bagian belakang kata.

Kumpulan akhiran yang ada dalam bahasa Indonesia dapat dilihat pada Lampiran

3 berikut jenis kata yang dapat dibentuk dari akhiran. Infiks atau sisipan adalah

Page 7: BAB IV PENENTUAN JENIS KATA (PART OF SPEECH · PDF fileKoordinatif Kata hubung yang ... nomina) SBAR sub kalimat majemuk SBARQ sub kalimat setelah kata tanya ... Pola Imbuhan Contoh

IV-7

afiks (imbuhan) yang diselipkan di tengah kata dasar. Infiks tidak digunakan pada

tesis ini karena sangat sulit mendeteksinya. Infiks yang ada pada bahasa Indonesia

misalnya –in-, -em-, -el-, dan –er-. Konfiks adalah afiks (imbuhan) yang ada di

depan dan di belakang kata dasar secara bersamaan. Kumpulan konfiks yang ada

dalam bahasa Indonesia dapat dilihat pada Lampiran 4 berikut jenis kata yang

dapat dibentuk dari konfiks. Kaidah bahasa Indonesia memiliki aturan imbuhan

yang akan membentuk suatu jenis kata. Aturan-aturan imbuhan yang ada dalam

bahasa Indonesia dapat dilihat pada Tabel IV-3.

Tabel IV-3 Aturan Imbuhan [21]

Pola Imbuhan Contoh Jenis Kata

meN + kata dasar (jenis kata bebas) + kan

mengantuk, mengkritik kata kerja (verba)

peN-ber + kata dasar (jenis kata bebas) + an

pelukis, pemburu kata benda (nomina)

ke-ber- + kata dasar (jenis kata bebas) + an

kebersamaan, keberterimaan

kata benda (nomina)

kata dasar (jenis kata kerja, kata benda, kata sifat) + i

terangi, sinari kata kerja (verba)

beR- + kata dasar becermin, beserta, berternak, bekerja

kata kerja (verba)

teR- + kata dasar terbawa, tertidur kata kerja (verba)

Penjelasan selengkapnya mengenai aturan imbuhan dan variasinya dapat dilihat

pada Lampiran 5.

IV.2.3 Pengulangan Kata

Pengulangan kata dalam bahasa indonesia dipisahkan dengan menggunakan tanda

hubung (-). Pengulangan juga dapat membentuk sebuah arti gramatikal (makna

yang berubah sesuai dengan kalimat) dari bentuk kata dasarnya. Pengulangan kata

dasar akan membentuk jenis kata sesuai dengan jenis kata jika tidak diulang misal

“cepat-cepat” memiliki kata dasar “cepat” yang berjenis kata keterangan maka

kata “cepat-cepat” akan berjenis kata keterangan. Contoh lain misalnya buku-

buku yang berarti kumpulan buku merupakan pengulangan dari kata dasar buku

yang merupakan kata benda maka buku-buku juga merupakan kata benda. Adapun

kata pengulangan yang merupakan satu kesatuan kata benda misal kupu-kupu,

Page 8: BAB IV PENENTUAN JENIS KATA (PART OF SPEECH · PDF fileKoordinatif Kata hubung yang ... nomina) SBAR sub kalimat majemuk SBARQ sub kalimat setelah kata tanya ... Pola Imbuhan Contoh

IV-8

laba-laba. Pengulangan juga dapat disertai imbuhan sehingga membentuk makna

gramatikal yang bisa berbeda dengan kata dasarnya. Aturan pengulangan

berimbuhan dalam bahasa Indonesia dapat dilihat pada Tabel IV-4.

Tabel IV-4 Aturan Pengulangan Kata Berimbuhan

Pola Contoh Jenis Kata

ke + kata dasar (jenis kata bebas)

yang diulang + an

kebarat-baratan kata benda (nomina)

ber + kata dasar yang diulang

(jenis kata kerja)

berlari-lari kata kerja (verba)

ber + kata dasar yang diulang

(jenis kata benda)

berlama-lama, berjam-

jam

kata keterangan

(adverbia)

kata dasar (jenis kata kerja) +

meN + kata dasar (jenis kata

kerja)

tanam-menanam kata kerja (verba)

se- + kata dasar + -nya secepat-cepatnya,

sepandai-pandainya,

sebaik-baiknya

kata sifat atau edjektiva

Pengulangan juga ada yang merupakan pengulangan berubah bunyi seperti bolak-

balik, sayur-mayur, gerak-gerik. Pengulangan ini akan dicari di kamus kedua

katanya, jika ada salah satu maka dapat simpulkan jenis katanya karena jenis

pengulangan ini akan membentuk kata sesuai kata asal yang diulang, tapi berubah

bunyi.

IV.2.4 Proses Pemeriksaan Imbuhan

Mengacu pada penelitian yang dilakukan oleh Femphy Piceldo dkk (2008) [22]

mengenai penganalisis morfologi pada bahasa Indonesia bahwa pemeriksaan

imbuhan pada sebuah kata memiliki urutan proses tertentu agar tidak terjadi

kesalahan pengenalan kata dilihat dari segi morfologi pada bahasa Indonesia. Pada

penelitian Femphy Piceldo [22], proses dimulai dengan memeriksa awalan kata.

Hasil kata dasar dari pemisahan awalan akan diperiksa di dalam kamus apakah

Page 9: BAB IV PENENTUAN JENIS KATA (PART OF SPEECH · PDF fileKoordinatif Kata hubung yang ... nomina) SBAR sub kalimat majemuk SBARQ sub kalimat setelah kata tanya ... Pola Imbuhan Contoh

IV-9

ada kata dasarnya, jika ada maka kata sudah dapat diprediksi jenis katanya dengan

hanya menggunakan awalan. Jika kata belum dapat diprediksi maka akan

diperiksa akhiran kata, dicari kata dasarnya beserta gabungan hasil proses

sebelumnya (apakah ada pengulangan atau awalan), jika ada di kamus maka kata

sudah dapat diprediksi jenis katanya. Jika kata tidak mengandung awalan maka

akan diperiksa apakah kata merupakan pengulangan kata dasar, jika benar maka

kata dasarnya diperiksa di kamus, jika ada maka kata dapat diprediksi jenis

katanya. Jika kata masih belum dapat diprediksi maka dilakukan pemeriksaan

apakah kata merupakan kata pengulangan berimbuhan dan dicoba mencari kata

dasarnya di kamus, jika ada maka kata dapat diprediksi jenis katanya. Untuk

semua tahapan pemeriksaan kata. jika hanya dengan menggunakan pola imbuhan

kata sudah dapat diprediksi maka tidak perlu mencari kata dasar di dalam kamus,

misal bila ada pola imbuhan tertentu yang digabungkan dengan kata dasar jenis

apapun akan membentuk suatu jenis kata tertentu.

Pada tesis ini akan ditambahkan beberapa proses pemeriksaan untuk menentukan

jenis kata, misalnya seperti pemeriksaan apakah kata termasuk kata singkatan

yang ditandai dengan huruf besar semua, kata singkatan akan diberi label NN

yang berarti kata benda, atau apakah kata termasuk kata bilangan jika ada karakter

berupa angka pada kata, atau apakah kata termasuk kata nama yang ditandai

dengan penulisan huruf besar di awal kata, kata nama diberi label NN yang berarti

kata benda. Urutan proses yang harus dilakukan untuk menganalisis morfologi

pembentukan kata pada bahasa Indonesia dapat dilihat pada Gambar IV-3.

Penjelasan mengenai struktur data dan format penulisan file untuk keperluan POS

tagging menggunakan aturan morfologi yang digunakan pada tesis ini dapat

dilihat pada Lampiran 14.

Page 10: BAB IV PENENTUAN JENIS KATA (PART OF SPEECH · PDF fileKoordinatif Kata hubung yang ... nomina) SBAR sub kalimat majemuk SBARQ sub kalimat setelah kata tanya ... Pola Imbuhan Contoh

IV-10

Gambar IV-3. Urutan Proses Prediksi Jenis Kata dengan Morfologi

IV.3 Prediksi Jenis Kata dengan Metode Bigram

Model N-gram adalah sebuah tipe model probabilistik untuk memperkirakan

elemen selanjutntya pada sebuah urutan. N-gram digunakan untuk berbagai area

statistik dari pemrosesan bahasa alami dan analisis urutan genetik. Sebuah n-gram

adalah sebuah sub-urutan dari sejumlah n elemen dari urutan yang diberikan.

Elemen dapat berupa fonem, huruf, kata tergantung dari kebutuhan aplikasi [27].

jika belum dapat diprediksi jenis katanya

jika belum dapat diprediksi jenis katanya

jika belum dapat diprediksi jenis katanya

jika belum dapat diprediksi jenis katanya

jika belum dapat diprediksi jenis katanya

jika sudah dapat diprediksi

jika belum dapat diprediksi jenis katanya

jika belum dapat diprediksi jenis katanya

jika belum dapat diprediksi jenis katanya

jika sudah dapat diprediksi jenis katanya

kata

Pemeriksaan awalan saja untuk mendapatkan kata dasarnya

Pemeriksaan akhiran

Pemeriksaan pengulangan

Penyimpulan tag (jenis kata)

tag (jenis kata) memprediksi jenis kata dengan metode bigram

Pemeriksaan kata bilangan

Pemeriksaan kata singkatan

Pemeriksaan awalan dan akhiran

Pemeriksaan kata nama

Page 11: BAB IV PENENTUAN JENIS KATA (PART OF SPEECH · PDF fileKoordinatif Kata hubung yang ... nomina) SBAR sub kalimat majemuk SBARQ sub kalimat setelah kata tanya ... Pola Imbuhan Contoh

IV-11

Model bigram adalah model n-gram yang hanya melibatkan dua buah elemen.

Model bigram menggunakan teorema bayes dalam perhitungannya yaitu:

P(Wn|Wn-1) = )(

),(

1

1

n

nn

WP

WWP (IV-1)

dimana P adalah probabilitas kata yang diberikan oleh kata sebelumnya. Sebuah

kalimat akan memiliki probabilitas sebagai berikut:

)|()( 1

11

k

n

k

kn wwPwP (IV-2)

sehingga jika probabilitas bigram diterapkan pada sebuah kalimat “I want to eat

Chinese food” maka probabiltasnya adalah sebagai berikut:

P(I want to eat Chinese food) = P(I | <start>) *

P(want | I) *

P(to | want) *

P(eat | to) *

P(Chinese | eat) *

P(food | Chinese) (IV-3)

Metode bigram yang digunakan pada tesis ini menggunakan dua buah jenis aturan

grammar untuk mencari jenis kata. Aturan grammar yang pertama adalah aturan

grammar yang memiliki simbol jenis kata sama dengan kata di depan kata yang

dicari jenis katanya, sedangkan jenis aturan grammar kedua adalah aturan

grammar yang memiliki simbol jenis kata sama dengan kata di belakang kata

yang dicari jenis katanya. Misalnya kata yang akan dicari jenis katanya adalah

“guru” dalam kalimat “Bapak guru menulis di papan tulis” maka aturan grammar

yang akan dihitung probabilitasnya adalah aturan grammar yang memenuhi hal-

hal berikut:

Page 12: BAB IV PENENTUAN JENIS KATA (PART OF SPEECH · PDF fileKoordinatif Kata hubung yang ... nomina) SBAR sub kalimat majemuk SBARQ sub kalimat setelah kata tanya ... Pola Imbuhan Contoh

IV-12

Aturan grammar memiliki simbol awal yang sama dengan tag kata

sebelum kata yang dicari, misal

NP → NN NN

NN yang pertama sama dengan tag kata “Bapak” maka aturan grammar ini

masuk dalam kumpulan grammar yang akan dihitung probabilitasnya,

Aturan grammar memiliki simbol akhir yang sama dengan tag kata setelah

kata yang dicari, misal

VP → JJ VB

VB sama dengan tag kata “menulis” maka aturan grammar ini masuk

dalam kumpulan grammar yang akan dihitung probabilitasnya

Misalkan ada aturan grammar

NP → NN NN

VP → NN VB

maka aturan VP → NN VB tidak akan dimasukkan pada kumpulan aturan

grammar yang akan dihitung probabilitasnya karena memiliki kesimpulan

tag yang sama untuk kata yang dicari tag-nya (NN), tapi kemunculan

aturan grammar kedua akan dimasukkan dalam jumlah kemunculan aturan

grammar pertama.

Aturan grammar pada pengurai Collins ditulis dengan aturan triple. Aturan

penulisan aturan grammar pada pengurai Collins dapat dilihat pada Lampiran.7

dan Lampiran 13.

Perhitungan akan dilakukan dengan menggunakan probabilitas. Pada kumpulan

aturan grammar yang terpilih akan dipilih probabilitas yang paling besar.

Perhitungan probabilitas aturan grammar dihitung dengan menggunakan rumus

berikut:

P(untuk tag kata yang dicari) =

)(

)(

bahasatatapolajumlah

dicariyangkatauntukNNbagianmemilikiyangbahasatatapolajumlah

(IV-4)

Page 13: BAB IV PENENTUAN JENIS KATA (PART OF SPEECH · PDF fileKoordinatif Kata hubung yang ... nomina) SBAR sub kalimat majemuk SBARQ sub kalimat setelah kata tanya ... Pola Imbuhan Contoh

IV-13

Pola yang memiliki probabilitas terbesar akan digunakan untuk pelabelan pada

kata yang dicari jenis katanya. Secara garis besar proses perhitungan probabilistik

bigram pada tesis ini seperti pada Gambar IV-4.

Gambar IV-4 Urutan Proses Prediksi Jenis Kata dengan Metode Bigram

kalimat yang mengandung kata yang tidak bisa diprediksi kelas katanya

periksa kata di depan dan di belakang kata yang tidak dapat diprediksi kelas katanya

cari pola tata bahasa/aturan grammar yang mengandung simbol jenis kata di depan kata yang akan diprediksi jenis katanya

cari pola tata bahasa/aturan grammar yang mengandung simbol jenis kata di belakang kata yang akan diprediksi jenis katanya

memberikan tag pada kata yang tidak diketahui jenis katanya berdasarkan aturan grammar yang memiliki probabilitas terbesar

kelas kata/tag