Malay part of speech tagger: a comparative study on tagging tools

Bahasa Melayu merupakan bahasa aglutinatif yang kaya dengan morfologi bagi menerbit perkataan dengan makna selain daripada kata akar yang memberi kesan kepada perubahan golongan katanya. Korpus beranotasi Bahasa Melayu sukar didapati lantas belum ada penerbitan tentang perbandingan prestasi penand...

Full description

Bibliographic Details
Main Authors: Hassan Mohamed, Nazlia Omar, Mohd. Juzaiddin Ab. Aziz
Format: Article
Language:English
Published: Penerbit Universiti Kebangsaan Malaysia 2015
Online Access:http://journalarticle.ukm.my/8851/
http://journalarticle.ukm.my/8851/
http://journalarticle.ukm.my/8851/1/8326-23713-1-PB.pdf
Description
Summary:Bahasa Melayu merupakan bahasa aglutinatif yang kaya dengan morfologi bagi menerbit perkataan dengan makna selain daripada kata akar yang memberi kesan kepada perubahan golongan katanya. Korpus beranotasi Bahasa Melayu sukar didapati lantas belum ada penerbitan tentang perbandingan prestasi penandaan golongan kata (GK) mengguna kaedah Model Markov Tersembunyi (MMT), Entropi Maksimum (EM) dan Mesin Vektor Sokongan (MVS), terutamanya bagi melihat kesan morfologi Bahasa Melayu ke atas penandaan GK bagi perkataan anu. Kertas ini bertujuan membentang penilaian ketiga-tiga kaedah tersebut ke atas Bahasa Melayu. Tiga alatan penanda GK diguna yakni TnT mewakili MMT, MaxEnt mewakili EM dan SVMTool mewakili MVS. Bagi melengkapi latihan dan ujian bagi ketiga-tiga alatan tersebut, usaha menganotasi korpus Bahasa Melayu bagi domain kesihatan dilakukan. Alatan TnT diubah suai untuk memasukkan fitur imbuhan awalan serta apitan. Keputusan bagi seluruh eksperimen menunjukkan prestasi SVMTool mengatasi TnT dan MaxEnt bagi kejituan keseluruhan (99.23% untuk SVMTool, 94% untuk TnT dan 96% untuk MaxEnt) serta kejituan penandaan perkataan anu (96.78% untuk SVMTool, 67% untuk TnT dan 86.23% untuk MaxEnt). Keupayaan MaxEnt pula mengatasi TnT bagi kejituan keseluruhan serta kejituan penandaan perkataan anu. Ketepatan penandaan perkataan anu sebanyak 96.78% oleh SVMTool, menjadikan alatan tersebut sebagai yang tebaik pada ketika ini dalam penandaan GK Bahasa Melayu bagi domain spesifik.