Penentuan fitur bagi pengekstrakan tajuk berita akhbar bahasa Melayu
Ringkasan tajuk berita (headline) adalah salah satu teknik ringkasan teks automatik yang boleh mengurangkan masalah kebanjiran maklumat dalam sistem capaian. Teknik ini berupaya mengurangkan beban kognitif pengguna semasa meneliti dan memilih dokumen relevan dalam kuantiti yang besar. Keupayaan t...
Main Authors: | , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Penerbit Universiti Kebangsaan Malaysia
2018
|
Online Access: | http://journalarticle.ukm.my/13777/ http://journalarticle.ukm.my/13777/ http://journalarticle.ukm.my/13777/1/25393-76333-2-PB.pdf |
Summary: | Ringkasan tajuk berita (headline) adalah salah satu teknik ringkasan teks automatik yang
boleh mengurangkan masalah kebanjiran maklumat dalam sistem capaian. Teknik ini
berupaya mengurangkan beban kognitif pengguna semasa meneliti dan memilih dokumen
relevan dalam kuantiti yang besar. Keupayaan teknik ini dipengaruhi oleh ciri-ciri sistem
bahasa tabii yang mewakili maklumat dalam dokumen. Kajian ini membincangkan proses
dalam penentuan ciri-ciri sistem bahasa Melayu pada dokumen genre berita. Metodologi
kajian dimulai dengan analisis ke atas korpus dokumen berita bahasa Melayu. Korpus ini
mengandungi 140 dokumen berita teras yang dipilih daripada dua pangkalan data berita arus
perdana di Malaysia iaitu Berita Harian dan Utusan Malaysia. Kriteria pemilihan adalah
kategori berita teras, bersaiz 50 hingga 250 perkataan, dengan tahun penerbitan dari 2007
hingga 2012 dan genre berita adalah ekonomi, jenayah, pendidikan dan sukan. Tiga pakar
linguistik bahasa Melayu menghasilkan satu ringkasan tajuk berita bagi setiap dokumen
berita secara manual. Ketiga-tiga pakar linguistik ini perlu mematuhi tiga syarat iaitu
ringkasan dilakukan secara pengekstrakan, teknik pemilihan perkataan secara select-wordinorder
dan perubahan morfologi perkataan. Hasil eksperimen menunjukkan tiga fitur telah
dikenal pasti iaitu, pertama: dua ayat pertama adalah calon sesuai ayat terpenting, kedua: ayat
mengandungi takrifan akronim berpotensi sebagai ayat terpenting dan ketiga: saiz ringkasan
tajuk berita ideal adalah enam perkataan. Pertimbangan fitur ini membolehkan ringkasan
tajuk berita dijana secara automatik yang lebih mirip seperti dilakukan oleh manusia. |
---|