Pages

26 April 2011

Parsing Sintaksis Bahasa Indonesia dengan Metode Bottom-Up Left to Right

Bahasa alami adalah bahasa yang biasa digunakan untuk berkomunikasi antarmanusia, misalnya bahasa Indonesia, Sunda, Jawa, Inggris, Jepang, dan sebagainya. Bahasa alami ini merupakan suatu bentuk representasi dari suatu pesan yang ingin dikomunikasikan antarmanusia. Bentuk utama representasinya adalah suara/ucapan (spoken language), tetapi sering pula dinyatakan dalam bentuk lisan (Arman, 2004)
            Pemrosesan Bahasa Alami (Natural Language Processing) adalah studi tentang bahasa manusia dan bagaimana bahasa-bahasa tersebut direpresentasikan secara komputasional, dianalisa, dikenali, serta digenerasikan secara algoritmik (Krisnawati, 2006). Sejak paradigma dasarnya mulai dikembangkan sekitar tahun 1940 hingga sekarang, perkembangan teori, metode, serta pengembangan aplikasi NLP terus mengalami kemajuan. Hal ini memungkinkan teknologi Pemrosesan Bahasa Alami sebagai pendekatan baru dalam interaksi manusia dengan komputer.
Aplikasi-aplikasi Pemrosesan Bahasa Alami yang telah ada antara lain Machine Translation (Alshawi, 1996), Speech Synthesis from Parse (Prevost, 1996), Speech Recognition Using Parsing (Chelba et al, 1998), Grammar Checking (Microsoft), Indexing for Information Retrieval (Woods, 1997), Information Extraction (Hobbs, 1996) serta aplikasi yang marak dikembangkan akhir-akhir ini, Semantic Web (Berners-Lee, 1998).
Begitu banyak aplikasi bahasa alami yang telah dikembangkan dalam berbagai bahasa khususnya bahasa Inggris, namun aplikasi pengolah bahasa yang menerapkan bahasa Indonesia belum berkembang. Berbeda dengan kebanyakan sistem lain yang bersifat generik, teknik-teknik yang digunakan dalam Pemrosesan Bahasa Alami bersifat language dependent. Suatu sistem atau teknik yang berlaku untuk suatu bahasa tidak mudah diterapkan untuk bahasa lainnya.
            Pemrosesan Bahasa Alami bertujuan untuk memahami arti dari input yang diberikan dalam bahasa alami dan memberikan respon yang sesuai. Untuk mencapai tujuan ini dibutuhkan tiga tahap proses. Proses yang pertama ialah parsing atau analisa sintaksis yang memeriksa kebenaran struktur kalimat berdasarkan suatu tata bahasa dan kosakata tertentu. Proses kedua ialah semantic interpretation atau intepretasi semantik yang bertujuan untuk merepresentasikan arti dari kalimat secara context-independent untuk keperluan lebih lanjut. Sedangkan proses yang ketiga ialah contextual interpretation atau interpretasi kontekstual yang bertujuan untuk merepresentasikan arti secara context-dependent dan menentukan maksud dari penggunaan kalimat. Penelitian ini membahas proses yang pertama.
Sebuah parser merupakan sarana pendukung yang dapat diimplementasikan dalam berbagai aplikasi pengolah bahasa supaya aplikasi tersebut memiliki pendekatan tata bahasa yang benar sehingga akan menghasilkan hasil yang baik sesuai fungsi masing-masing aplikasi karena proses parsing sebuah kalimat melibatkan penggunaan pengetahuan linguistik dari suatu bahasa untuk menemukan cara kalimat itu dibentuk (Schmidt, 1998).
Satu contoh aplikasi yang menunjukkan adanya kebutuhan akan pendekatan linguistik dalam pengolah bahasa Indonesia adalah Transtool, aplikasi penterjemah Inggris-Indonesia. Aplikasi ini belum cukup baik karena hanya melakukan pendekatan statistik dengan menghitung jumlah kata sebelum diterjemahkan dengan jumlah kata setelah diterjemahkan. Hasilnya, kalimat terjemahannya terkadang menjadi salah dan tidak sesuai dengan tata bahasa Indonesia.
Dalam rangka penyediaan sarana pendukung berbagai aplikasi pengolah bahasa, maka suatu parser bahasa Indonesia diperlukan keberadaannya. Pada penelitian ini, parser yang dibangun menggunakan metode Bottom-up Left to Right. Berawal dari input berupa berkas teks bahasa Indonesia dengan ekstensi .txt. Pada tahap awal, dilakukan pemotongan suatu paragraf menjadi per kalimat. Setelah itu dilakukan normalisasi dan tokenisasi per kalimat. Token yang terbentuk dari setiap kalimat selanjutnya diproses satu demi satu mulai dari yang paling kiri. Proses terjadi per level dalam struktur kalimat, setiap kata diberi label kelas kata, lalu dikonversikan dengan label yang telah dirumuskan dalam kamus aturan untuk membentuk level demi level gramatikal dalam kalimat. Hasil yang diperoleh divisualisasikan dalam bentuk parse tree.

Pada penelitian ini, isi leksikon berjumlah 31.096 kata dan isi Kamus Aturan berjumlah 359 aturan. Parser berhasil menguraikan 74,28% atau sebanyak 52 kalimat dari 70 kalimat yang diujicobakan. 25,72% kalimat tidak dapat diuraikan karena jumlah aturan yang masih perlu penambahan lebih lagi. Selain itu, kompleksnya tata bahasa Indonesia menuntut adanya pengembangan lebih lanjut untuk mengatasi kurangnya fleksibilitas metode ini.

5 comments:

  1. terima kasih infonya.

    berarti kalo contoh yang buat sekarang kayak ggogle translate ya ?

    ReplyDelete
    Replies
    1. Hai Ulli, kalau Google translate sepertinya masih berbasis statistikal ya, kamu bisa cari tahu pastinya. Untuk beberapa bahasa mungkin Google translate sudah bagus, tetapi belum tentu dalam bahasa Indonesia karena memang sangat languange dependent, coba-coba saja uji dengan memasukkan macam-macam tipe kalimat dalam Bahasa Indonesia...nanti kamu bisa amati hasilnya.

      Pastinya, kompleksitas dan kelengkapan rules yang digunakan itu bisa saja mendukung suatu aplikasi penerjemah menjadi baik tetapi tidak berarti rules yang digunakan itu menggunakan pendekatan linguistik. Rules-based sangat banyak kekurangannya.

      Dan dalam penelitianku itu, idenya ingin menyampaikan bahwa sangat baik jika pendekatan linguistik-lah yang digunakan supaya hasilnnya bisa sangat akurat (sudah bagus) dan kontekstual (sangat bagus jika bisa) tetapi untuk membuatnya tentu sulit karena paling tidak ada 3 layer yang harus dilewati yaitu analisa sintaksis, intepretasi semantik, intepretasi kontekstual. Masing-masing punya tingkat "njelimet" sendiri. Dan seperti yang kamu tahu bahwa penelitian ini pun hanya mengkaji ranah sintaksis.

      Jika kamu ingin mengembangkan penelitian untuk layer berikutnya, wah bagus...tapi hati-hati dengan batasan masalahmu, bahasa Indonesia kita yg tercinta ini tidak mudah, salah-salah bisa lama skripsinya hehehe...

      Salam

      Delete
  2. mas,mau nanya...ini TA nya udah selesai??

    ReplyDelete
  3. iya, Mas Kukuh, sudah selesai 2 tahun lalu :)

    ReplyDelete
  4. apakah file laporannya masih ada?
    bolehkan sy minta sebagai bahan referensi?
    mengingat pembahasan mengenai hal ini gag banyak di Internet :)

    ReplyDelete