Berkenalan dengan Rule-Based Machine Translation

Pernahkah Anda menggunakan Google Translate, Bing Translator, atau BabelFish? Mengapa Anda memilih untuk menggunakan aplikasi tersebut? Secara sederhana, Anda ingin mencoba menemukan makna dari bahasa asing dengan cara yang lebih efisien, bukan? Oleh karena itu, motivasi dari penggunaan aplikasi penerjemah tersebut sangatlah sederhana. Aplikasi tersebut memudahkan Anda ketika berada di tempat asing dimana hampir tidak ada orang yang berbicara dalam bahasa Anda. Yang perlu Anda lakukan adalah mengetikkan kalimat dalam bahasa asing tertentu kemudian Anda mendapatkan kalimat dalam bahasa yang Anda mengerti. Sebagai tambahan, Anda bahkan tidak perlu membuka kamus konvensional, menemukan indeks yang cocok, dan melakukan pencarian terhadap baris demi baris sampai menemukan kata yang Anda cari. Walau demikian, yang menjadi pertanyaan menariknya adalah bagaimana teknologi machine translation ini bekerja.

Machine translation terbagi ke dalam tiga kategori, yaitu Rule-Based Machine Translation (RBMT), Statistical Machine Translation (SMT) dan hybrid systems – kombinasi antara RBMT dan SMT[1]. Pada artikel ini hanya akan dibahas cara kerja umum dari RBMT.

Definisi

Rule-Based Machine Translation menggunakan kumpulan aturan (rules) yang mendefinisikan proses penerjemahan suatu teks dari sebuah bahasa ke dalam bahasa lain. Kumpulan aturan tersebut biasanya dibuat oleh pakar linguistik, sehingga hasil penerjemahan bergantung kepada kemampuan yang dimiliki oleh pakar. Kumpulan aturan tersebut meliputi beberapa aspek bahasa mulai dari morfologis, sintaksis, sampai semantik[1].

Operasi Umum 

Translation berarti mengambil sebuah kalimat dalam sebuah bahasa (bahasa sumber) dan menghasilkan sebuah kalimat baru dalam bahasa lain (bahasa target) yang memiliki makna sama. Machine memberikan arti bahwa proses penerjemahan dilakukan oleh sistem / perangkat lunak dan bukan manusia. Secara umum, perangkat lunak machine translation (MT) bekerja dengan cara mengimplementasikan alur kerja berikut[2]:

  • Input Phase
    • Source Text
    • Deformatting
    • Pre-editing
  • Analysis Phase
    • Morphological Analysis
    • Syntax Analysis
    • Semantic Analysis
  • Representation Phase
    • Internal Representation of Source Language
    • Transfer to Internal Representation of Target Language
  • Generation Phase
    • Syntax Generation
    • Semantic Generation
  • Output Phase
    • Reformating
    • Post-editing
    • Target Text

Mari kita bahas setiap tahap tersebut secara lebih rinci.

Input Phase

Ini adalah tahap dimana sistem MT menerima bahasa sumber yang mengandung dua buah bagian, yaitu bagian yang dapat diterjemahkan (translation materials) dan yang tidak dapat diterjemahkan (non-translation materials). Bagian yang tidak dapat diterjemahkan misalnya diagram, gambar, dan elemen apapun yang tidak memerlukan proses penerjemahan. Sementara itu, bagian yang dapat diterjemahkan berupa teks dan suara. Khusus untuk input berupa suara, maka perlu dilakukan proses konversi sinyal suara ke dalam teks terlebih dahulu. Teks yang dihasilkan akan menjadi input bagi sistem MT. Proses konversi ini dinamakan dengan Automatic Speech Recognition (ASR)[3].

Setelah itu, sistem MT akan melakukan proses deformatting terhadap teks sumber, dimana sistem mengeliminasi semua bagian dari teks sumber yang tidak memerlukan penerjemahan. Proses ini mengembalikan sebuah teks sumber yang hanya mengandung bagian teks yang memerlukan penerjemahan[2].

Walau demikian, teks sumber yang dihasilkan belum tentu merupakan kalimat yang efektif, dimana teks sumber masih memiliki ukuran yang terlalu panjang, ada beberapa kata yang diulang, kalimat yang bertele-tele, dan sebagainya. Permasalahan tersebut dapat ditangani dengan cara melakukan segmentasi terhadap teks sumber ke dalam teks yang lebih pendek dimana semantik (makna) yang dikandungnya masih sama. Proses ini disebut sebagai pre-editing dan akan mengembalikan teks sumber baru yang selanjutnya akan dikirimkan kepada tahap text analyzer.

Analysis Phase

Pada tahap ini, kita sudah mendapatkan teks sumber yang sudah di pre-processed dan siap untuk dianalisis strukturnya. Proses analisis teks mempertimbangkan beberapa aspek, yaitu morfologi, sintaks, dan semantik.

Menurut Wikipedia, definisi dari morfologi adalah sebagai berikut:

Morphology is the study of words, how they are formed, and their relationship to other words in the same language. It analyzes the structure of words and parts of words, such as stems, root words, prefixes, and suffixes.

Baca juga:

Berdasarkan definisi di atas, secara sederhana analisis morfologi menentukan atribut-atribut yang dimiliki suatu kata (elemen-elemen pembentuk kata, seperti stems, root words, dan sebagainya) dan struktur (barisan kelas kata, prefix, suffix, dan sebagainya)[2]. Atribut dan struktur suatu kalimat menjadi pertimbangan ketika kita ingin menerjemahkan suatu bahasa sumber ke dalam bahasa target yang memiliki morfologi berbeda. Lebih jauh lagi, kita dapat menggunakan hasil dari analisis morfologi untuk membangun sebuah kalimat baru dalam bahasa target yang memiliki tata bahasa yang benar.

Tahap analisis selanjutnya adalah analisis sintaks. Secara umum, analisis terhadap sintaks bertujuan untuk menentukan aturan struktural yang mengatur komposisi dari klausa, frasa, dan kata-kata dalam suatu teks. Sebuah contoh dari komposisi kalimat adalah bahwa kalimat memiliki tata bahasa yang tersusun dari subjek, predikat, dan objek[2]. Analisis sintaks mencoba menemukan tipe komposisi berdasarkan hasil kelas kata (part of speech) yang ditentukan oleh analisis morfologi. Selain itu, analisis sintaks juga menggunakan teknik parsing untuk mendapatkan komposisi dari suatu kalimat dalam bentuk pohon sintaks.

Tahap analisis terakhir adalah analisis semantik. Dalam tahap ini, semantik dapat dipandang sebagai struktur dan makna dari suatu teks. Sistem MT akan mencoba untuk memahami objektif yang dikandung suatu kalimat dan membangun interpretasi yang sesuai terhadap model objektif kalimat tersebut. Pembangunan interpretasi dilakukan dengan memanfaatkan informasi struktural yang didapat dari tahap analisis sintaks. Model objektif adalah jaringan semantik dimana ketika digabungkan dengan pohon sintaks akan didapatkan struktur internal (inti) dari sebuah kalimat[2].

Representation Phase

Tahap ini terdiri dari 2 bagian, yaitu Internal Representation of Source Language dan Transfer to Internal Representation of Target Language[2]. Seperti yang sudah dijelaskan sebelumnya bahwa kita akan mendapatkan sebuah struktur internal dari sebuah kalimat (mengandung aspek sintaks dan semantiknya) ketika kita menggabungkan pohon sintaks dan jaringan semantik. Hasil ini memberikan informasi bahwa setiap jenis bahasa (bahasa sumber dan target) memiliki struktur internal nya masing-masing. Struktur internal tersebut menjadi prinsip dasar dalam membangun sebuah kalimat. Oleh karena itu, tahap ini mengambil struktur internal dari bahasa sumber yang dihasilkan pada tahap analisis, kemudian membanguan sebuah struktur internal baru untuk bahasa target. Struktur internal bahasa target tersebut menjadi bentuk dasar untuk menghasilkan kalimat dalam bahasa target.

Generation Phase

Ketika kita melakukan proses analisis, aktivitas utama yang dilakukan adalah melakukan pemeriksaan terhadap aspek morfologi untuk menentukan atribut-atribut kalimat, aspek sintaks untuk melihat komposisi kalimat, dan aspek semantik untuk memahami objektif dari kalimat[2]. Pada tahap ini kita sudah mendapatkan bentuk dasar yang berupa struktur internal dari bahasa target. Kita juga sudah mengetahui cara untuk membangun komposisi dan memeriksa makna keseluruhan (untuk memastikan bahwa tata bahasanya sudah benar) secara bersamaan. Hal terakhir yang perlu dilakukan adalah menggunakan struktur internal dari bahasa target untuk membangkitkan teks kalimat.

Bahasa memiliki dua buah bagian, yaitu sintaks dan semantik. Hal tersebut menunjukkan bahwa kita perlu membangkitkan kedua buah aspek tersebut untuk mendapatkan teks kalimat dalam suatu bahasa target. Kita dapat menggunakan pohon sintaks untuk membangun komposisi kalimat, serta jaringan semantik untuk membangun objektif kalimat.

Output Phase

Tahap ini merupakan tahap terakhir dalam alur kerja machine translation. Pada tahap ini kita sudah mendapatkan bahasa target dalam bentuk teks kalimat. Namun demikian, perlu diingat bahwa teks kalimat pada tahap awal masih memiliki kemungkinan untuk mengandung bagian-bagian yang tidak perlu diterjemahkan. Oleh karena itu, diperlukan adanya proses reformatting terhadap teks kalimat sehingga hanya mengandung bagian-bagian yang dapat diterjemahkan.

Setelah itu, kita perlu memastikan bahwa kualitas kalimat hasil penerjemahan memiliki status yang baik. Proses ini dilakukan setelah proses reformatting dilakukan karena sistem MT perlu menyeimbangkan aspek sintaks dan semantik dari teks kalimat yang sudah diterjemahkan.

Setelah tahap ini, proses penerjemahan selesai.

Referensi

[1] O’Dowd, T. 2014. RBMT vs SMT. https://kantanmtblog.com/2014/02/13/rbmt-vs-smt/ (Accessed on February 12nd, 2018)

[2] Robin,. 2010. Machine Translation Process. http://language.worldofcomputing.net/machine-translation/machine-translation-process.html (Accessed on January 24th, 2018)

[3] Zajechowski, M. 2014. Automatic Speech Recognition (ASR) Software – An Introduction. https://usabilitygeek.com/automatic-speech-recognition-asr-software-an-introduction/ (Accessed on February 12nd, 2018)

Artikel Berhubungan:

Sponsor Warstek.com:
Albertus Kelvin

Albertus Kelvin

A student majoring in Computer Science at Bandung Institute of Technology (ITB). Doing research on the powerful combination of NLP and Program Synthesis is one of my hobbies

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *