Google Duplex: Juru Bicara Layaknya Manusia

Oleh: Ukasya Hamid

Bayangkan kalian bekerja di penerima pesanan di sebuah restoran di ibukota. Kalian sedang menyiapkan barang-barang untuk memulai shift malam kemudian masuk panggilan telepon yang isinya membooking kursi untuk dua orang untuk malam besok. Lalu, kalian ternyata tahu bahwa yang menelepon kalian bukanlah manusia. Seram bukan? Tenang, kalau bukan manusia belum tentu setan atau jin kok yang menelepon kalian karena bisa jadi yang menelepon kalian adalah Duplex, program terbaru yang diluncurkan Google pada Google I/O 2018.

Apa itu Google Duplex?

Google Duplex pada dasarnya adalah program perluasan dari Google Assistant yang memungkinkan Google untuk membuat panggilan telepon kepada manusia sungguhan ketika kalian memerintahkannya. Bukan perintah sembarangan yang bisa ditugaskan kepada Duplex melainkan hanya perintah spesifik seperti mengatur jadwal pangkas rambut atau memesan kursi di restoran favorit kalian. Hal yang menarik dari Duplex adalah kemampuannya yang bisa bercakap secara natural seperti manusia sungguhan dengan nyaman tanpa kalian merasa berbicara dengan mesin.

Duplex merupakan tahapan lanjut dari Wavenets, yaitu program kemampuan berbicara buatan yang bekerja dengan menggabungkan unit suara yang sangat pendek secara bersamaan untuk dapat berbicara [1]. Wavenets memiliki kemampuan jika kita tidak menulis apapun untuk wavenets katakan maka ia mencoba berbicara sendiri dengan meniru vokal asli dari manusia seperti adanya suara bibir dan hembusan napas. Inilah yang terus dikembangkan hingga Duplex bisa berbicara natural layaknya manusia sungguhan.

Tantangan yang harus dihadapi Google Duplex

Cobalah kalian menelepon teman dekat SMA kalian untuk membuat janji misalnya buka puasa bersama di sebuah restoran, dalam percakapan tersebut tanpa kalian sadari banyak tingkah laku khusus yang dilakukan manusia sungguhan ketika sedang bertelepon. Kita bisa berbicara lebih cepat, Mengoreksi omongan kita di tengah percakapan, memakai intonasi yang berbeda serta pemakaian kalimat kompleks yang sering kita pakai di berbagai kondisi.

Contohnya seperti percakapan di atas di mana frase sederhana seperti “OK for 4”  bisa memiliki makna jamak yaitu bisa mengacu kepada waktu dan juga bisa kepada kuantitas orang [2]. Hal ini bagi manusia sungguhan seperti kita adalah hal sehari-hari yang kita selesaikan tanpa kesulitan yang berarti tetapi bagaimana dengan Duplex?

Untuk bisa berbicara natural seperti percakapan di atas adalah keistimewaan sekaligus menjadi tantangan sendiri bagi periset dari Google, percakapan real oleh manusia asli memiliki tingkah laku tersendiri yang harus dipelajari oleh Duplex dengan berbagai bentuk pengembangan riset dan teknologi. Belum lagi Duplex juga harus menangani masalah umum kita ketika bertelepon seperti kualitas suara yang buruk dari telepon atau suara-suara gangguan yang masuk saat bercakap.

Bagaimana Duplex bekerja?

Duplex bekerja menggunakan sesuatu yang kita sebut sebagai RNN (Recurrant Neural Network), salah satu jenis Neural Network. Seperti namanya, Neural Network terinspirasi dari sistem kerja saraf. Neural Network terdiri dari input dan output layers serta layer tersembunyi yang mengubah input menjadi sesuatu yang ouput layer bisa gunakan. [3]

RNN adalah tipe Neural Network yang mempunyai memori internal yang kecil serta bisa mengalir dalam ‘multiple direction’ yang membuatnya bisa mengingat input secara spesifik untuk membantu memahami konteks sehingga sangat cocok digunakan untuk pengenalan suara.

Baca juga:

Percakapan dimulai dengan suara analog yang kemudian isi percakapan dan bentuk audionya masuk ke dalam sistem pengenalan suara otomatis dari Google. Mulai dari tahap ini audio dikenali sebagai teks, teks ini kemudian diubah menjadi format di mana sistem neural network bisa mengerti, lalu masuk ke sistem tersebut. Informasi lain seperti waktu booking, pesanan untuk berapa orang dan informasi lain sesuai permintaan juga dimasukkan ke dalam sistem. Di dalam sistem mereka kemudian “diikat” dan neural networks mendengarkan seluruh rekaman ponsel yang telah dilatih sebagai input untuk memilih respon terbaik yang dikeluarkan di percakapan. Respon tersebut dikeluarkan setelah melewati TTS engine (menggunakan wavenet) untuk mengontrol intonasi tergantung keadaan agar lebih realistis.

Dengan teknologi mutakhir tersebut, Duplex bisa melakukan hal-hal menarik seperti:

  • Menangani interupsi
  • Memerincikan infromasi
  • Merespon ketika dalam situasi berbarengan

Manfaat Google Duplex

Selain membuat jadwal pertemuan dan mem-booking tempat, Duplex menawarkan manfaat lain yang berguna bagi para pebisnis dan juga pengguna biasa yang ingin menanyakan informasi yang tidak tercantum di laman online seperti jam operasi ketika hari libur sehingga pengguna lebih mudah mendapatkan informasi dan bisnis pun akan terus berjalan.

Bagi pengguna, Duplex membuat tugas pembantuan menjadi lebih mudah. Ketimbang membuat panggilan telepon, pengguna tinggal berhubungan dengan Google Assistant dan telepon akan berjalan sempurna di ‘belakang layar’ tanpa keterlibatan apapun dari pengguna layaknya juru bicara pribadi.

Duplex juga bisa membantu orang-orang yang memiliki pendengaran terganggu serta orang-orang yang tidak berbicara bahasa lokal menjadi bisa melakukan akses untuk menanyakan sesuatu atau membuat janji pertemuan.

Terobosan baru yang dibuat oleh Google Duplex memang memancing berbagai reaksi baik pro maupun kontra. Kemampuannya yang bisa berbicara natural seperti manusia dianggap bisa membahayakan jika jatuh di tangan orang yang salah. Google pun angkat bicara dengan menegaskan bahwa Duplex tidak bisa menjalankan percakapan umum lainnya di luar tugas spesifik serta akan mengidetifikasikan dirinya dahulu sebelum memulai pembicaraan. [4]

Jadi di pihak manakah kalian berada? Pro atau kontra?

Daftar Pustaka

 [1] Wavenet generative model raw audio

https://deepmind.com/blog/wavenet-generative-model-raw-audio/ diakses 21 Mei 2018

[2] Google duplex AI system for natural conversation (https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html_,diakses 16 Mei 2018

[3] What is an artificial neural network

https://www.digitaltrends.com/cool-tech/what-is-an-artificial-neural-network/ diakses 21 Mei 2018

[4] Google eerily realistic new AI identify itself when talking to people, says Google

(https://www.businessinsider.sg/google-duplex-will-identify-itself-2018-5/?r=US&IR=T) diakses 22 Mei 2018

Artikel Berhubungan:

Sponsor Warstek.com:
Warung Sains Teknologi

Warstek Media

Warung Sains Teknologi (Warstek) adalah media SAINS POPULER yang dibuat untuk seluruh masyarakat Indonesia baik kalangan akademisi, masyarakat sipil, atau industri. Sampai saat ini, sains dan teknologi berkesan ekslusif yang hanya ada di laboratorium dan tidak mampu secara langsung berdampak kepada masyarakat. Akibatnya masyarakat, pemerintah dan industri tidak menjadikan sains sebagai sarana mengatasi permasalahan atau membuat kebijakan. Untuk itu, warstek hadir untuk menjawab tantangan tersebut.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *