DNA mengandung informasi dasar yang diperlukan untuk menjaga kehidupan. Memahami bagaimana informasi ini disimpan dan diatur telah menjadi salah satu tantangan ilmiah terbesar selama abad terakhir. Dengan GROVE—Genome Rules Obtained via Extracted Representations—model bahasa besar baru yang dilatih menggunakan DNA manusia, para peneliti sekarang dapat mencoba memecahkan informasi kompleks yang tersembunyi dalam genom kita. Dikembangkan oleh tim dari Pusat Bioteknologi (BIOTEC) di Dresden University of Technology, GROVER memperlakukan DNA manusia sebagai teks, mempelajari aturan dan konteksnya untuk memperoleh informasi fungsional tentang urutan DNA. Alat baru ini, yang diterbitkan dalam jurnal Nature Machine Intelligence, memiliki potensi untuk mengubah bidang genomik dan mempercepat pengobatan yang dipersonalisasi.
Sejak penemuan struktur heliks ganda, para ilmuwan telah berusaha memahami informasi yang terkandung dalam DNA. 70 tahun kemudian, jelas bahwa informasi yang tersembunyi dalam DNA bersifat berlapis-lapis. Hanya 1-2% dari genom yang terdiri dari gen, yaitu urutan yang menyandi protein.
DNA memiliki banyak fungsi selain menyandi protein. Beberapa urutan mengatur gen, yang lain berfungsi sebagai struktur, dan sebagian besar urutan memiliki beberapa fungsi sekaligus. Saat ini, kita belum memahami arti dari sebagian besar DNA. Ketika berbicara tentang memahami wilayah non-coding dalam DNA, sepertinya kita baru mulai menggaruk permukaannya. Di sinilah AI dan model bahasa besar dapat membantu.
DNA sebagai Bahasa
Model bahasa besar, seperti GPT, telah mengubah pemahaman kita tentang bahasa. Dilatih secara eksklusif menggunakan teks, model bahasa besar ini mengembangkan kemampuan untuk menggunakan bahasa dalam berbagai konteks.
GROVER mempelajari aturan DNA. Dalam hal bahasa, kita berbicara tentang tata bahasa, sintaksis, dan semantik. Untuk DNA, ini berarti mempelajari aturan yang mengatur urutan, urutan nukleotida, dan arti urutan tersebut. Seperti model GPT yang belajar bahasa manusia, GROVER pada dasarnya telah belajar bagaimana ‘berbicara’ DNA.
Tim menunjukkan bahwa GROVER tidak hanya dapat memprediksi urutan DNA berikutnya dengan akurat, tetapi juga dapat digunakan untuk mengekstrak informasi kontekstual yang memiliki makna biologis, seperti mengidentifikasi promoter gen atau situs pengikatan protein pada DNA. GROVER juga mempelajari proses yang umumnya dianggap sebagai “epigenetik”, yaitu proses regulasi yang terjadi di atas DNA daripada yang disandi dalam DNA itu sendiri.
Kamus DNA
DNA menyerupai bahasa. Ia memiliki empat huruf yang membangun urutan, dan urutan tersebut membawa makna. Namun, berbeda dengan bahasa, DNA tidak memiliki kata yang ditentukan secara jelas.
DNA terdiri dari empat huruf (A, T, G, dan C) dan gen, tetapi tidak ada urutan yang telah ditentukan sebelumnya dengan panjang yang berbeda-beda yang digabungkan untuk membentuk gen atau urutan yang bermakna lainnya.
Untuk melatih GROVER, tim pertama-tama harus membuat kamus DNA. Mereka menggunakan trik dari algoritma kompresi.
Tim peneliti menganalisis seluruh genom dan mencari kombinasi huruf yang paling sering muncul. Tim memulai dengan dua huruf dan terus melihat DNA berulang kali untuk membangunnya menjadi kombinasi huruf multi yang paling umum. Dengan cara ini, dalam sekitar 600 siklus, kami telah memfragmentasi DNA menjadi ‘kata-kata’ yang memungkinkan GROVER bekerja paling baik dalam memprediksi urutan berikutnya.
Janji AI dalam Genomik
GROVER menjanjikan untuk membuka berbagai lapisan kode genetik. DNA menyimpan informasi kunci tentang apa yang membuat kita menjadi manusia, kecenderungan penyakit kita, dan respons kita terhadap pengobatan.
Memahami aturan DNA melalui model bahasa akan membantu kita mengungkap kedalaman makna biologis yang tersembunyi dalam DNA, memajukan bidang genomik dan pengobatan yang dipersonalisasi.
Referensi:
[1] https://tu-dresden.de/tu-dresden/newsportal/news/den-code-des-lebens-knacken-neues-ki-modell-entschluesselt-die-versteckte-sprache-der-dna, diakses pada 14 Agustus 2024
[2] Melissa Sanabria, Jonas Hirsch, Pierre M. Joubert, Anna R. Poetsch. DNA language model GROVER learns sequence context in the human genome. Nature Machine Intelligence, 2024; DOI: 10.1038/s42256-024-00872-0
Alumni S1 Kimia Universitas Negeri Makassar. Pengajar kimia, penulis di warstek.com.