Manusia menggerakkan tangan dengan sangat alami saat mengambil gelas, membuka pintu, merakit benda, atau sekadar menunjuk sesuatu. Gerakan ini terlihat sederhana, tetapi bagi robot hal tersebut merupakan tantangan besar. Selama puluhan tahun, ilmuwan berusaha mengajarkan mesin agar dapat meniru kelenturan dan ketepatan gerak tangan manusia. Kini sebuah terobosan penting muncul melalui riset terbaru yang mengajarkan robot belajar langsung dari jutaan video gerakan tangan manusia di dunia nyata.
Penelitian ini melahirkan sebuah sistem kecerdasan buatan bernama Being H0. Sistem ini menggabungkan kemampuan melihat, memahami bahasa, dan bertindak dalam satu kesatuan. Tujuannya sederhana namun sangat ambisius, yaitu membuat robot mampu melakukan tugas fisik rumit seperti manusia dengan tingkat ketelitian tinggi.
Selama ini, banyak robot belajar dari data buatan atau simulasi komputer. Data semacam ini memang mudah dibuat, tetapi sering kali tidak mampu menangkap kompleksitas dunia nyata. Gerakan manusia di dunia nyata selalu penuh variasi. Tangan bisa tergelincir, sudut pandang bisa berubah, cahaya bisa berbeda, dan objek bisa berperilaku tidak terduga. Robot yang hanya belajar dari simulasi sering kebingungan ketika menghadapi dunia sebenarnya.
Baca juga artikel tentang: Bahasa Rahasia Alam: Infrasound, Gelombang Suara yang Tak Bisa Kita Dengar
Para peneliti lalu mengambil pendekatan berbeda. Mereka mengumpulkan jutaan potongan video yang menampilkan gerakan tangan manusia dari berbagai sumber seperti rekaman gerak profesional, video realitas virtual, dan video biasa berwarna. Dari video inilah robot belajar bagaimana manusia menggerakkan jari, pergelangan, dan lengan saat melakukan berbagai aktivitas.
Dalam proses belajar ini, mesin tidak hanya meniru bentuk gerakan. Ia juga mempelajari hubungan antara perintah dalam bahasa dengan tindakan nyata. Ketika seseorang berkata ambil cangkir lalu tangannya bergerak dengan pola tertentu, robot belajar bahwa perintah tersebut berkaitan dengan rangkaian gerakan spesifik. Inilah yang membuat sistem ini disebut penggabungan antara penglihatan bahasa dan tindakan.

Salah satu tantangan terbesar dalam mengajarkan robot bergerak adalah presisi. Manusia bisa menggerakkan tangan hingga satu mili meter dengan sangat stabil. Untuk meniru hal ini, para peneliti mengembangkan sistem pemecahan gerakan menjadi potongan potongan kecil yang sangat detail. Setiap gerakan jari direkam dalam skala sangat halus. Dengan cara ini, robot bisa mempelajari lintasan gerakan tangan secara lebih akurat.
Data yang digunakan dalam pelatihan yang sangat besar memberi keuntungan penting. Robot tidak hanya mempelajari satu gaya gerakan, tetapi ribuan variasi. Ia belajar bahwa mengambil benda bisa dilakukan dengan banyak cara. Ia juga belajar menyesuaikan gerakan berdasarkan posisi objek dan bentuknya. Hal inilah yang membuat robot menjadi lebih fleksibel saat menghadapi situasi baru.
Hasil pengujian menunjukkan bahwa Being H0 mampu mengikuti instruksi dengan jauh lebih baik dibandingkan sistem sebelumnya. Robot dapat melakukan tugas dengan tingkat ketelitian tinggi seperti memindahkan benda kecil, merakit bagian sederhana, dan menyesuaikan gerakan ketika kondisi berubah. Bahkan dalam pengujian dunia nyata, robot menunjukkan peningkatan kemampuan yang sangat signifikan setelah melalui pelatihan berbasis video manusia ini.
Kemajuan ini penting karena dunia nyata dipenuhi dengan tugas manipulasi yang rumit. Di rumah sakit, robot dapat membantu mengambil alat bedah dengan presisi tinggi. Di pabrik, robot dapat merakit komponen kecil dengan ketepatan yang lebih baik. Di rumah, robot suatu hari kelak bisa membantu orang lanjut usia mengambil benda tanpa risiko jatuh atau cedera.
Pendekatan ini juga mengubah cara kita memandang pelatihan robot. Selama ini robot diajari seperti murid yang hanya mengenal soal dalam buku latihan. Kini robot belajar seperti seorang anak yang mengamati orang dewasa melakukan aktivitas sehari hari. Dengan melihat, meniru, dan menyesuaikan diri, kemampuan robot berkembang secara lebih alami.
Namun, kemajuan ini juga membawa tantangan baru. Mengumpulkan video gerakan manusia dalam jumlah besar menimbulkan pertanyaan tentang privasi dan etika. Data yang digunakan harus dipastikan tidak melanggar hak individu. Selain itu, robot yang menjadi semakin gesit perlu dikendalikan dengan sistem keamanan yang tinggi agar tidak membahayakan manusia di sekitarnya.
Masalah energi juga menjadi perhatian. Robot yang bergerak dengan fleksibilitas tinggi membutuhkan sistem mekanik dan daya komputasi yang besar. Para peneliti masih terus mencari cara agar robot dapat bergerak lincah tanpa mengonsumsi energi berlebihan.
Dari sisi kecerdasan buatan, penelitian ini juga menunjukkan arah baru dalam pelatihan sistem AI. Alih alih mengandalkan simulasi buatan, pembelajaran dari dunia nyata terbukti jauh lebih kaya dan efektif. Dunia manusia menyediakan data gerakan yang hampir tak terbatas. Setiap aktivitas kecil yang kita lakukan sebenarnya menyimpan pelajaran berharga bagi mesin.
Ke depan, pendekatan ini membuka peluang besar bagi kolaborasi manusia dan robot. Robot tidak lagi hanya bekerja di lingkungan tertutup seperti pabrik, tetapi mulai memasuki ruang hidup manusia sebagai asisten nyata. Dengan kemampuan memahami instruksi dan meniru gerakan manusia, robot dapat membantu pekerjaan rumah, perawatan medis, hingga bantuan darurat.
Namun, penting untuk diingat bahwa robot tetaplah mesin. Ia tidak memiliki pemahaman seperti manusia. Ia tidak tahu rasa takut, empati, atau tujuan moral. Ia hanya menjalankan pola yang ia pelajari dari data. Oleh karena itu, kendali manusia tetap menjadi kunci dalam setiap penggunaan teknologi ini.
Riset Being H0 menunjukkan bahwa masa depan robot tidak lagi berdiri terpisah dari dunia manusia. Robot kini belajar dari cara manusia bergerak, berbicara, dan menyelesaikan tugas. Dengan meniru tangan manusia, mesin perlahan mendekati kemampuan fisik yang selama ini menjadi ciri khas makhluk hidup.
Kita kini menyaksikan awal dari era baru di mana robot tidak hanya berpikir, tetapi juga bergerak dengan semakin alami. Dari dapur hingga ruang operasi, dari bengkel hingga ruang tamu, mesin kelak akan hadir sebagai rekan kerja yang mampu memahami perintah dan melaksanakan tindakan dengan lebih halus.
Perjalanan masih panjang. Tantangan teknis, etika, dan sosial masih menanti. Namun satu hal menjadi jelas. Ketika robot belajar langsung dari gerakan manusia, batas antara dunia biologis dan dunia mesin semakin menipis. Tangan manusia yang dulu hanya alat tubuh kini juga menjadi guru bagi mesin masa depan.
Baca juga artikel tentang: Bahasa Kimia Lumut Purba: Bagaimana Tanaman Mengatur Stresnya
REFERENSI:
Luo, Hao dkk. 2025. Being-h0: vision-language-action pretraining from large-scale human videos. arXiv preprint arXiv:2507.15597.

