Berhenti Berjudi dengan AI: Sebuah Rencana Gila untuk Merekayasa Keamanan Super-Intelijen

Dipublikasikan oleh Melchior Celtic

27 Oktober 2025, 14.08

Berhenti Berjudi dengan AI: Sebuah Rencana Gila untuk Merekayasa Keamanan Super-Intelijen

Pendahuluan: Ketakutan dan Kepercayaan di Era Mesin Cerdas

Pernahkah kamu duduk di dalam pesawat, melesat puluhan ribu kaki di atas awan, dan tiba-tiba menyadari bahwa sebagian besar penerbangan dikendalikan oleh autopilot? Kamu menaruh nyawamu di tangan sebuah sistem yang tidak kamu pahami sepenuhnya. Tapi kamu percaya. Kenapa? Bukan karena sihir, tapi karena kamu tahu sistem itu adalah puncak dari rekayasa yang sangat teliti, pengujian yang tak terhitung jumlahnya, dan proses sertifikasi yang ketat. Kepercayaan kita pada teknologi kritis tidak lahir begitu saja; ia dibangun lapis demi lapis dengan jaminan dan bukti.

Sekarang, mari kita lihat dunia Kecerdasan Buatan (AI). Kita sedang membangun sistem dengan potensi super-manusiawi yang bisa merevolusi kedokteran, sains, dan ekonomi. Namun, cara kita memastikan keamanannya terasa sangat primitif jika dibandingkan. Para peneliti dan CEO terkemuka di bidang AI bahkan telah mengakui bahwa risiko kepunahan manusia dari AI harus menjadi prioritas global, setara dengan pandemi atau perang nuklir. Kita seolah-olah sedang melakukan beta-testing teknologi paling kuat dalam sejarah umat manusia, langsung pada peradaban itu sendiri.   

Di tengah kegelisahan ini, saya menemukan sebuah dokumen yang mengubah cara saya memandang masalah ini. Bukan sekadar makalah akademis biasa, melainkan cetak biru yang berani dan komprehensif untuk masa depan yang berbeda. Tesis program "Safeguarded AI" dari Advanced Research + Invention Agency (ARIA) Inggris ini tidak menawarkan tambalan lain untuk kapal yang bocor. Sebaliknya, ia mengusulkan untuk membangun kapal yang sama sekali baru—sebuah proposal untuk mengubah AI dari disiplin yang penuh tebakan empiris menjadi disiplin rekayasa yang ketat, sama seperti membangun jembatan atau pesawat terbang. Ini adalah sebuah visi yang sangat ambisius, bahkan mungkin gila. Tapi setelah membacanya, saya merasa ini adalah kegilaan yang paling penuh harapan yang pernah saya temui.   

Mengapa Cara Kita Menjaga AI Saat Ini Mirip Menambal Kapal Bocor di Tengah Badai

Untuk memahami betapa radikalnya proposal ARIA, kita harus terlebih dahulu melihat betapa rapuhnya metode keamanan AI yang kita andalkan saat ini. Dokumen ini menyoroti dua pendekatan utama: Evals (evaluasi) dan Red-Teaming. Keduanya terdengar canggih, tapi pada dasarnya memiliki keterbatasan yang fatal.   

Bayangkan Evals seperti ujian mengemudi di mana calon pengemudi hanya diminta untuk menyetir lurus di satu jalan yang sepi dan sudah ditentukan. Mereka mungkin lulus dengan nilai sempurna, tapi ujian itu sama sekali tidak memberi tahu kita bagaimana mereka akan bereaksi saat menghadapi badai salju mendadak di jalanan gunung yang berkelok. Itulah Evals. Kita memberi AI serangkaian pertanyaan atau prompt yang terbatas dan melihat apakah jawabannya "aman". Jika lolos, kita anggap aman untuk diluncurkan. Masalahnya, dunia nyata tidak terbatas. Pengguna bisa saja menggunakan strategi prompting yang tak terduga atau merangkai perintah secara kompleks dengan cara yang tidak pernah diuji oleh para evaluator.   

Lalu ada Red-Teaming. Ini seperti menyewa beberapa pencuri paling ahli di dunia untuk mencoba membobol sistem keamanan rumahmu. Jika mereka gagal masuk, kamu merasa lebih aman. Tapi, apakah itu berarti tidak ada pencuri lain yang lebih kreatif di luar sana yang bisa menemukan celah yang tidak pernah kamu bayangkan? Tentu tidak. Red-Teaming melibatkan sekelompok ahli yang mencoba memancing perilaku paling berbahaya dari sebuah model AI. Ini adalah pendekatan yang bagus untuk menemukan beberapa kelemahan, tetapi tidak bisa diskalakan dan tidak memberikan jaminan apa pun tentang apa yang mungkin terjadi di luar skenario yang mereka coba.   

Di sinilah letak argumen inti dari tesis ini: metode-metode saat ini hanya bisa membuktikan adanya kelemahan, bukan ketiadaannya. Mereka reaktif, bukan proaktif. Apa yang kita butuhkan, menurut proposal ini, bukanlah sekadar pengujian yang lebih baik, melainkan sebuah lompatan paradigma. Kita perlu beralih dari pengujian empiris ("mari kita lihat apa yang terjadi") ke verifikasi formal ("mari kita buktikan apa yang bisa dan tidak bisa terjadi"). Kita perlu jaminan matematis yang berlaku untuk semua kemungkinan kondisi awal yang tak terbatas, bukan hanya keyakinan statistik dari sampel yang terbatas.   

Sebuah Gagasan Gila yang Mungkin Berhasil: Meminta AI Menjadi "Penjaga Gerbang"-nya Sendiri

Jadi, bagaimana kita bisa mendapatkan jaminan matematis di dunia yang begitu kompleks? Di sinilah proposal ARIA menjadi sangat menarik. Idenya bukan untuk membuat satu AI monolitik menjadi "lebih baik" atau "lebih selaras". Sebaliknya, idenya adalah menggunakan kekuatan luar biasa dari AI canggih itu sendiri untuk membangun sistem keamanan terpisah yang dapat diverifikasi di sekitar AI lain yang bertugas khusus. Mereka menyebutnya alur kerja "gatekeeper" (penjaga gerbang).   

Bayangkan kamu memiliki robot konstruksi yang sangat jenius tapi perilakunya tidak bisa ditebak. Alih-alih mencoba mengajarinya konsep samar seperti "jangan merusak barang," kamu menggunakan AI super-cerdas lainnya untuk merancang dan membangun pagar pengaman yang kokoh dan bersertifikat di sekeliling area kerjanya. "Gatekeeper" adalah proses merancang dan membuktikan secara matematis bahwa pagar itu tidak bisa ditembus. Robot konstruksi bisa beroperasi dengan kekuatan dan kreativitas penuh di dalam pagar itu, tetapi secara matematis mustahil baginya untuk bertindak di luar batas-batas yang telah terbukti aman.

Tiga Peran AI di Balik Gerbang Ajaib Ini

Alur kerja "gatekeeper" ini terdiri dari tiga komponen AI yang berbeda, yang semuanya dibangun di atas model AI canggih yang sudah ada :   

  1. AI Pembangun Dunia (The World-Builder): AI ini disetel untuk bertindak seperti seorang ilmuwan. Ia mengambil data dunia nyata—misalnya, data operasional jaringan listrik—dan membantu para ahli manusia membangun "model matematika ilmiah yang dapat dijelaskan dan diaudit" dari lingkungan tersebut. Ia bertugas menerjemahkan realitas yang berantakan menjadi representasi formal yang bisa dipahami mesin.

  2. AI Pencari Bukti (The Proof-Finder): AI ini berperan sebagai seorang matematikawan. Dengan menggunakan model dunia yang dibuat sebelumnya, ia melakukan analisis probabilistik yang rumit untuk menghasilkan "sertifikat bukti" (proof certificate). Ini adalah sepotong data yang secara matematis membuktikan bahwa tindakan tertentu yang akan diambil oleh AI lain dijamin aman di bawah ambang batas risiko yang telah ditentukan.

  3. AI Agen yang Dioptimalkan (The Optimized-Agent): Ini adalah model AI canggih yang kuat, yang diadaptasi dan dilatih secara khusus agar sangat mudah diverifikasi oleh AI Pencari Bukti. Tujuannya adalah untuk menciptakan agen yang berkinerja tinggi, tetapi yang setiap tindakannya dapat diperiksa dan disertifikasi keamanannya sebelum dieksekusi.

Singkatnya, ini adalah sebuah ekosistem AI yang saling memeriksa.

  • 🚀 Hasilnya luar biasa: Bukan sekadar AI yang "mungkin" aman, tapi sistem AI yang bisa kita andalkan di infrastruktur kritis seperti kontrol lalu lintas udara atau manajemen rantai pasokan, dengan jaminan keamanan kuantitatif yang bisa diaudit.   

  • 🧠 Inovasinya: Menggunakan AI canggih sebagai alat rekayasa untuk membangun dan memverifikasi sistem AI lain. Ini adalah pergeseran dari melatih AI secara buta menjadi merekayasa AI secara presisi.

  • 💡 Pelajaran: Jangan terjebak pola pikir lama. Daripada berharap AI akan "berperilaku baik," kita harus membangun sistem di mana AI secara fundamental tidak bisa bertindak di luar batas aman yang telah terbukti secara matematis.

Bukan Sekadar Teori: Tiga Pilar untuk Membangun Masa Depan AI yang Aman

Visi besar ini tidak berhenti di level konsep. Proposal ARIA didukung oleh rencana implementasi yang konkret dan terstruktur dalam tiga "Area Teknis" (Technical Areas atau TA). Anggap saja ini sebagai tiga pilar yang harus dibangun untuk mewujudkan realitas "gatekeeper".   

Pilar 1 (TA1): Menciptakan "Bahasa Universal" untuk Realitas

Pilar pertama, yang disebut Scaffolding, adalah fondasinya. Tujuannya adalah membangun perangkat lunak dan bahasa matematika—semacam "sistem operasi untuk realitas"—yang cukup kuat untuk digunakan oleh AI, tetapi juga cukup bisa dipahami oleh para ahli manusia untuk diaudit. Ini bukan tugas sepele. Bahasa ini harus mampu menyatukan puluhan kerangka pemodelan yang ada, mulai dari persamaan diferensial hingga jaringan Petri, menjadi satu kerangka kerja yang koheren.   

Keberhasilan seluruh program ARIA bergantung pada pilar ini. Ambisi untuk menciptakan "meta-ontologi"  mengungkapkan sebuah pemahaman mendalam: akar masalah keamanan AI adalah ketidakmampuan kita untuk mendeskripsikan secara formal dan komputasi apa arti "aman" dalam sistem dunia nyata yang kompleks. TA1 pada dasarnya adalah upaya untuk memecahkan masalah epistemologi terapan: bagaimana kita menerjemahkan realitas yang berantakan dan nilai-nilai kemanusiaan ke dalam bahasa yang presisi secara matematis dan dapat diverifikasi oleh mesin? Ini adalah tantangan yang jauh melampaui sekadar menulis kode.   

Pilar 2 (TA2): Melatih AI untuk Berpikir Seperti Matematikawan, Bukan Peramal

Pilar kedua, Machine Learning, adalah jantung dari upaya R&D ini. Di sinilah AI-AI khusus untuk alur kerja "gatekeeper" akan diciptakan. Ini melibatkan penyetelan model-model AI canggih untuk melakukan tugas-tugas seperti mengekstrak model matematika dari makalah ilmiah, melakukan penalaran yang koheren, dan yang terpenting, menghasilkan "sertifikat bukti" keamanan tersebut.   

Namun, ada satu hal yang sangat penting di sini. Teknologi yang sama yang dapat membuktikan sebuah AI medis aman juga dapat digunakan untuk membuktikan sebuah sistem senjata otonom efektif. Ini adalah dilema penggunaan ganda (dual-use dilemma) yang sangat serius. Proposal ini menyadarinya sepenuhnya, dan itulah mengapa strategi kekayaan intelektual untuk TA2 sangat ketat: semua penelitian akan dilakukan di satu institusi yang sangat aman di Inggris, dan hasilnya akan diperlakukan sebagai rahasia dagang. Dokumen ini secara eksplisit menyatakan bahwa jika berhasil, "pekerjaan TA2 akan secara substansial memfasilitasi penyalahgunaan AI" dan oleh karena itu "hasilnya harus diatur dengan hati-hati untuk memastikan dampak positif bersih". Ini adalah pengakuan yang jujur dan krusial tentang kekuatan pedang bermata dua yang sedang mereka ciptakan.   

Pilar 3 (TA3): Ujian di Dunia Nyata—Dari Jaringan Listrik hingga Lalu Lintas Udara

Pilar ketiga, Applications, adalah pembuktian di lapangan. Tujuannya adalah untuk menunjukkan bahwa seluruh pendekatan ini bukan hanya keingintahuan teoretis, tetapi juga alternatif yang praktis dan unggul secara ekonomi. Rencananya adalah untuk menerapkan AI yang dijaga oleh "gatekeeper" di sektor-sektor kritis—seperti menyeimbangkan jaringan listrik, mengoptimalkan uji klinis, atau manajemen lalu lintas udara—dan membuktikan bahwa ia memberikan kinerja dan ketahanan yang lebih baik daripada metode yang ada saat ini.   

TA3 adalah kunci strategis dari keseluruhan program. Tujuannya bukan hanya untuk menciptakan aplikasi yang berguna, tetapi untuk menghasilkan insentif ekonomi yang begitu kuat sehingga dapat mengubah seluruh paradigma pengembangan AI global. Mereka tahu bahwa seruan etika atau risiko jangka panjang saja tidak cukup untuk menghentikan perlombaan AI global. Dengan menunjukkan nilai ekonomi yang luar biasa di sektor-sektor di mana kepercayaan dan keandalan adalah segalanya, mereka menciptakan daya tarik yang kuat. TA3 dirancang untuk membuat jalur yang aman menjadi jalur yang paling menguntungkan.

Apa yang Paling Mengejutkan Saya: Mengubah Dinamika Balapan AI Global dengan Teori Permainan

Bagian paling ambisius dari proposal ini, bagi saya, adalah analisis teori permainannya. Ini membingkai ulang seluruh proyek bukan hanya sebagai tantangan teknis, tetapi sebagai intervensi strategis yang dirancang untuk memecahkan masalah koordinasi global dalam keamanan AI.

Secara sederhana, situasi kita saat ini digambarkan sebagai Dilema Tahanan (Prisoner's Dilemma). Bayangkan dua pengembang AI yang bersaing. Keduanya tahu bahwa bekerja sama dalam hal keamanan akan menjadi yang terbaik bagi semua orang. Namun, pilihan rasional bagi masing-masing individu adalah berkhianat dan berlomba untuk mendapatkan keuntungan kompetitif, yang pada akhirnya mengarah pada hasil yang berpotensi membawa bencana bagi semua.   

Proposal ARIA bertujuan untuk mengubah permainan ini menjadi Perburuan Rusa (Stag Hunt). Dalam skenario ini, kerja sama menjadi pilihan yang paling rasional. Jika kedua pemain bekerja sama untuk mengejar "rusa" (AI yang kuat dan aman), mereka berdua akan mendapatkan hadiah besar. Jika salah satu dari mereka berkhianat untuk mengejar "kelinci" (keuntungan jangka pendek yang tidak aman), mereka hanya akan mendapatkan hadiah kecil, dan hadiah besar akan hilang untuk semua orang. Tujuannya adalah membuat "rusa" itu begitu berharga dan dapat dicapai sehingga mengejar "kelinci" menjadi tidak rasional lagi.

Bagaimana caranya? Dengan mengubah dua variabel kunci :   

  1. Mengurangi Waktu (T): Dengan menunjukkan jalur R&D yang layak, mereka berharap dapat mempersingkat persepsi waktu yang dibutuhkan untuk mencapai AI yang aman dari 50+ tahun menjadi kurang dari 15 tahun.

  2. Meningkatkan Daya Saing Ekonomi (α): Melalui TA3, mereka ingin membuktikan bahwa jalur yang aman bukanlah pengorbanan ekonomi yang besar, melainkan dapat menangkap sebagian besar nilai dari AI yang tidak terkendali.

Saat saya menyadari ini, saya tertegun. Ini bukan lagi sekadar proyek sains; ini adalah sebuah tindakan diplomasi-teknologi yang diperhitungkan. Tujuan utamanya adalah menciptakan prasyarat teknis dan ekonomi untuk sebuah "keseimbangan Nash kooperatif baru dalam lanskap strategis global". Ini adalah upaya untuk memecahkan masalah geopolitik dengan solusi teknologi.   

Opini Pribadi Saya: Harapan Besar dengan Beberapa Catatan Kaki

Saya harus jujur, saya sangat terkesan dengan proposal ini. Ambisinya, ketelitian intelektualnya, dan sifatnya yang holistik benar-benar luar biasa. Ini adalah salah satu dari sedikit rencana keamanan AI yang menangani masalah di setiap tingkatan: teknis, ekonomi, dan geopolitik. Ia menawarkan jalan ke depan yang nyata dan berfokus pada rekayasa, yang merupakan perubahan yang menyegarkan dari diskusi yang murni filosofis.

Namun, sebagai seorang analis, saya juga punya beberapa catatan:

  • "Sihir" Pemodelan: Meskipun visinya luar biasa, keberhasilan seluruh program ini bergantung pada satu asumsi raksasa: bahwa kita dapat menciptakan "model matematika" yang cukup akurat dari sistem dunia nyata yang sangat kompleks—seperti rantai pasok global atau jaringan listrik—dan membuatnya dapat diaudit dan dipahami oleh para ahli non-matematika. Ini adalah tantangan rekayasa sosial dan teknis yang luar biasa besar yang mungkin diremehkan oleh dokumen ini.   

  • Masalah Ayam dan Telur: Ada sedikit masalah "ayam dan telur" di sini. Alur kerja "gatekeeper" bergantung pada penggunaan AI tingkat lanjut yang sudah ada untuk membangun sistem yang aman. Ini menimbulkan pertanyaan: seberapa aman dan andal AI yang kita gunakan untuk membangun alat keselamatan ini? Program ini secara cerdas mencoba mengatasi ini melalui verifikasi dan audit manusia, tetapi ketergantungan awal pada model "kotak hitam" yang ada tetap menjadi titik kerentanan.   

  • Risiko Sentralisasi: Rencana untuk memusatkan semua penelitian TA2 di satu institusi yang sangat aman di Inggris  masuk akal dari perspektif keamanan untuk mencegah penyalahgunaan. Namun, ini juga menciptakan risiko sentralisasi, potensi pemikiran kelompok (groupthink), dan dapat memperlambat kemajuan dengan membatasi kolaborasi global yang lebih luas yang seringkali mendorong terobosan.   

Kesimpulan: Jalan Baru Telah Dibuka, Tapi Pendakian Baru Saja Dimulai

Terlepas dari catatan-catatan itu, pesan inti dari tesis ARIA ini tetap bergema kuat. Ini bukan seruan untuk perbaikan bertahap. Ini adalah panggilan untuk sebuah revolusi dalam cara kita memahami, membangun, dan mengatur AI tingkat lanjut. Sebuah pergeseran dari berharap AI aman menjadi merekayasa sistem yang terbukti aman.

Jalan yang ditata oleh ARIA ini terjal, tidak pasti, dan sangat ambisius. Tapi untuk pertama kalinya, rasanya kita memiliki peta yang kredibel. Peta ini menunjukkan bahwa solusi untuk bahaya AI yang kuat mungkin adalah... AI yang lebih cerdas, lebih fokus, dan direkayasa dengan lebih teliti. Ini adalah masa depan yang dibangun bukan di atas ketakutan, tetapi di atas bukti.

Kalau kamu tertarik dengan ide radikal yang bisa mengubah masa depan kita ini, saya sangat menyarankanmu untuk mencoba membaca dokumen aslinya. Ini padat, teknis, tapi setiap gagasannya akan mengubah caramu memandang masa depan kecerdasan buatan.

Jika kamu ingin meningkatkan keterampilanmu di bidang teknologi dan machine learning, kamu bisa melihat berbagai kursus yang tersedia di(https://diklatkerja.com).

(https://doi.org/10.5281/zenodo.10642273)