Hantu di Persimpangan: Membedah AI yang Bisa Membaca Niat Pejalan Kaki

Dipublikasikan oleh Melchior Celtic

10 November 2025, 11.42

Hantu di Persimpangan: Membedah AI yang Bisa Membaca Niat Pejalan Kaki

Pertama, mari kita sepakati: jalanan kita saat ini bodoh. Sistem keselamatan mobil kita, secanggih apa pun, pada dasarnya reaktif. Mereka punya sensor, tapi mereka bereaksi terhadap apa yang sudah terjadi. Rem darurat otomatis baru bekerja setelah seorang anak berlari ke jalan.

Masalahnya, seperti yang dijabarkan di bagian "Motivation" paper ini, dunia tidak memberi kita kemewahan waktu.   

Para peneliti menyoroti statistik suram dari World Health Organization: 27% dari 1,24 juta korban jiwa lalu lintas di seluruh dunia adalah VRU. Di Jerman, tempat penelitian ini berasal, 69% kecelakaan fatal terjadi di perkotaan, terutama di persimpangan.   

Mengapa persimpangan begitu mematikan? Para peneliti menunjuk dua alasan yang sangat manusiawi:

  1. Oklusi (Occlusions): Sederhananya, titik buta. Mobil Anda tidak bisa melihat anak yang berlari dari balik bus yang sedang parkir atau pesepeda yang terhalang truk.   

  2. Ketidakpastian (Unpredictability): Ini yang paling penting. Pejalan kaki dan pesepeda bisa "secara tiba-tiba memulai gerakan atau mengubah arah" dalam "beberapa ratus milidetik".   

Sistem reaktif gagal total menghadapi dua masalah ini. Saat sensor mobil Anda akhirnya melihat anak yang keluar dari balik bus (memecahkan oklusi), Anda mungkin sudah tidak punya waktu "beberapa ratus milidetik" itu untuk bereaksi.

Di sinilah letak lompatan konseptual besar dari paper ini. Solusinya tidak bisa reaktif; ia harus prediktif. Kita tidak perlu mendeteksi gerakan pejalan kaki; kita perlu mendeteksi niat mereka untuk bergerak.

Saat Mobil, Lampu Lalu Lintas, dan Ponsel Anda Mulai Berbisik

Jadi, bagaimana cara Anda memprediksi niat? Anda tidak bisa memasang satu kamera super di setiap mobil dan berharap selesai. Masalah oklusi tetap ada.

Solusi brilian yang diusulkan paper ini adalah: "Collective Intelligence" (CI) atau Kecerdasan Kolektif.   

Lupakan ide tentang satu mobil super-jenius ala Tesla yang berjuang sendirian. Bayangkan satu mobil adalah satu neuron. Sendirian, dia tidak terlalu pintar. Dia hanya bisa melihat apa yang ada tepat di depannya. Tapi paper ini mengusulkan untuk menghubungkan semua neuron di persimpangan.

Siapa "agen" dalam jaringan kecerdasan kolektif ini?    

  1. Kendaraan Cerdas: Mobil Anda, mobil di sebelah Anda, bus di depan Anda.

  2. Infrastruktur: Ini adalah pengubah permainan. Kamera di lampu lalu lintas, pemindai laser yang dipasang di sudut jalan.

  3. VRU Sendiri: Dan ini bagian yang paling menarik. Smartphone Anda, smartwatch Anda, atau sensor yang Anda pakai.

Tiba-tiba, masalah oklusi mulai terpecahkan. Mobil Anda tidak bisa melihat pesepeda di balik bus. Tapi, kamera di tiang lampu lalu lintas bisa melihatnya. Dan smartphone di saku si pesepeda tahu dari akselerometernya bahwa dia sedang bergerak.   

Ketika semua agen ini "berbisik" satu sama lain melalui jaringan ad hoc , mereka menciptakan apa yang disebut paper ini sebagai "Global Vision" atau pandangan-dewa dari persimpangan. Tujuannya adalah untuk "memperluas cakrawala persepsi" setiap agen individu melampaui sensor mereka sendiri.   

Sistem "agen" heterogen yang saling berbicara dan berbagi data ini adalah definisi buku teks dari(https://diklatkerja.com/course/internet-of-things-basic). Ini bukan lagi kulkas pintar yang memesan susu; ini adalah infrastruktur yang saling terhubung yang dirancang untuk menyelamatkan nyawa.   

Paper Ini Tidak Sedang Memprediksi Ke Mana Anda Pergi, Tapi Bagaimana Anda Akan Pergi

Di sinilah letak inti teknis dari paper ini, dan bagian yang paling membuat saya terkesan. Oke, sistemnya bisa "melihat" semua orang. Terus? Bagaimana itu membedakannya dari sistem pengawasan biasa?

Jawabannya: sistem ini tidak hanya melacak titik. Ia mencoba membaca pikiran.

Para peneliti membagi "Intention Detection" menjadi dua lapisan yang berbeda namun saling berhubungan.   

H3: Lapisan Niat Pertama: Prediksi Gerakan Dasar (The 'Vibe')

Ini adalah "getaran" atau "bahasa tubuh" dari seorang VRU. Secara teknis, mereka menyebutnya "Basic Movement Primitive Prediction".   

Sistem ini tidak hanya melihat "objek pejalan kaki". Ia dilatih menggunakan machine learning untuk mengenali perbedaan halus antara:

  • Seseorang yang "berdiri" (mungkin menunggu bus).

  • Seseorang yang "berdiri-dan-akan-berjalan" (misalnya, ada pergeseran berat badan, kepala menoleh berulang kali ke arah lalu lintas).

  • Seorang pesepeda yang "mengayuh stabil".

  • Seorang pesepeda yang "melambat untuk berhenti".

  • Seorang pesepeda yang "melambat-sambil-menoleh-ke-belakang-untuk-berbelok".   

Sistem ini bahkan dilatih untuk mengenali gestur, seperti "mengangkat lengan untuk memberi tanda belok". Ini adalah deteksi transisi keadaan. Ini adalah psikologinya.   

H3: Lapisan Niat Kedua: Ramalan Lintasan (The 'Physics')

Setelah, dan hanya setelah, sistem memahami niat ("dia akan berbelok"), barulah ia bisa memprediksi jalur fisiknya secara akurat.

Ini disebut "Forecast of the future trajectory". Ini adalah ramalan fisika murni: ke mana titik-titik di tubuh orang itu (kepala, pusat gravitasi, persendian) akan bergerak dalam ruang 3D selama 1-3 detik ke depan.   

Mengapa memisahkan keduanya adalah sebuah terobosan?

Karena model-model lama (yang disebut di paper seperti Bayesian recursive state estimator ) gagal total karena mereka hanya melakukan Lapisan 2 (Prediksi Lintasan). Mereka melihat pejalan kaki dan pada dasarnya mengasumsikan dia akan terus berjalan lurus seperti robot. Begitu pejalan kaki itu tiba-tiba berubah pikiran, model itu hancur.   

Paper ini menyatakan bahwa Lapisan 1 ("Prediksi Gerakan Dasar") harus menginformasikan Lapisan 2 ("Ramalan Lintasan").   

Bayangkan skenario ini: Sistem melihat seorang pesepeda melambat.

  • Model Lama (Hanya Fisika): "Dia melambat. Data historis mengatakan 90% orang yang melambat akan berhenti. Prediksi saya: dia akan berhenti di tepi jalan."

  • Model Baru (Niat + Fisika): Lapisan 1 mendeteksi "lengan terangkat untuk memberi tanda belok". Sistem langsung berpikir, "Aha! Dia bukan berhenti, dia bersiap berbelok." Sistem kemudian mengabaikan model prediksi "berhenti" dan beralih ke model prediksi "berbelok".   

Inilah lompatan besar dalam keandalan.

Di Dapur Para Insinyur: Cara Mereka Menggabungkan Gosip Digital Ini

Oke, jadi mobil, kamera, dan ponsel semuanya "berbisik" dalam jaringan. Tapi bagaimana "otak" kolektif mendengarkan semua gosip ini dan mengambil satu keputusan yang koheren? Ini adalah masalah fusi data.

Para peneliti mengusulkan arsitektur (di Gambar 3) yang memungkinkan dua strategi fusi yang berbeda (di Gambar 4). Saya akan menjelaskannya dengan analogi.   

H3: Metode 1: 'Tim Detektif' (Feature-level Fusion)

Ini adalah sisi kiri dari Gambar 4 di paper.   

  • Analogi: Bayangkan sebuah tim detektif yang menyelidiki sebuah kasus. Setiap "agen" (mobil, kamera) tidak membuat kesimpulan. Mereka hanya mengumpulkan petunjuk mentah (disebut "fitur").

    • Mobil: "Saya melihat bentuk kabur bergerak dengan kecepatan 10 km/jam."

    • Kamera: "Saya melihat warna merah dan dua lingkaran berputar (roda sepeda)."

    • Ponsel: "Saya mendeteksi guncangan dari akselerometer yang konsisten dengan 'mengayuh'."

  • Semua "fitur" mentah ini dikirim ke satu "detektif kepala" (sistem fusi pusat) yang melihat semua petunjuk bersama-sama dan baru membuat satu kesimpulan: "Itu adalah pesepeda yang sedang mengayuh."

  • Pro/Kontra: Ini berpotensi sangat akurat karena detektif kepala melihat gambaran lengkapnya. Tapi, ini sangat boros bandwidth (mengirim banyak data mentah) dan bisa jadi lambat.

H3: Metode 2: 'Panel Ahli' (Decision-level Fusion)

Ini adalah sisi kanan dari Gambar 4.   

  • Analogi: Bayangkan sebuah panel ahli. Setiap "agen" adalah ahli yang cerdas. Mereka melihat semua data sendiri dan membuat kesimpulan mereka sendiri terlebih dahulu.

    • Mobil: "Setelah analisis saya, saya 80% yakin itu pesepeda yang akan lurus."

    • Kamera: "Saya 95% yakin itu pesepeda yang akan belok kiri."

    • Ponsel: "Saya 70% yakin itu pesepeda yang akan lurus."

  • Mereka lalu mengirimkan keputusan mereka (bukan data mentah) ke "moderator" (sistem fusi) yang pada dasarnya melakukan voting (mungkin dengan bobot, berdasarkan seberapa "yakin" si ahli) untuk membuat keputusan akhir.   

  • Pro/Kontra: Ini jauh lebih cepat dan sangat hemat bandwidth (hanya mengirim pesan "80% yakin"). Tapi, ada risiko kehilangan nuansa penting yang ada di data mentah.

Bagian yang cerdas adalah paper ini tidak memilih satu. Arsitektur mereka  dirancang untuk mendukung keduanya. Ini berarti sistem dapat beradaptasi. Dalam situasi lalu lintas yang sepi, ia bisa menggunakan "Tim Detektif" yang lambat tapi akurat. Di persimpangan yang kacau balau saat jam sibuk, ia bisa beralih ke "Panel Ahli" yang cepat untuk keputusan real-time.   

Seluruh proses ini—mengambil data mentah (fitur), melatih model untuk mengenalinya (menggunakan teknik seperti Histogram of Oriented Gradients (HOG) , Support Vector Machines (SVMs), dan Artificial Neural Networks (ANNs) )—adalah inti dari Artificial Intelligence dan(https://diklatkerja.com/course/big-data-dan-artificial-intelligence). Ini adalah salah satu aplikasi dunia nyata paling keren dari konsep-konsep tersebut yang pernah saya baca.   

Poin-Poin Penting yang Harus Anda Ingat (Versi Cepat)

Paper ini adalah proposal arsitektur, jadi tidak ada hasil bombastis seperti "62% lebih efisien". Fokusnya adalah pada visi dan inovasi metodologi.   

  • 🚀 Visinya Luar Biasa: Kita bergeser dari paradigma "mobil otonom tunggal" (setiap mobil adalah benteng yang berjuang sendiri) ke "ekosistem otonom kolaboratif" (setiap mobil, tiang lampu, dan pejalan kaki adalah rekan satu tim).

  • 🧠 Inovasi Utamanya: Memecahkan masalah "oklusi" (titik buta) dengan sensor fusion. Mobil Anda tidak perlu melihat Anda untuk tahu Anda ada di sana, karena infrastruktur dan ponsel Anda sudah memberitahunya.   

  • 💡 Pelajaran Buat Saya: Solusi terbaik untuk masalah yang kompleks seringkali bukan satu agen super-pintar, tapi banyak agen "cukup pintar" yang mau berkolaborasi dan berbagi data. Itulah inti dari "Collective Intelligence".   

  • 🤯 Konsep Kunci: Memisahkan niat psikologis ("basic movement primitive") dari aksi fisik ("trajectory forecast"). Ini adalah kunci untuk prediksi yang benar-benar andal.   

Sebuah Kritik Halus: Apa yang (Sengaja?) Dilewatkan oleh Paper Ini

Meskipun saya menyukai visi ini, ada beberapa hal yang membuat saya mengernyitkan dahi. Ini adalah pertanyaan-pertanyaan yang—menurut saya—tidak dijawab oleh paper ini.

H3: Masalah Kesenjangan Digital (The Digital Divide)

Seluruh arsitektur yang agung ini (digambarkan di Gambar 3) memiliki tiga pilar: Mobil, Infrastruktur, dan "Body" (sensor yang dipakai VRU). Pilar "Body" ini bergantung pada "VRU yang dilengkapi dengan perangkat pintar".   

Mari kita pikirkan sejenak. Siapa VRU yang paling rentan di jalanan? Seringkali anak-anak yang berlari mengejar bola, lansia, atau tunawisma. Mereka adalah kelompok yang paling tidak mungkin membawa smartphone atau smartwatch terbaru yang menjalankan aplikasi pelacakan ini.

Apakah sistem ini secara tidak sengaja menciptakan "kasta" keselamatan di jalan? Di mana mereka yang kaya dan memiliki teknologi terbaru menjadi "terlihat" dan dilindungi oleh sistem, sementara mereka yang tidak mampu membelinya menjadi semakin tidak terlihat dan rentan? Paper ini tidak membahas bias sosio-ekonomi yang sangat nyata ini.

H3: Masalah Ketergantungan dan Akurasi

Paper ini dengan jujur mengakui di bagian akhir bahwa data dari sensor yang dipakai di tubuh (ponsel) "jauh kurang akurat mengenai penentuan posisi absolut" dibandingkan, katakanlah, video dari kamera infrastruktur.   

Mereka lalu mengatakan ini tidak apa-apa karena (1) informasi yang tidak akurat pun lebih baik daripada tidak ada informasi sama sekali (terutama saat terhalang) dan (2) "sistem sensor di perangkat seluler akan terus ditingkatkan".   

Alasan kedua itu, terus terang, adalah sedikit hand-waving—mengandalkan teknologi masa depan untuk memperbaiki masalah desain hari ini. Menggantungkan sistem keselamatan real-time yang kritis pada akurasi GPS ponsel yang terkenal buruk di "hutan kota" (dikelilingi gedung tinggi) terasa sangat berisiko bagi saya.

H3: Masalah Privasi dan Komunikasi

Mari kita bahas gajah di dalam ruangan. Smartphone saya akan terus-menerus menyiarkan "niat" saya—pergerakan dasar saya, ke mana saya melihat, prediksi ke mana saya akan melangkah—ke setiap mobil dan infrastruktur di sekitar saya?

Siapa yang memiliki data ini? Bagaimana data ini dianonimkan? Apa yang terjadi jika data ini diretas?

Secara teknis, paper ini hanya menyebutkan bahwa "strategi baru untuk jaringan ad hoc diusulkan". Ini adalah cara akademis untuk mengatakan, "Kami tahu ini masalah besar, tapi itu bukan fokus kami." Menciptakan jaringan on-the-fly yang stabil, aman, dan berlatensi sangat rendah antara puluhan agen yang bergerak (mobil, orang) di persimpangan yang kacau adalah tantangan teknik yang monumentalPaper ini mengidentifikasinya, tetapi tidak menyelesaikannya.   

Dampak Nyata yang Bisa Saya Terapkan Hari Ini (Bukan Cuma di Mobil)

Anda mungkin tidak sedang membangun mobil otonom. Saya juga tidak. Tapi prinsip-prinsip dalam paper ini sangat relevan dengan cara kita bekerja setiap hari.

Pelajaran 1: Hancurkan Silo Data Anda. Mobil yang sendirian di paper ini adalah "silo". Ia buta terhadap apa yang tidak bisa dilihatnya. Di kantor Anda, tim sales adalah "silo". Tim marketing adalah "silo". Tim produk adalah "silo". Mereka semua memiliki "oklusi" (titik buta). Visi "Collective Intelligence"  adalah tentang menciptakan fusi data. Bagaimana Anda bisa membuat data dari tim sales (umpan balik pelanggan) secara otomatis menginformasikan model tim marketing (target audiens)?   

Pelajaran 2: Debat 'Feature' vs. 'Decision' di Rapat Anda. Ingat analogi 'Tim Detektif' (feature-level) vs. 'Panel Ahli' (decision-level)?. Ini terjadi di setiap rapat yang pernah Anda hadiri. Apakah Anda ingin tim Anda membawa "data mentah" (fitur) ke rapat untuk dianalisis bersama? (Ini lambat, tapi mendalam). Atau Anda ingin setiap anggota tim datang dengan "keputusan" mereka yang sudah matang dan Anda tinggal melakukan voting? (Ini cepat, tapi dangkal). Keduanya adalah strategi yang valid, dan paper ini mengajarkan kita untuk bersikap fleksibel tentang kapan menggunakan yang mana.   

Mengelola semua bagian yang bergerak ini—data dari agen yang berbeda, tujuan yang saling bertentangan, timeline yang ketat, dan komunikasi antar tim—pada dasarnya adalah inti dari Project ManagementPaper ini, pada intinya, adalah proposal untuk sistem manajemen proyek yang sangat canggih untuk keselamatan lalu lintas.   

Bayangkan kembali "tarian" canggung di persimpangan yang saya ceritakan di awal.

Sekarang bayangkan ini: Anda melangkah ke tepi trotoar. Bahkan sebelum kaki Anda meninggalkan trotoar, sistem "Collective Intelligence" ini telah mendeteksi pergeseran postur dan arah pandangan Anda. Ia mengklasifikasikan "gerakan dasar" Anda sebagai 'akan-menyeberang'.   

Secara instan, sistem ini memberi tahu setiap mobil dalam radius 100 meter bahwa niat Anda adalah 'akan-menyeberang'. Mobil yang mendekat tidak hanya "melihat" Anda sebagai objek. Ia memahami niat Anda. Tidak ada lagi tarian canggung. Tidak ada lagi ambiguitas.

Itu adalah dunia yang sedang dibangun oleh para peneliti ini. Ya, ini rumit. Ya, ini sedikit menyeramkan dari sisi privasi. Tapi ini juga sangat brilian.

Kalau kamu tertarik dengan ini, dan ingin ikut pusing-pusing seru bareng saya memikirkan detail teknisnya, coba baca paper aslinya. Ini bacaan yang padat, tapi sangat sepadan.

(https://doi.org/10.48550/arXiv.1809.03916)