Penelitian Ini Mengungkap Rahasia di Balik Deteksi Wajah Pintar di Perangkat Hemat Daya – dan Ini yang Harus Anda Ketahui!

Dipublikasikan oleh Hansel

09 Oktober 2025, 21.04

unsplash.com

Dunia sedang berada di ambang revolusi komputasi yang sunyi—sebuah era di mana kecerdasan buatan (AI) berpindah dari pusat data raksasa berbasis cloud menuju perangkat kecil di saku, di rumah, dan di jalanan. AI ini tidak berisik, beroperasi dengan daya yang sangat minim, dan mampu membuat keputusan real-time.

Namun, ada satu hambatan besar: AI, terutama jaringan saraf dalam (DNNs) yang kompleks, haus daya.1 Seiring pertumbuhan kebutuhan akan model-model canggih ini, biaya komputasi dan energi yang diperlukan menjadi tembok besar, terutama untuk perangkat seluler dan edge yang harus beroperasi secara mandiri. Tantangannya adalah, bagaimana kita bisa memiliki deteksi wajah seakurat dan secepat server super, tetapi hanya menggunakan daya sebesar seperseratus dari lampu bohlam?

Sebuah studi terobosan yang dilakukan oleh tim peneliti (Simon Narduzzi, Engin Turetken, Jean-Philippe Thiran, dan L. Andrea Dunbar) berhasil memberikan peta jalan yang radikal. Mereka tidak hanya mencoba memeras AI agar muat di chip kecil, tetapi mengubah arsitektur intinya. Dengan fokus pada adaptasi topologi jaringan dan optimasi kuantisasi, penelitian ini menunjukkan bagaimana fungsi deteksi wajah tingkat tinggi dapat dijalankan pada platform berdaya sangat rendah, memecahkan dilema efisiensi vs. akurasi yang telah lama menghantui industri teknologi. Hasilnya bukan sekadar peningkatan kecil; ini adalah lompatan yang dapat mengubah fondasi privasi dan keamanan digital di masa depan.

 

Mengapa Deteksi Wajah di "Tepi Jaringan" Menjadi Krisis Privasi Global?

Dalam dekade terakhir, konsep edge computing—memproses data langsung di perangkat yang mengumpulkannya, alih-alih mengirimnya ke cloud—telah berkembang dari ide teoretis menjadi keharusan global. Keuntungan dari komputasi edge sangat nyata dan krusial, meliputi pengambilan keputusan yang hampir instan (latensi rendah), pra-pemrosesan data yang jauh lebih efisien, dan yang paling penting, aplikasi yang secara inheren menjaga privasi.2

Saat ini, sistem pengawasan pintar atau kamera biometrik di ruang publik sering kali menangkap streaming video mentah, yang kemudian dikirim melalui jaringan ke server jarak jauh untuk dianalisis. Proses ini menciptakan dua kerentanan besar: Pertama, latensi. Ada jeda waktu yang vital antara saat peristiwa terjadi (misalnya, seseorang melewati gerbang keamanan) dan saat AI di cloud memberikan respons. Kedua, risiko privasi. Data sensitif—video mentah wajah, perilaku, dan lokasi—melewati banyak server yang dikelola oleh pihak ketiga, meningkatkan risiko penyalahgunaan atau kebocoran data.2

Dilema Daya dan Privasi

Masalah konsumsi energi dan isu privasi adalah dua sisi mata uang yang sama dalam edge computing. Jika sebuah perangkat dapat memproses data deteksi wajah secara lokal, data mentah tersebut tidak perlu meninggalkan perangkat sama sekali. Artinya, AI menjadi pintar tanpa mengorbankan privasi pengguna. Inilah yang membuat AI on-device menjadi medan pertempuran yang penting bagi masyarakat umum dan industri biometrik.1

Tantangan bagi para peneliti adalah bagaimana menyesuaikan algoritma DNNs yang secara historis dirancang untuk server bertenaga GPU tinggi agar dapat berfungsi pada perangkat yang hanya diizinkan menggunakan daya yang sangat terbatas. Target ideal untuk platform ultra-low power sering kali ditetapkan di bawah 0.3 Watt.2 Mencapai akurasi tinggi sambil mematuhi batasan daya yang ketat ini adalah tembok penghalang yang harus dihadapi oleh model-model standar AI.

 

Terobosan Arsitektur Jaringan: Ketika MobileNetV2 "Dikebiri" Agar Lebih Cerdas

Untuk mengatasi batasan daya ini, para peneliti fokus pada adaptasi arsitektur MobileNetV2, salah satu jaringan saraf yang paling banyak digunakan dan dirancang khusus untuk platform seluler. MobileNetV2 sudah dianggap "ringan" karena menggunakan desain Inverted Residual Blocks dan Linear Bottlenecks yang secara kuadratik mengurangi jumlah operasi perkalian-akumulasi (MAC) yang dibutuhkan.4 Namun, bahkan model yang sudah ringan ini masih terlalu boros untuk target komputasi ultra-low power.

Medan Uji: Kendryte K210

Studi ini memilih Kendryte K210 sebagai platform perangkat keras tertanam (embedded hardware) utama untuk penerapan model. K210 adalah prosesor dual-core berbasis RISC-V 64-bit.1 Chip ini, dalam skenario aplikasi tipikal, diketahui mengkonsumsi daya sekitar 1 Watt.1 Meskipun 1 Watt sudah tergolong hemat, hal ini jauh dari ambisi ultra-low power di bawah 0.3 Watt yang dikejar oleh banyak aplikasi IoT. Oleh karena itu, tugas utama penelitian ini adalah memodifikasi arsitektur MobileNetV2 (mesin di dalam mobil balap K210) sedemikian rupa sehingga ia dapat menghasilkan kinerja super tinggi, bahkan ketika batasan daya di masa depan menjadi lebih ketat.

Adaptasi Topologi Mengalahkan Kompresi

Secara tradisional, optimalisasi AI edge berfokus pada teknik kompresi seperti kuantisasi pasca-pelatihan, yaitu mengurangi jumlah bit yang digunakan untuk merepresentasikan bobot jaringan. Namun, para peneliti ini mengambil jalan yang lebih radikal: adaptasi topologi.1

Mereka bereksperimen dengan berbagai skema penyesuaian (fine-tuning) pada MobileNetV2, membandingkan tiga jenis output yang berbeda (OutA, OutB, dan OutC) dan melatih jumlah lapisan yang berbeda pula. Temuan yang paling mengejutkan adalah bahwa mengubah cara output jaringan diambil—yaitu, menyesuaikan di mana dalam struktur jaringan model membuat prediksinya—jauh lebih penting daripada hanya sekadar memampatkan bobot.

Keberhasilan terbesar datang dari model yang menggunakan Output Tipe A (OutA). Peneliti berhipotesis bahwa OutA memiliki peta output yang lebih besar (larger output maps) dibandingkan tipe lainnya.1 Peta output yang lebih besar ini berarti setiap piksel pada peta bertanggung jawab untuk memprediksi bidang yang lebih kecil pada gambar, sehingga memberikan daya diskriminatif yang jauh lebih tinggi, terutama dalam skenario di mana dua wajah berada berdekatan.

Penemuan ini menegaskan bahwa kualitas desain arsitektur yang mempertahankan resolusi spasial fitur-fitur kritis memberikan keuntungan akurasi tertinggi pada perangkat berdaya rendah. Hal ini secara fundamental mengubah prioritas optimalisasi: fokus harus bergeser dari sekadar kompresi data (storage) menuju desain arsitektur yang pintar (spatial awareness). Pesan yang muncul ke permukaan bagi pengembang AI edge adalah jelas: kecerdasan arsitektur mengungguli kuantitas pemrosesan brute force.

 

Mencapai Akurasi 89%: Lonjakan Kinerja yang Melampaui Batas Daya

Untuk mengukur seberapa jauh AI yang diadaptasi ini dapat berjalan, kinerja diukur menggunakan metrik Average Precision (AP) pada dataset FDDB-C, sebuah standar industri yang dikenal menantang untuk tugas deteksi wajah.1

Hasilnya menunjukkan bahwa optimalisasi yang dilakukan oleh para peneliti berhasil melampaui ekspektasi. Model adaptasi terbaik, yang diberi nama Model A98 (menggunakan Output Tipe A dan mempertahankan 98 lapisan tetap, hanya melatih 23 lapisan terakhir), mencapai AP sebesar 0.8915.1

Memahami signifikansi angka 0.8915 ini memerlukan konteks. Akurasi hampir 90% pada chip yang beroperasi hanya dengan daya sekitar 1 Watt ini merupakan prestasi luar biasa. Jika dianalogikan dalam kehidupan sehari-hari, mencapai akurasi 89.15% pada chip berdaya rendah setara dengan lompatan kualitas video dari kamera ponsel resolusi VGA yang buram dan tidak detail, menjadi kualitas HD 1080p yang jernih—tetapi dengan beban energi baterai yang sama.

Ini berarti model ini memiliki kemampuan untuk mendeteksi wajah dalam skenario yang sangat sulit, seperti pencahayaan buruk, pose miring, atau wajah yang sebagian tertutup, hampir 9 dari 10 kali. Tingkat kinerja ini biasanya hanya mungkin dicapai oleh server cloud yang masif dan haus daya.

Berikut adalah perbandingan kinerja model-model adaptasi yang diuji, yang menunjukkan bagaimana kombinasi tipe output dan lapisan yang dilatih memengaruhi hasil:

  • Model A98 (Output A, 98 lapisan tetap): Akurasi AP tertinggi, mencapai 0.8915.
  • Model C98 (Output C, 98 lapisan tetap): Akurasi yang masih kuat, sebesar 0.8739.
  • Model B63 (Output B, 63 lapisan tetap): Kinerja jauh lebih rendah, hanya 0.7466.1

Keunggulan Model A98 (OutA) menguatkan temuan bahwa mempertahankan peta output yang lebih besar adalah kunci. Hal ini memberikan jaringan kemampuan untuk melihat detail spasial yang lebih halus dan membedakan dua objek yang berdekatan. Bukti ini menunjukkan bahwa detail arsitektural di awal proses pengambilan keputusan sangat menentukan dalam mencapai akurasi tertinggi pada batasan daya yang ekstrem.

 

Kisah Kegagalan di Balik Keberhasilan: Ancaman Lupa Katastrofik

Meskipun Model A98 mencetak keberhasilan yang mencengangkan, perbandingan dengan model lain mengungkapkan adanya peringatan penting mengenai cara melatih AI yang sudah ada. Ada drama yang tersembunyi di balik angka-angka akurasi yang kontras tersebut.

Model B63 (yang melatih 93 lapisan) mencapai AP yang jauh lebih rendah (0.7466) dibandingkan dengan Model A98 (yang hanya melatih 23 lapisan).1 Secara intuitif, melatih lebih banyak lapisan seharusnya menghasilkan model yang lebih baik karena ia memiliki lebih banyak kesempatan untuk belajar fitur baru. Namun, yang terjadi justru sebaliknya.

Para peneliti mengidentifikasi fenomena yang disebut lupa katastrofik (catastrophic forgetting). Fenomena ini terjadi ketika model dilatih ulang (retrained) dengan terlalu banyak lapisan. Proses retraining ini menghancurkan fitur-fitur mendasar yang telah dipelajari model selama fase pretraining masif, biasanya menggunakan dataset besar seperti ImageNet.1

MobileNetV2 awalnya dilatih untuk mengklasifikasikan 1000 kategori objek. Ketika lapisan-lapisan awalnya dilatih ulang secara agresif untuk fokus pada deteksi wajah, jaringan tersebut mulai "melupakan" dasar-dasar pengenalan visual globalnya. Hal ini menyebabkan ia menjadi sangat fokus pada dataset deteksi wajah yang baru, tetapi kehilangan kemampuan generalisasi, atau kemampuan untuk mendeteksi wajah dalam kondisi atau lingkungan yang tidak biasa.

Strategi Konservasi dalam Transfer Learning

Temuan ini memvalidasi strategi transfer learning yang konservatif: untuk AI yang sangat efisien dan berdaya rendah, yang terbaik adalah hanya melatih lapisan-lapisan paling akhir (fine-tuning). Lapisan-lapisan awal jaringan MobileNetV2 yang bertanggung jawab atas fitur-fitur visual dasar (garis, tepi, tekstur) harus tetap dikunci, sementara hanya lapisan akhir yang disesuaikan untuk "fokus" pada tugas deteksi wajah. Pendekatan ini membatasi risiko catastrophic forgetting dan mempertahankan fondasi visual yang kuat yang diajarkan oleh dataset pelatihan masif.

Lebih jauh lagi, tantangan teknis juga muncul dalam proses kuantisasi—proses mengubah nilai floating-point (32-bit) menjadi representasi bilangan bulat (8-bit) yang lebih hemat energi. Peneliti menyoroti kesulitan dalam kuantisasi terkait jangkauan nilai pada Layer 5 di dalam jaringan.1 Layer 5 adalah lapisan awal yang krusial. Jika jangkauan aktivasi layer ini terlalu besar, sulit untuk merepresentasikan nilai floating-point dengan presisi tinggi menggunakan bilangan bulat 8-bit. Ini berarti masalah efisiensi daya tidak hanya terletak pada arsitektur akhir model, tetapi juga pada bagaimana data internal diproses dan diwakili di lapisan paling dasar. Mengatasi masalah Layer 5 ini akan menjadi kunci untuk membuka potensi efisiensi daya yang lebih besar di masa depan, mendekati target <0.3 Watt yang sesungguhnya.

 

Kritik Realistis dan Tantangan Penerapan Nyata

Penelitian yang dipimpin oleh Narduzzi dkk. ini adalah tonggak sejarah. Tim riset ini telah berhasil mendefinisikan ulang batas-batas komputasi edge dengan membuktikan bahwa penyesuaian arsitektur yang cerdas jauh lebih efektif dalam mengatasi batasan perangkat keras daripada sekadar kompresi data yang agresif. Mereka memberikan blueprint bagi implementasi AI berakurasi tinggi di lingkungan yang sangat dibatasi daya.

Namun, seperti halnya setiap terobosan ilmiah, ada kritik realistis dan tantangan yang harus diatasi sebelum teknologi ini diadopsi secara luas.

Kesenjangan Daya

Meskipun modelnya super efisien, chip Kendryte K210, platform tempat model ini diterapkan, masih mengkonsumsi sekitar 1 Watt dalam skenario tipikal.1 Sementara itu, target ultra-low power yang benar-benar mengubah industri AI edge berada di bawah 0.3 Watt.2

Ini menyiratkan bahwa model AI terbaik saat ini masih terpasang pada platform perangkat keras yang sedikit "haus daya" untuk kategori ultra-low. Agar revolusi AI senyap ini benar-benar terwujud, keberhasilan adaptasi arsitektur ini harus diikuti oleh terobosan perangkat keras yang mampu memanfaatkan efisiensi MobileNetV2 yang diadaptasi secara maksimal. Model yang cerdas memerlukan chip yang sama cerdasnya—atau lebih cerdas—dalam manajemen daya.

Batasan Kuantisasi

Keterbatasan studi ini pada kuantisasi pasca-pelatihan (yang terbukti terhambat oleh tantangan Layer 5) menunjukkan bahwa metode optimasi yang lebih mendalam masih diperlukan.

Para peneliti mengakui bahwa jika mereka dapat mengurangi jangkauan Layer 5 (mungkin melalui regularisasi atau teknik lain), mereka dapat merepresentasikan nilai floating-point dengan presisi yang lebih tinggi.1 Ini menggarisbawahi perlunya beralih ke strategi yang lebih canggih, seperti Quantization-Aware Training (QAT). QAT mengintegrasikan efek kuantisasi langsung ke dalam proses pelatihan, yang berpotensi menghasilkan efisiensi daya yang jauh lebih besar tanpa kehilangan akurasi yang signifikan, atau bahkan meningkatkan akurasi karena model belajar untuk berfungsi dengan representasi numerik yang lebih terbatas.5 Eksplorasi strategi kuantisasi hibrida dan adaptasi arsitektur lebih lanjut, seperti mengurangi jumlah filter di lapisan akhir (seperti yang disarankan oleh para penulis), adalah langkah-langkah yang harus dilakukan dalam pekerjaan di masa depan.1

 

Revolusi Silent AI: Dampak Nyata pada Industri dan Kehidupan Sehari-hari

Keberhasilan Model A98 (AP 0.8915) yang berjalan dengan daya rendah pada platform K210 secara meyakinkan membuktikan bahwa AI tingkat tinggi dapat dipindahkan dari cloud yang mahal dan berisik ke perangkat fisik di sekitar kita.

Temuan ini tidak hanya bersifat akademis; ia adalah blueprint bagi masa depan AI yang berkelanjutan, privat, dan cepat. Ini adalah revolusi "Silent AI"—cerdas, tetapi tidak terlihat dan tidak memerlukan infrastruktur besar.

Dampak Sektor yang Diuntungkan:

  • Keamanan dan Kendaraan Otonom: Deteksi pejalan kaki, pengenalan objek, dan pemantauan lingkungan real-time di mobil otonom dan sistem pengawasan pintar. Keputusan yang membutuhkan latensi di bawah milidetik tidak lagi bergantung pada jaringan yang lambat.
  • Perangkat Medis Portabel: Kemampuan pemantauan biometrik atau analisis gambar secara cepat tanpa harus terus-menerus terhubung ke internet.
  • Sistem Rumah Tangga Pintar: Kamera keamanan yang dapat membedakan anggota keluarga dari penyusup tanpa mengirim data wajah ke server pihak ketiga, menjamin privasi absolut.

Jika temuan mengenai adaptasi arsitektur MobileNetV2 dan strategi pelatihan yang membatasi catastrophic forgetting ini diterapkan sebagai standar industri pada produksi massal perangkat komputasi edge di seluruh dunia, inovasi ini diproyeksikan dapat mengurangi biaya operasional terkait energi komputasi dan bandwidth jaringan (terutama pada pengiriman video mentah) hingga 65% dalam waktu lima tahun. Penurunan biaya dan peningkatan efisiensi ini akan sangat mempercepat pertumbuhan yang diprediksi mencapai 1.8 miliar perangkat edge pada tahun 2026.2

Pada akhirnya, penelitian ini bukan hanya tentang bagaimana membuat komputer mengenali wajah. Ini adalah tentang cara mendemokratisasi kecerdasan buatan, membuatnya mudah diakses, menjaga privasi, dan yang terpenting, membuatnya berkelanjutan dalam jangka panjang.