Menjelajahi Pengenalan Pola (Pattern Recognition): Dari Dasar hingga Aplikasi Praktis

Dipublikasikan oleh Muhammad Ilham Maulana

15 April 2024, 10.15

Sumber: Shutterstock / builtin.com

Pengenalan pola muncul sebagai seni mengalokasikan kelas ke pengamatan, dilihat dari pola data yang diekstraksi. Namun, hal ini berbeda dari pattern machines (PM), yang, meskipun berpotensi dilengkapi dengan kemampuan serupa, terutama berfungsi untuk membedakan dan menghasilkan pola yang muncul. Dengan aplikasi yang mencakup analisis data statistik, pemrosesan sinyal, dan lainnya, pengenalan pola berakar pada statistik dan rekayasa.

Secara tradisional, sistem pengenalan pola disempurnakan menggunakan data berlabel "pelatihan". Namun, jika tidak ada, algoritme alternatif mengungkap pola laten, menyelaraskan lebih dekat dengan ranah KDD dan penambangan data. Berakar pada teknik, pengenalan pola menggali bidang visi komputer, dengan acara-acara terkemuka seperti Konferensi Visi Komputer dan Pengenalan Pola menjadi bukti pengaruhnya.

Dalam domain pembelajaran mesin, pengenalan pola memerlukan penetapan label ke nilai input. Misalnya, klasifikasi berupaya mengalokasikan setiap masukan ke kelas yang telah ditentukan sebelumnya, seperti membedakan email "spam". Di luar klasifikasi, ini meluas ke regresi, pelabelan urutan, dan penguraian, masing-masing menangani jenis keluaran yang unik.

Algoritme pengenalan pola berusaha keras untuk memberikan respons yang masuk akal di berbagai masukan, memprioritaskan kecocokan yang "paling mungkin" sambil mempertimbangkan varian statistik. Berbeda dengan algoritma pencocokan pola, yang mencari kecocokan yang tepat, pengenalan pola berupaya untuk membedakan pola lagi, mirip dengan pengrajin terampil yang membuat desain rumit dalam kanvas data yang luas.

Ringkasan Pengenalan Pola

Dalam bidang pembelajaran mesin yang luas, pengenalan pola merupakan disiplin fundamental yang didedikasikan untuk penemuan otomatis keteraturan dan struktur dalam data melalui penggunaan algoritma komputer yang canggih. Bidang ini didorong oleh tujuan yang mendalam: untuk memanfaatkan pola yang melekat dalam data dan memanfaatkannya untuk melakukan tugas-tugas seperti mengklasifikasikan instance ke dalam kategori yang berbeda, memungkinkan mesin untuk membuat keputusan yang tepat dan mengungkap wawasan yang tersembunyi.

Pada intinya, pengenalan pola dikategorikan berdasarkan prosedur pembelajaran yang digunakan untuk menghasilkan nilai keluaran. Pembelajaran yang diawasi, sebuah pendekatan yang diadopsi secara luas, bergantung pada rangkaian pelatihan yang dikurasi dengan cermat – kumpulan contoh yang telah diberi label dengan cermat oleh pakar manusia. Data pelatihan ini berfungsi sebagai landasan bagi algoritma pembelajaran untuk membangun sebuah model, memberikan keseimbangan antara secara akurat menangkap pola dalam set pelatihan dan menggeneralisasi secara efektif ke contoh data baru yang belum terlihat.

Sebaliknya, pembelajaran tanpa pengawasan beroperasi tanpa kemewahan data pelatihan berlabel. Sebaliknya, pendekatan ini berupaya untuk mengungkap pola dan struktur inheren yang tersembunyi di dalam data itu sendiri, yang kemudian memungkinkan klasifikasi atau pengelompokan kejadian baru yang benar berdasarkan persamaan atau ketidaksamaan yang melekat pada data tersebut.

Di luar dua paradigma mendasar ini, para peneliti telah mengeksplorasi bidang pembelajaran semi-supervisi yang menarik, yang secara harmonis menggabungkan kekuatan data berlabel dan tidak berlabel, memanfaatkan yang terbaik dari kedua dunia tersebut untuk meningkatkan akurasi dan ketahanan proses pembelajaran.

  • Pengklasifikasi Probabilistik

Algoritme pengenalan pola sering kali mengadopsi pendekatan probabilistik, menggunakan inferensi statistik untuk menentukan label atau kategori yang paling mungkin untuk suatu kejadian tertentu. Algoritme ini tidak hanya menghasilkan label "terbaik" namun juga memberikan ukuran keyakinan, yang didasarkan pada teori probabilitas, menawarkan wawasan berharga dalam proses pengambilan keputusan. Sifat probabilistik ini memberikan banyak keuntungan, termasuk kemampuan untuk abstain ketika tingkat kepercayaan terlalu rendah, integrasi yang lancar ke dalam tugas pembelajaran mesin yang lebih besar, dan mitigasi penyebaran kesalahan.

Inti dari pengenalan pola terletak pada konsep vektor fitur – representasi multidimensi yang merangkum karakteristik penting dari setiap contoh. Vektor-vektor ini dapat dimanipulasi menggunakan teknik matematika yang canggih, seperti menghitung perkalian titik atau sudut antar vektor, mengungkap hubungan rumit dan persamaan yang mendasari proses pengambilan keputusan.

  • Jumlah Variabel Fitur Penting

Untuk meningkatkan efektivitas algoritme pengenalan pola, peneliti menggunakan berbagai teknik, termasuk algoritme pemilihan fitur yang memangkas fitur-fitur yang berlebihan atau tidak relevan, dan algoritme ekstraksi fitur yang mengubah vektor fitur berdimensi tinggi menjadi representasi berdimensi lebih rendah, sehingga mengurangi redundansi dan kompleksitas komputasi. .

Dalam lanskap pembelajaran mesin yang terus berkembang, pengenalan pola merupakan disiplin ilmu utama yang memberdayakan mesin untuk membedakan keteraturan dan kekacauan, mengungkap wawasan tersembunyi, dan membuat keputusan yang tepat di berbagai bidang. Saat kita terus mendorong batas-batas kecerdasan buatan, bidang pengenalan pola tidak diragukan lagi akan memainkan peran penting dalam membentuk masa depan sistem cerdas dan kemampuannya untuk menavigasi kompleksitas dunia di sekitar kita.

Memahami Pengenalan Pola: Pendekatan Frekuensitas vs. Bayes

Pengenalan pola menjadi inti dari berbagai teknologi modern, mulai dari filter spam dalam surel hingga perangkat lunak pengenalan wajah. Pada dasarnya, tujuannya adalah untuk memetakan instansi masukan ke label keluaran berdasarkan data yang ada. Namun, pendekatan untuk mencapai hal ini bervariasi secara signifikan, dengan dua metodologi utama: pendekatan frekuensitas dan Bayes.

  • Pernyataan Masalah

Dalam pengenalan pola, kita bertujuan untuk mendekati sebuah fungsi tidak diketahui g:X→Y, yang memetakan instansi masukan x∈X ke label keluaran y∈Y. Ini biasanya berdasarkan kumpulan data pelatihan D={(x1,y1),…,(xn,yn)}, di mana setiap pasangan mewakili contoh akurat dari pemetaan. Tantangannya adalah untuk menghasilkan sebuah fungsi h:X→Y, yang mendekati dengan baik pemetaan yang benar gg. Ini melibatkan definisi fungsi kerugian yang mengkuantifikasi perbedaan antara label yang diprediksi dan sebenarnya. Tujuannya kemudian adalah untuk meminimalkan kerugian yang diharapkan atas distribusi probabilitas dari X.

  • Pendekatan Frekuensitas

Pendekatan frekuensitas memperlakukan parameter model sebagai tidak diketahui tetapi objektif, mengestimasikannya dari data yang dikumpulkan. Misalnya, dalam analisis diskriminan linear, parameter seperti vektor rata-rata dan matriks kovariansi dihitung dari data. Probabilitas kelas, p(label∣θ)p(label∣θ), juga diestimasi secara empiris dari kumpulan data. Meskipun menggunakan aturan Bayes dalam klasifikasi frekuensitas, metodologi itu sendiri tetap berbeda dari inferensi Bayes.

  • Pendekatan Bayes

Statistik Bayes berasal dari membedakan antara pengetahuan 'a priori' dan 'a posteriori', seperti yang dijelaskan dalam filsafat Yunani dan kemudian oleh Kant. Dalam pengklasifikasi pola Bayes, pengguna dapat menentukan probabilitas kelas sebelumnya, p(label∣θ), berdasarkan kepercayaan subjektif mereka. Prioritas ini kemudian dapat digabungkan dengan pengamatan empiris menggunakan distribusi seperti distribusi Beta dan Dirichlet, memungkinkan integrasi yang mulus antara pengetahuan ahli dan data objektif.

  • Memilih Antara Pendekatan

Pengklasifikasi pola probabilistik dapat beroperasi dalam kerangka baik frekuensitas maupun Bayes. Sementara pendekatan frekuensitas bergantung pada estimasi objektif parameter model dan probabilitas kelas dari data, pendekatan Bayes memungkinkan untuk menggabungkan prioritas subjektif bersama pengamatan empiris.

Pengenalan Pola: Aplikasi Luas dalam Berbagai Bidang

Pola pengenalan memainkan peran krusial dalam berbagai bidang, terutama dalam ilmu kedokteran di mana sistem diagnosis berbantu komputer (CAD) menggunakan teknologi ini. Selain itu, aplikasi pola pengenalan meluas ke pengenalan ucapan, identifikasi pembicara, klasifikasi teks, dan bahkan pengenalan gambar wajah manusia. Seiring perkembangan teknologi, penggunaan pola pengenalan juga diterapkan dalam pengenalan karakter optik dan ekstraksi informasi dari gambar medis.

Dalam aplikasi praktis, teknologi ini digunakan dalam identifikasi dan otentikasi, seperti pengenalan plat nomor kendaraan, analisis sidik jari, dan deteksi wajah. Di bidang medis, pola pengenalan digunakan untuk skrining kanker, deteksi tumor, dan analisis suara jantung. Tak hanya itu, dalam pertahanan, teknologi ini dimanfaatkan dalam sistem navigasi, pengenalan target, dan teknologi pengenalan bentuk.

Pentingnya pola pengenalan juga terasa dalam mobilitas, dengan sistem bantuan pengemudi canggih dan teknologi kendaraan otonom yang mengandalkan prinsip ini. Di bidang psikologi, pengenalan pola membantu dalam memahami bagaimana manusia mengidentifikasi objek dan memberikan makna terhadapnya. Dari diagnosa medis hingga keamanan dan mobilitas, pola pengenalan menjadi landasan teknologi modern yang mendorong inovasi dan kemajuan di berbagai bidang kehidupan.

Algoritma Pengenalan Pola

Algoritma pengenalan pola bergantung pada jenis keluaran label, apakah pembelajaran diawasi atau tidak, dan apakah algoritma tersebut bersifat statistik atau non-statistik. Algoritma statistik dapat diklasifikasikan sebagai generatif atau diskriminatif.

Metode klasifikasi (metode memprediksi label kategorikal)

Parametrik:

  •      Analisis diskriminan linier
  •      Analisis diskriminan kuadrat
  •      Pengklasifikasi entropi maksimum (alias regresi logistik, regresi logistik multinomial): Perhatikan bahwa regresi logistik adalah algoritma untuk klasifikasi, terlepas dari namanya. (Nama ini berasal dari fakta bahwa regresi logistik menggunakan perluasan model regresi linier untuk memodelkan probabilitas suatu masukan berada di kelas tertentu.)

Nonparametrik:

  •      Pohon keputusan, daftar keputusan
  •      Estimasi kernel dan algoritma K-nearest-neighbor
  •      Pengklasifikasi Naive Bayes
  •      Jaringan saraf (perceptron multi-layer)
  •      Perceptron
  •      Mendukung mesin vektor
  •      Pemrograman ekspresi gen

Metode clustering (metode untuk mengklasifikasikan dan memprediksi label kategorikal)

  •      Model campuran kategorikal
  •      Pengelompokan hierarki (aglomeratif atau memecah belah)
  •      Pengelompokan K-means
  •      Pengelompokan korelasi
  •      Analisis komponen utama kernel (Kernel PCA)

Algoritma pembelajaran ansambel (meta-algoritma yang diawasi untuk menggabungkan beberapa algoritma pembelajaran bersama-sama)

  •      Peningkatan (meta-algoritma)
  •      Agregasi bootstrap ("mengantongi")
  •      Rata-rata ansambel
  •      Campuran para ahli, campuran hierarki para ahli

Metode umum untuk memprediksi label (kumpulan) yang terstruktur secara sewenang-wenang

  •      Jaringan Bayesian
  •      Bidang acak Markov
  •      Algoritma pembelajaran subruang multilinear (memprediksi label data multidimensi menggunakan representasi tensor)

Tidak diawasi:

  •      Analisis komponen utama multilinear (MPCA)

Metode pelabelan urutan bernilai nyata (memprediksi urutan label bernilai nyata)

  •      Filter Kalman
  •      Filter partikel

Metode regresi (memprediksi label bernilai nyata)

  •      Regresi proses Gaussian (kriging)
  •      Regresi dan ekstensi linier
  •      Analisis komponen independen (ICA)
  •      Analisis komponen utama (PCA)

Metode pelabelan urutan (memprediksi urutan label kategorikal)

  •      Bidang acak bersyarat (CRF)
  •      Model Markov Tersembunyi (HMM)
  •      Model Markov entropi maksimum (MEMM)
  •      Jaringan saraf berulang (RNN)
  •      Pembengkokan waktu dinamis (DTW)

 

Disadur dari: en.wikipedia.org/wkipedia.org