Panduan Singkat tentang Klasifikasi Statistik: Jenis, Algoritma, dan Evaluasi

Dipublikasikan oleh Muhammad Ilham Maulana

02 April 2024, 10.18

Sumber: vecteezy.com

Dalam statistik, klasifikasi adalah sebuah masalah yang mencoba untuk mengidentifikasi ke dalam salah satu dari beberapa kategori (sub-populasi) sebuah observasi. Contohnya adalah menentukan apakah sebuah email tertentu masuk ke dalam kelas "spam" atau "non-spam", atau menentukan diagnosis untuk seorang pasien berdasarkan karakteristik yang diamati dari pasien tersebut (seperti jenis kelamin, tekanan darah, atau kehadiran atau ketiadaan gejala tertentu).

Observasi-individu sering kali dianalisis menjadi serangkaian properti yang dapat diukur, yang dikenal dengan berbagai istilah seperti variabel penjelas atau fitur. Properti-properti ini bisa berupa kategori, ordinal, bernilai-integer, atau bernilai-real. Klasifikasi juga dapat dilakukan dengan membandingkan observasi dengan observasi sebelumnya melalui fungsi kesamaan atau jarak.

Sebuah algoritma yang mengimplementasikan klasifikasi, terutama dalam implementasi konkretnya, dikenal sebagai klasifier. Istilah "klasifier" kadang juga mengacu pada fungsi matematika, yang diimplementasikan oleh algoritma klasifikasi, yang memetakan data masukan ke dalam kategori.

Terminologi di berbagai bidang cukup beragam. Dalam statistik, di mana klasifikasi sering dilakukan dengan regresi logistik atau prosedur serupa, properti observasi disebut variabel penjelas (atau variabel independen, regressor, dll.), dan kategori yang akan diprediksi disebut sebagai hasil, yang dianggap sebagai nilai-nilai yang mungkin dari variabel dependen. Di machine learning, observasi sering disebut sebagai instance, variabel penjelas disebut fitur (dikelompokkan ke dalam vektor fitur), dan kategori yang mungkin diprediksi disebut sebagai kelas. Bidang lain mungkin menggunakan terminologi yang berbeda: misalnya, dalam ekologi komunitas, istilah "klasifikasi" biasanya mengacu pada analisis klaster.

Klasifikasi dan pengelompokan adalah contoh dari masalah pengenalan pola yang lebih umum, yang merupakan penugasan nilai keluaran tertentu kepada nilai masukan yang diberikan. Contoh lainnya adalah regresi, yang menugaskan nilai nyata ke setiap masukan; penandaan urutan, yang menetapkan kelas ke setiap anggota dari sebuah urutan nilai (misalnya, penandaan bagian pidato, yang menetapkan bagian pidato untuk setiap kata dalam sebuah kalimat masukan); pengurai, yang menetapkan sebuah pohon pengurai ke sebuah kalimat masukan, yang menggambarkan struktur sintaksis dari kalimat tersebut; dll.

Hubungan Dengan Masalah Lain

Sebuah subkelas umum dari klasifikasi adalah klasifikasi probabilistik. Algoritma-algoritma jenis ini menggunakan inferensi statistik untuk menemukan kelas terbaik untuk sebuah instance tertentu. Berbeda dengan algoritma-algoritma lain, yang hanya menghasilkan kelas "terbaik", algoritma probabilistik menghasilkan probabilitas dari instance tersebut menjadi anggota dari setiap kelas yang mungkin. Kelas terbaik biasanya dipilih sebagai kelas dengan probabilitas tertinggi. Namun, algoritma semacam ini memiliki banyak keunggulan dibandingkan dengan klasifier non-probabilistik:

  • Dapat menghasilkan nilai kepercayaan yang terkait dengan pilihannya (secara umum, klasifier yang dapat melakukan ini dikenal sebagai klasifier yang memperhitungkan kepercayaan).
  • Sebagai respons, dapat menahan diri saat kepercayaannya dalam memilih keluaran tertentu terlalu rendah.
  • Karena probabilitas yang dihasilkan, klasifier probabilistik dapat lebih efektif dimasukkan ke dalam tugas-tugas pembelajaran mesin yang lebih besar, dengan cara yang sebagian atau sepenuhnya menghindari masalah penyebaran kesalahan.

Prosedur Yang Sering Dilakukan

Pada awalnya, pekerjaan awal tentang klasifikasi statistik dilakukan oleh Fisher dalam konteks masalah dua kelompok, yang menghasilkan fungsi diskriminan linear Fisher sebagai aturan untuk menetapkan kelompok pada sebuah observasi baru. Pekerjaan awal ini mengasumsikan bahwa nilai data dalam setiap dari dua kelompok memiliki distribusi multivariat normal. Perluasan dari konteks yang sama ini ke lebih dari dua kelompok juga telah dipertimbangkan dengan diberlakukannya batasan bahwa aturan klasifikasi harus linear. Kemudian, pekerjaan untuk distribusi normal multivariat memungkinkan klasifier menjadi non-linear: beberapa aturan klasifikasi dapat diperoleh berdasarkan penyesuaian berbeda dari jarak Mahalanobis, dengan sebuah observasi baru ditugaskan ke kelompok yang pusatnya memiliki jarak terbesar yang disesuaikan dari observasi tersebut.

Prosedur Bayesian

Prosedur Bayesian, berbeda dengan prosedur Frequentist, menyediakan cara alami untuk memperhitungkan informasi yang tersedia tentang ukuran relatif dari berbagai kelompok dalam populasi secara keseluruhan. Prosedur Bayesian cenderung mahal secara komputasi dan, pada masa sebelum komputasi rantai Markov Monte Carlo dikembangkan, aproksimasi untuk aturan pengelompokan Bayesian diperkirakan. Beberapa prosedur Bayesian melibatkan perhitungan probabilitas keanggotaan kelompok: ini memberikan hasil yang lebih informatif daripada atribusi sederhana dari sebuah label kelompok kepada setiap observasi baru.

Klasifikasi Biner Dan Multikelas

Klasifikasi dapat dipikirkan sebagai dua masalah terpisah - klasifikasi biner dan klasifikasi multikelas. Dalam klasifikasi biner, tugas yang lebih dipahami, hanya ada dua kelas yang terlibat, sedangkan klasifikasi multikelas melibatkan penugasan objek ke salah satu dari beberapa kelas. Karena banyak metode klasifikasi telah dikembangkan khusus untuk klasifikasi biner, klasifikasi multikelas seringkali membutuhkan penggunaan gabungan dari beberapa klasifier biner.

Vektor Fitur

Fitur vektor digunakan untuk menggambarkan instance yang kategori-nya akan diprediksi menggunakan serangkaian properti yang dapat diukur dari instance tersebut. Setiap properti disebut fitur, juga dikenal dalam statistik sebagai variabel penjelas (atau variabel independen, meskipun fitur mungkin atau mungkin tidak independen secara statistik). Fitur dapat berupa biner, kategorikal, ordinal, bernilai-integer, atau bernilai-real. Jika instance adalah gambar, nilai fitur mungkin sesuai dengan piksel gambar; jika instance adalah potongan teks, nilai fitur mungkin adalah frekuensi kemunculan kata-kata yang berbeda. Beberapa algoritma hanya bekerja dalam hal data diskrit dan memerlukan bahwa data bernilai-real atau bernilai-integer diskritisasi menjadi kelompok-kelompok.

Classifier algoritma sering kali dibentuk sebagai sebuah fungsi linear yang menetapkan skor untuk setiap kategori mungkin dengan menggabungkan vektor fitur dari sebuah instance dengan sebuah vektor bobot, menggunakan perkalian titik. Kategori yang diprediksi adalah kategori dengan skor tertinggi. Fungsi skor semacam ini dikenal sebagai fungsi prediktor linear dan memiliki bentuk umum berikut:

{\displaystyle \operatorname {score} (\mathbf {X} _{i},k)={\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i},}score(Xi​,k)=βk​⋅Xi​

Di mana Xi​ adalah vektor fitur untuk instance i, βk​ adalah vektor bobot yang sesuai dengan kategori  k, dan score (Xi​,k) adalah skor yang terkait dengan menugaskan instance i ke kategori k. Dalam teori pilihan diskrit, di mana instance mewakili orang dan kategori mewakili pilihan, skor tersebut dianggap sebagai utilitas yang terkait dengan orang i memilih kategori k.

Algoritma Klasifikasi Statistik

Algoritma dengan setup dasar ini dikenal sebagai klasifier linear. Yang membedakan mereka adalah prosedur untuk menentukan (pelatihan) bobot/koefisien optimal dan cara interpretasi skor tersebut.

Contoh algoritma semacam ini termasuk:

  • Regresi logistik – Model statistik untuk variabel dependen biner
  • Regresi logistik multinomial – Regresi untuk lebih dari dua hasil diskrit
  • Regresi Probit – Regresi statistik di mana variabel dependen hanya dapat mengambil dua nilai
  • Algoritma perceptron
  • Mesin vektor pendukung – Set metode untuk pembelajaran statistik terawasi
  • Analisis diskriminan linear – Metode yang digunakan dalam statistik, pengenalan pola, dan bidang lainnya

Karena tidak ada bentuk tunggal klasifikasi yang sesuai untuk semua set data, telah dikembangkan berbagai algoritma klasifikasi. Yang paling umum digunakan meliputi:

  • Jaringan syaraf tiruan – Model komputasi yang digunakan dalam pembelajaran mesin, berdasarkan fungsi terhubung dan hierarkis
  • Peningkatan (meta-algoritma) – Metode dalam pembelajaran mesin
  • Pembelajaran pohon keputusan – Algoritma pembelajaran mesin
  • Hutan acak – Metode pembelajaran mesin berbasis pohon pencarian biner
  • Pemrograman genetika – Evolusi program komputer dengan teknik analogi proses genetik alami
  • Pemrograman ekspresi gen – Algoritma evolusioner
  • Pemrograman ekspresi multi
  • Pemrograman genetika linier – jenis algoritma pemrograman genetika
  • Estimasi kernel – Fungsi jendela
  • k-tetangga terdekat – Metode klasifikasi non-parametrik
  • Quantization vektor pembelajaran
  • Klasifikasi linear – Klasifikasi statistik dalam pembelajaran mesin
  • Analisis diskriminan linear Fisher – Metode yang digunakan dalam statistik, pengenalan pola, dan bidang lainnya
  • Regresi logistik – Model statistik untuk variabel dependen biner
  • Klasifier Naive Bayes – Algoritma klasifikasi probabilistik
  • Perceptron – Algoritma untuk pembelajaran terawasi klasifikasi biner
  • Klasifikasi kuadrat – digunakan dalam pembelajaran mesin untuk memisahkan pengukuran dari dua atau lebih kelas objek
  • Mesin vektor pendukung – Set metode untuk pembelajaran statistik terawasi
  • Mesin vektor pendukung kuadrat terkecil

Evaluasi

Kinerja klasifier sangat bergantung pada karakteristik data yang akan diklasifikasikan. Tidak ada klasifier tunggal yang terbaik untuk semua masalah yang diberikan (fenomena yang mungkin dijelaskan oleh teorema tidak ada makan siang gratis). Berbagai uji empiris telah dilakukan untuk membandingkan kinerja klasifier dan untuk menemukan karakteristik data yang menentukan kinerja klasifier. Menentukan klasifier yang sesuai untuk masalah tertentu masih lebih merupakan seni daripada ilmu.

Ukurannya presisi dan recall adalah metrik populer yang digunakan untuk mengevaluasi kualitas sistem klasifikasi. Lebih baru-baru ini, kurva receiver operating characteristic (ROC) telah digunakan untuk mengevaluasi pertukaran antara tingkat positif- dan negatif palsu dari algoritma klasifikasi.

Sebagai metrik kinerja, koefisien ketidakpastian memiliki keuntungan atas akurasi sederhana karena tidak dipengaruhi oleh ukuran relatif dari kelas-kelas yang berbeda. Selanjutnya, itu tidak akan menghukum sebuah algoritma hanya karena mengatur ulang kelas-kelas.

Penerapan Domain Aplikasi

erbagai domain memiliki penerapan klasifikasi yang luas. Dalam beberapa kasus, ini digunakan sebagai prosedur penambangan data, sementara dalam yang lain, pemodelan statistik yang lebih rinci dilakukan.

  • Klasifikasi biologis – Ilmu yang mengidentifikasi, mendeskripsikan, menentukan, dan memberi nama kelompok organisme biologis.
  • Biometrik – Metrik terkait dengan identifikasi karakteristik manusia.
  • Visi komputer – Ekstraksi informasi terkomputerisasi dari gambar.
  • Analisis citra medis dan pencitraan medis – Teknik dan proses pembuatan representasi visual dari dalam tubuh.
  • Pengenalan karakter optik – Pengenalan teks visual oleh komputer.
  • Pelacakan video – Menemukan objek dalam setiap frame urutan video.
  • Skoring kredit – Ekspresi numerik yang mewakili kelayakan kredit seseorang.
  • Klasifikasi dokumen – Proses pengategorian dokumen.
  • Penemuan dan pengembangan obat – Proses membawa obat farmasi baru ke pasar.
  • Toksigenomika – Cabang toksikologi dan genomika.
  • Hubungan struktur-aktivitas kuantitatif – Prediksi kuantitatif aktivitas biologis, ekotoksikologi, atau farmasi dari molekul.
  • Geostatistika – Cabang statistik yang berfokus pada kumpulan data spasial.
  • Pengenalan tulisan tangan – Kemampuan komputer untuk menerima dan menafsirkan input tulisan tangan yang dapat dimengerti.
  • Mesin pencari internet.
  • Klasifikasi mikroarray.
  • Pengenalan pola – Pengenalan otomatis pola dan keteraturan dalam data.
  • Sistem rekomendasi – Sistem penyaringan informasi untuk memprediksi preferensi pengguna.
  • Pengenalan ucapan – Konversi otomatis bahasa lisan menjadi teks.
  • Pemrosesan bahasa alami statistik – Bidang linguistik dan ilmu komputer.


Disadur dari: en.wikipedia.org