Pengenalan Analisis Diskriminan Linear (LDA): Memahami Teknik Klasifikasi dan Reduksi Dimensi

Dipublikasikan oleh Muhammad Ilham Maulana

04 April 2024, 09.55

Sumber: ml-explained.com

Analisis Diskriminan Linear (LDA), juga dikenal sebagai Analisis Diskriminan Normal (NDA) atau Analisis Fungsi Diskriminan, adalah generalisasi dari diskriminan linier milik Fisher. Metode ini digunakan dalam statistik dan bidang lainnya untuk menemukan kombinasi linear fitur yang menggambarkan atau memisahkan dua atau lebih kelas objek atau peristiwa. Kombinasi yang dihasilkan dapat digunakan sebagai pengklasifikasi linier atau, lebih umumnya, untuk reduksi dimensi sebelum klasifikasi lebih lanjut.

LDA berkaitan erat dengan analisis varians (ANOVA) dan analisis regresi, yang juga berusaha untuk mengekspresikan satu variabel terikat sebagai kombinasi linear dari fitur atau pengukuran lainnya. Namun, ANOVA menggunakan variabel independen kategorikal dan variabel terikat kontinu, sedangkan analisis diskriminan memiliki variabel independen kontinu dan variabel terikat kategorikal (yaitu label kelas). Regresi logistik dan regresi probit lebih mirip dengan LDA daripada ANOVA, karena mereka juga menjelaskan variabel kategorikal dengan nilai variabel independen kontinu.

LDA juga berkaitan erat dengan Analisis Komponen Utama (PCA) dan analisis faktor karena keduanya mencari kombinasi linear dari variabel yang paling baik menjelaskan data. LDA secara eksplisit mencoba memodelkan perbedaan antara kelas data, sedangkan PCA tidak memperhatikan perbedaan kelas, dan analisis faktor membangun kombinasi fitur berdasarkan perbedaan daripada kesamaan. Analisis diskriminan juga berbeda dari analisis faktor karena bukan merupakan teknik interdependensi: perlu dibuat perbedaan antara variabel independen dan variabel terikat (juga disebut variabel kriteria).

LDA bekerja ketika pengukuran yang dilakukan pada variabel independen untuk setiap observasi adalah kuantitas kontinu. Ketika berurusan dengan variabel independen kategorikal, teknik setara adalah analisis korespondensi diskriminan. Analisis diskriminan digunakan ketika grup sudah diketahui sebelumnya (berbeda dengan analisis cluster). Setiap kasus harus memiliki skor pada satu atau lebih ukuran prediktor kuantitatif, dan skor pada ukuran grup. Secara sederhana, analisis fungsi diskriminan adalah klasifikasi - tindakan mendistribusikan hal-hal ke dalam kelompok, kelas, atau kategori yang sama.

Sejarah dan Perkembangan Analisis Diskriminan

Pada tahun 1936, Sir Ronald Fisher mengembangkan analisis diskriminan dichotomous asli. Metode ini berbeda dari ANOVA atau MANOVA, yang digunakan untuk memprediksi satu (ANOVA) atau beberapa (MANOVA) variabel terikat kontinu dengan satu atau lebih variabel independen kategorikal. Analisis fungsi diskriminan bermanfaat dalam menentukan apakah sekumpulan variabel efektif dalam memprediksi keanggotaan kategori.

Analisis Diskriminan Linear (LDA) untuk Dua Kelas

Dalam analisis statistik, terutama dalam pemrosesan data dan klasifikasi, metode Analisis Diskriminan Linear (LDA) memiliki peran penting. Konsep ini, yang dikembangkan oleh Sir Ronald Fisher pada tahun 1936, digunakan untuk membedakan atau memisahkan dua kelas objek atau peristiwa berdasarkan serangkaian pengamatan yang dikenal.

LDA bekerja dengan mengasumsikan bahwa fungsi kepadatan probabilitas bersyarat untuk setiap kelas adalah distribusi normal dengan parameter rata-rata dan kovariansi tertentu. Di bawah asumsi ini, solusi Bayes-optimal adalah memprediksi titik-titik sebagai berasal dari kelas kedua jika log dari rasio kemungkinan lebih besar dari suatu ambang tertentu. Metode ini memungkinkan klasifikasi yang akurat dan efisien.

Selain itu, LDA juga membuat asumsi tambahan yang disebut homoskedastisitas, yang mengasumsikan bahwa kovariansi antar kelas adalah identik. Dengan asumsi ini, beberapa istilah dalam rumus klasifikasi dapat disederhanakan, menghasilkan pengklasifikasi linier yang lebih efisien.

Dari sudut pandang geometris, LDA mengartikan klasifikasi sebagai proyeksi titik dalam ruang multidimensi ke dalam vektor tertentu, di mana letaknya menentukan kelasnya. Dengan kata lain, keputusan klasifikasi adalah hasil dari perbandingan linear dari pengamatan yang diketahui.

Dengan asumsi yang tepat dan penerapan yang cermat, Analisis Diskriminan Linear (LDA) memberikan pendekatan yang kuat untuk memahami dan mengklasifikasikan data, yang dapat digunakan dalam berbagai konteks, mulai dari riset ilmiah hingga aplikasi praktis dalam kehidupan sehari-hari.

Penggunaan Praktis Analisis Diskriminan Linear (LDA)

Dalam praktiknya, rata-rata kelas dan kovariansi tidak selalu diketahui. Namun, keduanya dapat diestimasi dari set data pelatihan. Estimasi yang umum digunakan adalah estimasi maksimum kemungkinan atau estimasi maksimum a posteriori. Meskipun estimasi kovariansi mungkin dianggap optimal dalam beberapa hal, ini tidak berarti bahwa diskriminan yang dihasilkan dengan menggunakan nilai-nilai ini adalah yang terbaik dalam segala hal, bahkan jika asumsi tentang distribusi normal kelas adalah benar.

Salah satu komplikasi dalam menerapkan LDA dan diskriminan Fisher pada data nyata adalah ketika jumlah pengukuran setiap sampel melebihi jumlah sampel dalam setiap kelas. Dalam kasus ini, estimasi kovariansi tidak memiliki peringkat penuh, sehingga tidak dapat diinverskan. Ada beberapa cara untuk mengatasi hal ini, salah satunya adalah menggunakan pseudo invers sebagai gantinya. Namun, stabilitas numerik yang lebih baik dapat dicapai dengan pertama-tama memproyeksikan masalah ke dalam subruang yang dipanjangi oleh Σb. Strategi lain untuk mengatasi ukuran sampel kecil adalah dengan menggunakan estimasi penyusutan matriks kovariansi, yang dapat dinyatakan secara matematis sebagai:

Σ = (1 - λ)Σ + λI,

di mana I adalah matriks identitas, dan λ adalah intensitas penyusutan atau parameter regularisasi.

Selain itu, dalam banyak kasus praktis, diskriminan linear tidak cocok. LDA dan diskriminan Fisher dapat diperluas untuk digunakan dalam klasifikasi non-linear melalui trik kernel. Di sini, pengamatan asli secara efektif dipetakan ke dalam ruang non-linear dimensi lebih tinggi. Klasifikasi linear dalam ruang non-linear ini setara dengan klasifikasi non-linear dalam ruang asli. Contoh paling umum dari ini adalah diskriminan Fisher kernel.


Disadur dari: en.wikipedia.org