Menjelajahi Pengurangan Dimensi: Menyederhanakan Analisis Data untuk Wawasan yang Lebih Baik

Dipublikasikan oleh Muhammad Ilham Maulana

02 April 2024, 09.45

Sumber: en.wikipedia.org

Reduksi dimensi, atau juga dikenal sebagai pengurangan dimensi, adalah proses mengubah data dari ruang berdimensi tinggi menjadi ruang berdimensi rendah sehingga representasi berdimensi rendah tersebut tetap mempertahankan beberapa properti penting dari data asli, idealnya mendekati dimensi intrinsiknya. Bekerja dalam ruang berdimensi tinggi dapat tidak diinginkan karena berbagai alasan; data mentah seringkali bersifat langka sebagai akibat dari kutukan dimensi, dan menganalisis data tersebut biasanya sulit secara komputasi.

Pengurangan dimensi umum dalam bidang yang berurusan dengan banyak pengamatan dan/atau banyak variabel, seperti pengolahan sinyal, pengenalan ucapan, neuroinformatika, dan bioinformatika.

Metode umumnya dibagi menjadi pendekatan linear dan non-linear. Pendekatan juga dapat dibagi menjadi seleksi fitur dan ekstraksi fitur. Pengurangan dimensi dapat digunakan untuk pengurangan noise, visualisasi data, analisis cluster, atau sebagai langkah intermediet untuk memfasilitasi analisis lainnya.

  • Pendekatan seleksi fitur bertujuan untuk menemukan subset dari variabel input. Tiga strategi utamanya adalah:

    1. Strategi Filter: Misalnya menggunakan keuntungan informasi untuk memilih fitur.
    2. Strategi Pembungkus: Misalnya melakukan pencarian yang dipandu oleh akurasi.
    3. Strategi Tertanam: Fitur yang dipilih ditambahkan atau dihapus saat membangun model berdasarkan kesalahan prediksi.
  • Analisis data seperti regresi atau klasifikasi sering dilakukan di ruang yang direduksi, karena ini dapat lebih akurat daripada di ruang asli.

  • Feature projection atau ekstraksi fitur adalah proses mentransformasi data dari ruang berdimensi tinggi menjadi ruang berdimensi lebih rendah. Ini penting untuk mengatasi masalah yang melibatkan data dengan dimensi tinggi seperti analisis citra, pengenalan pola, dan pemrosesan sinyal.

  • Principal Component Analysis (PCA) adalah salah satu teknik utama dalam feature projection. PCA melakukan pemetaan linear dari data ke ruang berdimensi lebih rendah sehingga variansi data dalam representasi berdimensi rendah maksimal.

  • Non-negative Matrix Factorization (NMF) adalah teknik nonlinear yang memecah matriks non-negatif menjadi hasil perkalian dua matriks non-negatif. Ini berguna di bidang-bidang di mana sinyal hanya ada dalam bentuk non-negatif, seperti astronomi.

  • Kernel PCA memungkinkan konstruksi pemetaan nonlinear dengan memanfaatkan trik kernel. Sedangkan, manifold learning seperti Isomap dan Locally Linear Embedding (LLE) membangun representasi data berdimensi rendah dengan mempertahankan properti lokal data.

  • Autoencoder adalah pendekatan lain yang menggunakan jaringan saraf tiruan khusus untuk pembelajaran representasi data berdimensi rendah.

  • Untuk visualisasi data berdimensi tinggi, teknik seperti t-distributed Stochastic Neighbor Embedding (t-SNE) dan Uniform Manifold Approximation and Projection (UMAP) sering digunakan. Meskipun berguna untuk visualisasi, t-SNE tidak disarankan untuk analisis seperti pengelompokan atau deteksi outlier karena tidak selalu mempertahankan densitas atau jarak dengan baik.

Dengan berbagai teknik ini, feature projection memberikan alat yang kuat untuk mengatasi kompleksitas data berdimensi tinggi dan memperoleh pemahaman yang lebih baik tentang struktur data.

Pengurangan Dimensi

Untuk dataset berdimensi tinggi (yaitu dengan jumlah dimensi lebih dari 10), seringkali dilakukan reduksi dimensi sebelum menerapkan algoritma K-nearest neighbors (k-NN) untuk menghindari efek dari kutukan dimensi.

Ekstraksi fitur dan reduksi dimensi dapat digabungkan dalam satu langkah menggunakan teknik seperti principal component analysis (PCA), linear discriminant analysis (LDA), canonical correlation analysis (CCA), atau non-negative matrix factorization (NMF) sebagai langkah pra-pemrosesan yang diikuti dengan pengelompokan oleh k-NN pada vektor fitur dalam ruang dimensi yang direduksi. Dalam pembelajaran mesin, proses ini juga disebut sebagai penanaman dimensi rendah.

Untuk dataset yang sangat berdimensi tinggi (misalnya saat melakukan pencarian kesamaan pada aliran video langsung, data DNA, atau deret waktu berdimensi tinggi), menjalankan pencarian k-NN perkiraan cepat menggunakan hashing sensitivitas lokal, proyeksi acak, "sketsa", atau teknik pencarian kesamaan berdimensi tinggi lainnya dari toolbox konferensi VLDB mungkin merupakan satu-satunya opsi yang memungkinkan.

Aplikasi

Teknik reduksi dimensi yang kadang-kadang digunakan dalam neurosains adalah dimensi maksimal yang informatif, yang menemukan representasi dimensi yang lebih rendah dari sebuah dataset sehingga sebanyak mungkin informasi tentang data asli tetap dipertahankan.


Disadur dari: en.wikipedia.org/wiki/Dimensionality_reduction