Teknik Industri
Dipublikasikan oleh Sirattul Istid'raj pada 29 April 2025
Transformasi data merupakan inti dari komputasi, yang berfungsi sebagai saluran yang melaluinya informasi berevolusi dari satu format atau struktur ke format lainnya. Proses ini merupakan bagian integral dari berbagai tugas yang berhubungan dengan data, termasuk integrasi data, penyimpanan data, dan integrasi aplikasi.
Kompleksitas transformasi data dapat sangat bervariasi, tergantung pada tingkat perubahan yang diperlukan antara data sumber dan data target. Sementara beberapa transformasi mungkin sangat mudah, yang lain membutuhkan manipulasi yang rumit. Biasanya, transformasi data memadukan langkah-langkah manual dan otomatis untuk mencapai hasil yang diinginkan. Alat dan teknologi yang digunakan untuk transformasi data sangat beragam, yang mencerminkan beragamnya format, struktur, kompleksitas, dan volume data yang mengalami transformasi.
Salah satu bentuk transformasi data yang penting adalah penyusunan ulang data master. Di sini, seluruh basis data mengalami transformasi atau penyusunan ulang tanpa perlu mengekstrak data. Dalam database yang dirancang dengan baik, semua data dihubungkan secara langsung atau tidak langsung ke sekumpulan tabel database master melalui batasan kunci asing.
Dengan menyusun ulang tabel-tabel basis data master ini dengan indeks unik yang berbeda, baik data yang terkait secara langsung maupun tidak langsung juga diubah. Meskipun ada transformasi ini, bentuk asli data tetap dapat diakses melalui indeks unik yang ada. Sangat penting untuk menjalankan penyusunan ulang database ini dengan cermat untuk menghindari dampak buruk pada arsitektur perangkat lunak.Dalam skenario di mana pemetaan data terjadi secara tidak langsung melalui model data yang memediasi, proses ini disebut sebagai mediasi data.
Proses Perjalanan Transformasi Data
Transformasi data adalah proses penting dalam bidang pengelolaan data, yang mencakup beberapa langkah penting yang disesuaikan dengan kompleksitas transformasi yang ada. Mari kita selidiki setiap langkah untuk memahami signifikansinya dalam narasi transformasi yang lebih luas.
1. Penemuan Data:
Perjalanannya dimulai dengan penemuan data, di mana alat pembuatan profil atau skrip manual mengungkap seluk-beluk struktur dan karakteristik data. Langkah mendasar ini meletakkan dasar untuk memahami bagaimana data harus dibentuk dan dibentuk agar selaras dengan tujuan transformasi.
2. Pemetaan Data:
Di sini, masing-masing bidang menjalani pemetaan, modifikasi, penggabungan, pemfilteran, atau agregasi untuk membentuk hasil akhir. Biasanya dipelopori oleh pengembang atau analis teknis yang berpengalaman dalam teknologi transformasi, pemetaan data menetapkan cetak biru perjalanan transformasi.
3. Pembuatan Kode:
Prosesnya beralih ke pembuatan kode, di mana instruksi yang dapat dieksekusi, seperti SQL, Python, atau R, dibuat berdasarkan aturan pemetaan yang telah ditentukan sebelumnya. Teknologi transformasi memainkan peran penting di sini, memanfaatkan metadata atau definisi yang disediakan oleh pengembang untuk menghasilkan kode yang diperlukan.
4. Eksekusi Kode:
Dengan kode di tangan, saatnya untuk mengeksekusi. Baik terintegrasi secara mulus dalam alat transformasi atau memerlukan intervensi manual dari pengembang, eksekusi kode menghidupkan proses transformasi, mengarahkan data menuju kondisi yang diharapkan.
5. Tinjauan Data:
Pengembaraan transformasi mencapai puncaknya pada peninjauan data, yang hasilnya diperiksa dengan cermat untuk memastikan keselarasan dengan tujuan transformasi. Biasanya dipimpin oleh pengguna bisnis atau pengguna akhir, langkah ini mengungkap anomali atau kesalahan apa pun, menandakan perbaikan atau persyaratan baru bagi pengembang atau analis.
Menjelajahi Transformasi Data: Batch vs Interaktif
Transformasi data telah lama menjadi proses fundamental dalam dunia manajemen data, dan hadir dalam dua bentuk utama: batch dan interaktif. Mari kita pelajari setiap jenisnya untuk memahami signifikansi dan implikasinya dalam ranah integrasi data.
Secara tradisional, transformasi data telah beroperasi sebagai proses massal atau batch, di mana pengembang atau ahli teknis menulis kode atau menentukan aturan transformasi dalam alat integrasi data. Aturan-aturan ini kemudian dieksekusi pada volume data yang besar, mengikuti serangkaian langkah linier yang telah ditentukan sebelumnya. Transformasi data batch berfungsi sebagai tulang punggung berbagai teknologi integrasi data, termasuk pergudangan data, migrasi, dan integrasi aplikasi.
Meskipun transformasi data batch telah membuktikan nilainya selama bertahun-tahun, transformasi data batch memiliki manfaat dan keterbatasan. Di satu sisi, hal ini memungkinkan pemrosesan volume data yang sangat besar, memberi makan aplikasi penting dan penyimpanan data. Akan tetapi, hal ini juga menimbulkan tantangan. Sebagai contoh, pengguna bisnis sering kali tidak berperan langsung dalam proses transformasi, yang menyebabkan potensi salah tafsir terhadap persyaratan dan bertambahnya waktu untuk mendapatkan solusi. Hal ini memicu kebutuhan akan kelincahan dan layanan mandiri dalam integrasi data, yang bertujuan untuk memberdayakan pengguna agar dapat mentransformasi data secara interaktif.
Masukkan transformasi data interaktif (IDT), sebuah kemampuan baru yang merevolusi lanskap transformasi data. Tidak seperti transformasi batch, IDT memungkinkan analis bisnis dan pengguna untuk berinteraksi langsung dengan kumpulan data yang besar melalui antarmuka visual yang intuitif. Antarmuka ini memfasilitasi pemahaman, koreksi, dan manipulasi data melalui interaksi sederhana seperti mengklik atau memilih elemen data. Perusahaan seperti Trifacta, Alteryx, dan Paxata menawarkan alat transformasi data interaktif, mengabstraksikan kerumitan teknis dan memberdayakan pengguna untuk mengontrol data mereka.
Solusi transformasi data interaktif menyederhanakan proses persiapan data, mengurangi waktu yang dibutuhkan untuk mentransformasi data dan menghilangkan kesalahan yang merugikan dalam interpretasi. Dengan menghilangkan pengembang dari persamaan, sistem ini menempatkan kekuatan di tangan pengguna bisnis dan analis, memungkinkan mereka untuk berinteraksi dan memanipulasi data sesuai kebutuhan. Visualisasi dalam antarmuka membantu dalam mengidentifikasi pola dan anomali, yang selanjutnya meningkatkan pemahaman data dan pengambilan keputusan.
Bahasa Transformasional
Dalam bidang transformasi data, terdapat banyak bahasa yang dirancang khusus untuk tujuan ini. Bahasa-bahasa ini sering kali memerlukan tata bahasa terstruktur, biasanya menyerupai bentuk Backus–Naur (BNF), untuk memfasilitasi penggunaannya. Mari kita jelajahi beberapa bahasa transformasional yang menonjol dan signifikansinya dalam lanskap transformasi data.
Perusahaan seperti Trifacta dan Paxata telah memelopori pengembangan DSL yang dirancang khusus untuk melayani dan mengubah kumpulan data. DSL ini, seperti "Wrangle" dari Trifacta, menyederhanakan proses transformasi dan meningkatkan produktivitas, khususnya bagi pengguna non-teknis.
Salah satu keuntungan utama DSL adalah kemampuannya untuk mengabstraksi logika eksekusi yang mendasarinya, memungkinkan integrasi yang lancar dengan berbagai mesin pemrosesan seperti Spark, MapReduce, dan Dataflow. Tidak seperti bahasa tradisional, DSL tidak terikat pada mesin dasar tertentu, sehingga menawarkan fleksibilitas dan skalabilitas dalam operasi transformasi data.
Disadur dari: en.wikipedia.org/wiki/Data_transformation_(computing)
Teknik Industri
Dipublikasikan oleh Sirattul Istid'raj pada 29 April 2025
Analitika prediktif adalah bentuk analitika bisnis yang menerapkan pembelajaran mesin untuk menghasilkan model prediktif untuk berbagai aplikasi bisnis. Ini mencakup berbagai teknik statistik dari pemodelan prediktif dan pembelajaran mesin yang menganalisis fakta-fakta saat ini dan historis untuk membuat prediksi tentang peristiwa masa depan atau yang tidak diketahui lainnya. Ini merupakan subset utama dari aplikasi pembelajaran mesin; dalam beberapa konteks, hal ini sinonim dengan pembelajaran mesin.
Dalam bisnis, model prediktif memanfaatkan pola yang ditemukan dalam data historis dan transaksional untuk mengidentifikasi risiko dan peluang. Model-model ini menangkap hubungan antara banyak faktor untuk memungkinkan penilaian risiko atau potensi yang terkait dengan satu set kondisi tertentu, membimbing pengambilan keputusan untuk transaksi kandidat.
Efek fungsional yang menentukan dari pendekatan teknis ini adalah bahwa analitika prediktif menyediakan skor prediktif (probabilitas) untuk setiap individu (pelanggan, karyawan, pasien perawatan kesehatan, SKU produk, kendaraan, komponen, mesin, atau unit organisasi lainnya) untuk menentukan, memberi informasi, atau mempengaruhi proses organisasi yang berlaku pada sejumlah besar individu, seperti dalam pemasaran, penilaian risiko kredit, deteksi penipuan, manufaktur, perawatan kesehatan, dan operasi pemerintah termasuk penegakan hukum.
Definisi Analitika Prediktif: Analitika prediktif adalah seperangkat teknologi intelijen bisnis (BI) yang mengungkapkan hubungan dan pola dalam volume data besar yang dapat digunakan untuk memprediksi perilaku dan peristiwa. Berbeda dengan teknologi BI lainnya, analitika prediktif melihat ke depan, menggunakan peristiwa masa lalu untuk memprediksi masa depan. Teknik statistik analitika prediktif meliputi pemodelan data, pembelajaran mesin, kecerdasan buatan, algoritma pembelajaran mendalam, dan penambangan data. Seringkali, peristiwa yang tidak diketahui yang menarik minat berada di masa depan, tetapi analitika prediktif dapat diterapkan pada jenis yang tidak diketahui apa pun, baik itu terjadi di masa lalu, sekarang, atau di masa depan. Misalnya, mengidentifikasi tersangka setelah suatu kejahatan telah terjadi, atau penipuan kartu kredit saat itu terjadi. Inti dari analitika prediktif bergantung pada penangkapan hubungan antara variabel-variabel penjelas dan variabel yang diprediksi dari kejadian-kejadian masa lalu, dan memanfaatkannya untuk memprediksi hasil yang tidak diketahui. Namun, penting untuk dicatat bahwa akurasi dan kegunaan hasil akan sangat bergantung pada tingkat analisis data dan kualitas asumsi.
Analitika prediktif sering didefinisikan sebagai prediksi pada tingkat granularitas yang lebih detail, yaitu, menghasilkan skor prediktif (probabilitas) untuk setiap elemen organisasi individu. Hal ini membedakannya dari peramalan. Misalnya, "Analitika prediktif—Teknologi yang belajar dari pengalaman (data) untuk memprediksi perilaku masa depan individu untuk menghasilkan keputusan yang lebih baik." Dalam sistem industri masa depan, nilai dari analitika prediktif akan diprediksi dan mencegah masalah potensial untuk mencapai nol-kegagalan dan lebih lanjut akan terintegrasi ke dalam analitika preskriptif untuk optimasi keputusan.
Teknik Analitik untuk Memprediksi Data
Dalam dunia analitik, terdapat beragam pendekatan dan teknik yang digunakan untuk melakukan prediksi data, yang dapat dikelompokkan ke dalam teknik regresi dan teknik pembelajaran mesin.
Pembelajaran mesin dapat didefinisikan sebagai kemampuan mesin untuk belajar dan meniru perilaku manusia yang memerlukan kecerdasan. Hal ini dicapai melalui kecerdasan buatan, algoritma, dan model.
Model ARIMA adalah contoh umum dari model deret waktu. Model ini menggunakan autoregresi, yang berarti model dapat disesuaikan dengan perangkat lunak regresi yang akan menggunakan pembelajaran mesin untuk melakukan sebagian besar analisis regresi dan smoothing. Model ARIMA dikenal tidak memiliki tren keseluruhan, tetapi memiliki variasi di sekitar rata-rata yang memiliki amplitudo konstan, menghasilkan pola waktu yang secara statistik serupa. Melalui ini, variabel dianalisis dan data disaring untuk lebih memahami dan memprediksi nilai masa depan.
Model deret waktu adalah subset dari pembelajaran mesin yang memanfaatkan deret waktu untuk memahami dan meramalkan data menggunakan nilai-nilai masa lalu. Deret waktu adalah urutan nilai variabel selama periode yang sama, seperti tahun atau kuartal dalam aplikasi bisnis. Untuk mencapai ini, data harus dihaluskan, atau varians acak dari data harus dihilangkan untuk mengungkapkan tren dalam data.
Model Prediktif adalah teknik statistik yang digunakan untuk memprediksi perilaku masa depan. Ini menggunakan model prediktif untuk menganalisis hubungan antara unit spesifik dalam sampel yang diberikan dan satu atau lebih fitur unit tersebut. Tujuan dari model-model ini adalah untuk menilai kemungkinan bahwa unit dalam sampel lain akan menampilkan pola yang sama.
Secara umum, analisis regresi menggunakan data struktural bersama dengan nilai-nilai masa lalu dari variabel independen dan hubungan antara mereka dan variabel dependen untuk membentuk prediksi.
Dalam regresi linier, sebuah plot dibangun dengan nilai-nilai sebelumnya dari variabel dependen yang dipetakan pada sumbu Y dan variabel independen yang sedang dianalisis dipetakan pada sumbu X. Garis regresi kemudian dibangun oleh program statistik yang mewakili hubungan antara variabel independen dan dependen yang dapat digunakan untuk memprediksi nilai-nilai variabel dependen berdasarkan variabel independen. Dengan garis regresi, program juga menunjukkan persamaan intercept kemiringan untuk garis yang mencakup tambahan untuk istilah kesalahan regresi, di mana semakin tinggi nilai istilah kesalahan, semakin tidak presisi model regresi. Untuk mengurangi nilai istilah kesalahan, variabel independen lainnya diperkenalkan ke dalam model, dan analisis serupa dilakukan pada variabel independen tersebut.
Penerapan Analitik Prediktif dalam Bidang Bisnis
Analisis prediktif merupakan bagian penting dari analisis bisnis yang menggunakan pembelajaran mesin untuk membuat model prediktif untuk berbagai aplikasi bisnis. Dalam konteks audit, tinjauan analitik digunakan untuk mengevaluasi keberagaman saldo akun yang dilaporkan. Proses ini melibatkan penggunaan metode seperti ARIMA dan analisis regresi untuk membentuk prediksi yang disebut ekspektasi bersyarat dari saldo yang sedang diaudit. Metode STAR juga digunakan untuk melakukan tinjauan analitik dengan menggunakan analisis regresi. Penyerapan prosedur analitis ke dalam standar audit menyoroti kebutuhan untuk menyesuaikan metodologi ini sesuai dengan data yang spesifik.
Kesimpulannya, analisis prediktif telah menjadi elemen penting dalam berbagai bidang bisnis dan industri. Dengan memanfaatkan data historis dan teknik prediktif, perusahaan dapat merencanakan strategi, mengambil keputusan yang lebih baik, dan meningkatkan efisiensi operasional. Dari manajemen aset hingga perlindungan anak, serta prediksi arus kas hingga keputusan hukum, analisis prediktif memberikan beragam manfaat yang dapat membantu perusahaan mencapai tujuan mereka dengan lebih baik. Dengan adopsi teknologi ini, perusahaan dapat mengoptimalkan kinerja mereka, meningkatkan keuntungan, dan memberikan layanan yang lebih baik kepada pelanggan mereka.
Disadur dari: en.wikipedia.org
Teknik Industri
Dipublikasikan oleh Sirattul Istid'raj pada 29 April 2025
Penambangan teks, juga dikenal sebagai analisis teks atau penambangan data teks (TDM), adalah metode untuk mengekstraksi wawasan yang berharga dari sumber teks. Proses ini melibatkan penggunaan algoritme komputer untuk mengungkap informasi baru dari berbagai materi tertulis seperti situs web, email, buku, dan artikel. Tujuannya adalah untuk mendapatkan informasi berkualitas tinggi dengan mengidentifikasi pola dan tren melalui teknik pembelajaran pola statistik.
Menurut Hotho dkk. (2005), text mining dapat dikategorikan ke dalam tiga perspektif: ekstraksi informasi, data mining, dan penemuan pengetahuan dalam database (KDD). Ekstraksi informasi biasanya mencakup penataan teks input, mendapatkan pola dari data terstruktur, dan mengevaluasi serta menginterpretasikan hasilnya. Istilah "kualitas tinggi" dalam text mining mengacu pada relevansi, kebaruan, dan ketertarikan informasi yang diekstrak.
Tugas-tugas umum dalam text mining meliputi kategorisasi teks, pengelompokan, ekstraksi konsep, analisis sentimen, peringkasan, dan pemodelan relasi entitas. Analisis teks melibatkan berbagai teknik seperti analisis leksikal, pengenalan pola, penandaan, ekstraksi informasi, penggalian data, visualisasi, dan analisis prediktif. Tujuan utamanya adalah mengubah teks menjadi data yang dapat dianalisis menggunakan pemrosesan bahasa alami (NLP) dan berbagai algoritme.
Aplikasi khas dari text mining adalah untuk menganalisis koleksi dokumen dalam bahasa alami, baik untuk tujuan klasifikasi prediktif atau untuk mengekstrak informasi untuk populasi database atau pengayaan indeks pencarian. Dalam proses ini, dokumen berfungsi sebagai unit dasar dari data tekstual, yang ditemukan dalam berbagai jenis koleksi.
Analisis Teks: Memahami Informasi dari Sumber Teks untuk Bisnis dan Penelitian
Analisis teks menggambarkan seperangkat teknik linguistik, statistik, dan pembelajaran mesin yang memodelkan dan mengatur konten informasi dari sumber-sumber teks untuk kecerdasan bisnis, analisis data eksploratif, penelitian, atau investigasi. Istilah ini hampir sinonim dengan penambangan teks; bahkan, Ronen Feldman memodifikasi deskripsi "penambangan teks" pada tahun 2000 menjadi "analisis teks" pada tahun 2004. Istilah terakhir ini kini lebih sering digunakan dalam pengaturan bisnis sementara "penambangan teks" digunakan dalam beberapa area aplikasi terawal, yang berasal dari tahun 1980-an, terutama penelitian ilmu kehidupan dan intelijen pemerintah.
Istilah analisis teks juga menggambarkan aplikasi analisis teks untuk menanggapi masalah-masalah bisnis, baik secara mandiri maupun bersamaan dengan pencarian dan analisis data numerik. Sebuah kebenaran umum bahwa 80 persen informasi yang relevan dengan bisnis berasal dalam bentuk yang tidak terstruktur, terutama teks. Teknik dan proses ini menemukan dan menyajikan pengetahuan – fakta, aturan bisnis, dan hubungan – yang terkunci dalam bentuk teks, sulit untuk diproses secara otomatis.
Proses Analisis Teks
Subtugas—komponen dari usaha analisis teks yang lebih besar—biasanya mencakup:
Penerapan Teknologi Penambangan Teks
Teknologi penambangan teks kini secara luas diterapkan dalam berbagai kebutuhan pemerintahan, penelitian, dan bisnis. Semua kelompok ini dapat menggunakan penambangan teks untuk manajemen catatan dan mencari dokumen yang relevan dengan kegiatan sehari-hari mereka. Profesional hukum misalnya, dapat menggunakan penambangan teks untuk e-discovery. Pemerintah dan kelompok militer menggunakan penambangan teks untuk kepentingan keamanan nasional dan intelijen. Para peneliti ilmiah menggabungkan pendekatan penambangan teks ke dalam upaya untuk mengorganisir set data teks besar (yaitu, mengatasi masalah data yang tidak terstruktur), untuk menentukan gagasan-gagasan yang disampaikan melalui teks (misalnya, analisis sentimen di media sosial), dan untuk mendukung penemuan ilmiah di bidang ilmu kehidupan dan bioinformatika. Di dunia bisnis, aplikasi digunakan untuk mendukung intelijen kompetitif dan penempatan iklan otomatis, di antara banyak kegiatan lainnya.
Teknologi penambangan teks telah membuka peluang baru yang luas untuk berbagai kebutuhan, dari keamanan hingga bisnis, menawarkan cara yang efektif untuk mengelola, menganalisis, dan memanfaatkan informasi yang terkandung dalam teks. Dengan kemampuannya untuk menggali wawasan dari data yang tidak terstruktur, penambangan teks memberikan kontribusi yang berharga bagi kemajuan di berbagai bidang dan sektor.
Dampak Teknologi Penambangan Teks dalam Pencarian dan Analisis Konten
Hingga baru-baru ini, pencarian berbasis teks yang paling umum digunakan oleh situs web hanya dapat menemukan dokumen yang mengandung kata-kata atau frasa yang ditentukan pengguna. Namun, dengan penggunaan web semantik, penambangan teks sekarang dapat menemukan konten berdasarkan makna dan konteks (bukan hanya berdasarkan kata-kata tertentu). Selain itu, perangkat lunak penambangan teks dapat digunakan untuk membangun catatan besar informasi tentang orang dan peristiwa tertentu.
Misalnya, dataset besar berdasarkan data yang diekstraksi dari laporan berita dapat dibangun untuk memfasilitasi analisis jaringan sosial atau kontra-intelijen. Secara efektif, perangkat lunak penambangan teks dapat berperan dalam kapasitas yang mirip dengan analis intelijen atau pustakawan riset, meskipun dengan cakupan analisis yang lebih terbatas. Penambangan teks juga digunakan dalam beberapa filter spam email sebagai cara untuk menentukan karakteristik pesan yang kemungkinan adalah iklan atau materi yang tidak diinginkan lainnya. Penambangan teks memainkan peran penting dalam menentukan sentimen pasar keuangan.
Disadur dari: en.wikipedia.org/wiki
Teknik Industri
Dipublikasikan oleh Sirattul Istid'raj pada 29 April 2025
Pohon keputusan atau Decision Tree adalah model hierarkis pendukung keputusan yang menggunakan struktur mirip pohon untuk menggambarkan keputusan dan konsekuensi-konsekuensinya, termasuk hasil-hasil dari kejadian kebetulan, biaya sumber daya, dan utilitas. Ini merupakan salah satu cara untuk menampilkan algoritma yang hanya mengandung pernyataan kontrol kondisional.
Pohon keputusan umumnya digunakan dalam riset operasi, khususnya dalam analisis keputusan, untuk membantu mengidentifikasi strategi yang paling mungkin mencapai tujuan, tetapi juga merupakan alat yang populer dalam pembelajaran mesin.
Pohon keputusan adalah struktur mirip bagan alir di mana setiap simpul internal mewakili "tes" pada atribut (misalnya, apakah lemparan koin muncul kepala atau ekor), setiap cabang mewakili hasil dari tes tersebut, dan setiap simpul daun mewakili label kelas (keputusan yang diambil setelah menghitung semua atribut). Jalur dari akar ke daun mewakili aturan klasifikasi.
Dalam analisis keputusan, pohon keputusan dan diagram pengaruh yang terkait erat digunakan sebagai alat bantu keputusan visual dan analitis, di mana nilai-nilai yang diharapkan (atau utilitas yang diharapkan) dari alternatif-alternatif yang bersaing dihitung.
Sebuah pohon keputusan terdiri dari tiga jenis simpul:
Pohon keputusan umumnya digunakan dalam riset operasi dan manajemen operasi. Jika, dalam praktiknya, keputusan harus diambil secara online tanpa pengingat di bawah pengetahuan yang tidak lengkap, sebuah pohon keputusan harus diparalelkan dengan model probabilitas sebagai model pilihan terbaik atau algoritma pemilihan online. Penggunaan lain dari pohon keputusan adalah sebagai sarana deskriptif untuk menghitung probabilitas bersyarat.
Pohon keputusan, diagram pengaruh, fungsi utilitas, dan alat dan metode analisis keputusan lainnya diajarkan kepada mahasiswa sarjana di sekolah-sekolah bisnis, ekonomi kesehatan, dan kesehatan masyarakat, dan merupakan contoh dari metode riset operasi atau ilmu manajemen.
Blok-blok pembangun pohon keputusan (Decision-tree elements)
Elemen pohon keputusan
Jika digambar dari kiri ke kanan, sebuah pohon keputusan hanya memiliki simpul-simpul pecah (jalur pembelahan) tetapi tidak memiliki simpul-simpul penyatu (jalur konvergen). Oleh karena itu, jika digunakan secara manual, pohon keputusan dapat menjadi sangat besar dan seringkali sulit untuk digambar sepenuhnya dengan tangan. Secara tradisional, pohon keputusan dibuat secara manual - seperti yang ditunjukkan pada contoh di samping - meskipun semakin banyak digunakan software khusus.
Aturan keputusan (Decision rules)
Pohon keputusan dapat di linearisasikan menjadi aturan keputusan, di mana hasilnya adalah isi dari simpul daun, dan kondisi-kondisi sepanjang jalur membentuk konjungsi dalam klausa if. Secara umum, aturan-aturan tersebut memiliki bentuk:
jika kondisi1 dan kondisi2 dan kondisi3 maka hasilnya. Aturan keputusan dapat dihasilkan dengan membangun aturan asosiasi dengan variabel target di sebelah kanan. Mereka juga dapat menunjukkan hubungan temporal atau kausal.
Pohon keputusan menggunakan flowchart simbol
Biasanya pohon keputusan digambarkan menggunakan simbol-simbol bagan alir karena lebih mudah bagi banyak orang untuk dibaca dan dipahami. Perlu diperhatikan bahwa terdapat kesalahan konseptual dalam perhitungan "Lanjut" dari pohon yang ditunjukkan di bawah ini; kesalahan tersebut terkait dengan perhitungan "biaya" yang diberikan dalam tindakan hukum.
Contoh Analisis
Analisis dapat memperhitungkan preferensi atau fungsi utilitas pengambil keputusan (misalnya, perusahaan), sebagai contoh:
Interpretasi dasar dalam situasi ini adalah bahwa perusahaan lebih memilih risiko dan imbalan dari B dengan koefisien preferensi risiko yang realistis (lebih besar dari $400 ribu - dalam rentang kecenderungan risiko tersebut, perusahaan akan perlu memodelkan strategi ketiga, "Tidak A maupun B").
Contoh lain yang umum digunakan dalam kursus riset operasi adalah distribusi penjaga pantai di pantai-pantai (dikenal sebagai contoh "Life's a Beach"). Contoh tersebut menggambarkan dua pantai dengan penjaga pantai yang akan didistribusikan di setiap pantai. Ada anggaran maksimum B yang dapat didistribusikan di antara kedua pantai (secara total), dan dengan menggunakan tabel pengembalian marjinal, para analis dapat memutuskan berapa banyak penjaga pantai yang dialokasikan ke masing-masing pantai.
Diagram pengaruh (Influence diagram)
Sebagian besar informasi dalam sebuah pohon keputusan dapat direpresentasikan lebih ringkas sebagai diagram pengaruh, yang memfokuskan perhatian pada masalah-masalah dan hubungan antara peristiwa-peristiwa.
Induksi Aturan Asosiasi
Pohon keputusan juga dapat dilihat sebagai model generatif dari aturan induksi dari data empiris. Sebuah pohon keputusan optimal kemudian didefinisikan sebagai pohon yang memperhitungkan sebagian besar data, sambil meminimalkan jumlah level (atau "pertanyaan"). Beberapa algoritma untuk menghasilkan pohon-pohon optimal tersebut telah dikembangkan, seperti ID3/4/5, CLS, ASSISTANT, dan CART.
Kelebihan dan Kekurangan
Di antara alat bantu keputusan, pohon keputusan (dan diagram pengaruh) memiliki beberapa keunggulan. Pohon keputusan:
Kekurangan dari pohon keputusan:
Optimisasi Pohon Keputusan
Beberapa hal harus dipertimbangkan saat meningkatkan akurasi klasifikasi pohon keputusan. Berikut adalah beberapa optimisasi yang mungkin perlu dipertimbangkan untuk memastikan model pohon keputusan yang dihasilkan membuat keputusan atau klasifikasi yang benar. Perlu dicatat bahwa hal-hal ini bukanlah satu-satunya hal yang perlu dipertimbangkan, tetapi hanya beberapa di antaranya.
Meningkatkan jumlah level pohon
Akurasi pohon keputusan dapat berubah berdasarkan kedalaman pohon keputusan. Dalam banyak kasus, daun pohon adalah simpul murni. Ketika sebuah simpul adalah murni, berarti semua data dalam simpul tersebut termasuk dalam satu kelas. Sebagai contoh, jika kelas-kelas dalam kumpulan data adalah Kanker dan Non-Kanker, sebuah simpul daun akan dianggap murni ketika semua data sampel dalam simpul daun tersebut merupakan bagian dari satu kelas saja, baik kanker atau non-kanker. Perlu diingat bahwa pohon yang lebih dalam tidak selalu lebih baik saat mengoptimalkan pohon keputusan. Pohon yang lebih dalam dapat mempengaruhi waktu eksekusi secara negatif. Jika sebuah algoritma klasifikasi tertentu digunakan, maka pohon yang lebih dalam dapat berarti waktu eksekusi algoritma klasifikasi ini secara signifikan lebih lambat. Ada juga kemungkinan bahwa algoritma yang sebenarnya membangun pohon keputusan akan menjadi lebih lambat secara signifikan seiring dengan kedalaman pohon yang meningkat. Jika algoritma pembangunan pohon yang digunakan membagi simpul murni, maka dapat mengalami penurunan akurasi keseluruhan dari klasifikasi pohon. Kadang-kadang, peningkatan kedalaman pohon dapat menyebabkan penurunan akurasi secara umum, sehingga sangat penting untuk menguji modifikasi kedalaman pohon keputusan dan memilih kedalaman yang menghasilkan hasil terbaik. Untuk merangkum, perhatikan poin-poin di bawah ini, kita akan mendefinisikan jumlah D sebagai kedalaman pohon.
Keuntungan kemungkinan dari peningkatan jumlah D:
Pemilihan fungsi pembagian simpul
Fungsi pembagian simpul yang digunakan dapat berdampak pada peningkatan akurasi pohon keputusan. Sebagai contoh, menggunakan fungsi gain informasi mungkin menghasilkan hasil yang lebih baik daripada menggunakan fungsi phi. Fungsi phi dikenal sebagai ukuran "kebaikan" dari pemisahan kandidat di simpul dalam pohon keputusan. Fungsi gain informasi dikenal sebagai ukuran "pengurangan entropi". Pada contoh berikut, kita akan membangun dua pohon keputusan. Satu pohon keputusan akan dibangun menggunakan fungsi phi untuk membagi simpul-simpul dan satu pohon keputusan akan dibangun menggunakan fungsi gain informasi untuk membagi simpul-simpul.
Kelebihan dan kekurangan utama dari gain informasi dan fungsi phi
Salah satu kelemahan utama dari gain informasi adalah bahwa fitur yang dipilih sebagai simpul berikutnya dalam pohon cenderung memiliki nilai unik yang lebih banyak. Keuntungan dari gain informasi adalah cenderung memilih fitur yang paling berdampak yang berada dekat dengan akar pohon. Ini adalah ukuran yang sangat baik untuk memutuskan relevansi beberapa fitur. Fungsi phi juga merupakan ukuran yang baik untuk memutuskan relevansi beberapa fitur berdasarkan "kebaikan". Ini adalah formula fungsi gain informasi. Rumus ini menyatakan bahwa gain informasi adalah fungsi dari entropi sebuah simpul pohon keputusan dikurangi entropi pemisahan kandidat di simpul t dari sebuah pohon keputusan.
Ini adalah rumus fungsi phi. Fungsi phi dimaksimalkan ketika fitur yang dipilih membagi sampel sedemikian rupa sehingga menghasilkan pemisahan yang homogen dan memiliki jumlah sampel yang kurang lebih sama di setiap pemisahan.
Kita akan menetapkan D, yang merupakan kedalaman pohon pilihan yang sedang kita bangun, menjadi tiga (D = 3). Kita juga memiliki kumpulan informasi yang diambil dari tes kanker dan non-kanker dan transformasi menyoroti bahwa tes tersebut memiliki atau tidak memiliki. Jika sebuah tes mencakup perubahan yang disertakan pada saat itu, maka tes tersebut positif terhadap perubahan tersebut, dan akan disebut sebagai tes. Jika suatu tes tidak memiliki perubahan include pada saat itu, maka tes tersebut negatif untuk perubahan tersebut, dan akan disebut dengan nol.
Evaluasi Pohon Keputusan (Decision Tree)
Penting untuk mengetahui pengukuran yang digunakan untuk mengevaluasi pohon keputusan. Metrik utama yang digunakan adalah akurasi, sensitivitas, spesifisitas, presisi, tingkat kesalahan prediksi negatif, tingkat kesalahan prediksi positif, dan tingkat pengabaian prediksi negatif. Semua pengukuran ini berasal dari jumlah positif benar, positif palsu, negatif benar, dan negatif palsu yang diperoleh saat menjalankan serangkaian sampel melalui model klasifikasi pohon keputusan. Selain itu, sebuah matriks kebingungan dapat dibuat untuk menampilkan hasil-hasil ini. Semua metrik utama ini memberikan informasi yang berbeda tentang kelebihan dan kelemahan model klasifikasi yang dibangun berdasarkan pohon keputusan Anda. Sebagai contoh, sensitivitas yang rendah dengan spesifisitas yang tinggi bisa menunjukkan bahwa model klasifikasi yang dibangun dari pohon keputusan tidak baik dalam mengidentifikasi sampel kanker dibandingkan dengan sampel non-kanker.
Disadur dari: en.wikipedia.org
Teknik Industri
Dipublikasikan oleh Sirattul Istid'raj pada 29 April 2025
Mesin Pendukung Vektor (SVM) atau juga dikenal sebagai jaringan pendukung vektor, merupakan model-model terarah berbasis margin maksimum yang menggunakan algoritma pembelajaran terkait untuk menganalisis data dalam klasifikasi dan analisis regresi. Dikembangkan di Laboratorium Bell AT&T oleh Vladimir Vapnik bersama rekan-rekannya, SVM menjadi salah satu model yang paling banyak dipelajari, didasarkan pada kerangka pembelajaran statistik atau teori VC yang diusulkan oleh Vapnik dan Chervonenkis.
Selain melakukan klasifikasi linear, SVM dapat secara efisien melakukan klasifikasi non-linear menggunakan apa yang disebut trik kernel, dengan secara implisit memetakan inputnya ke dalam ruang fitur berdimensi tinggi. SVM juga dapat digunakan untuk tugas regresi, di mana tujuannya adalah menjadi -sensitive.
Algoritma pengelompokan vektor pendukung, yang dibuat oleh Hava Siegelmann dan Vladimir Vapnik, menerapkan statistik vektor pendukung yang dikembangkan dalam algoritma mesin pendukung vektor untuk mengategorikan data tanpa label. Dataset ini memerlukan pendekatan pembelajaran tanpa pengawasan, yang mencoba untuk menemukan pengelompokan alami dari data ke dalam kelompok-kelompok, dan kemudian memetakan data baru sesuai dengan kelompok-kelompok ini.
Populeritas SVM mungkin disebabkan oleh kemampuannya untuk analisis teoritis, fleksibilitasnya dalam diterapkan pada berbagai macam tugas, termasuk masalah prediksi terstruktur. Namun, belum jelas apakah SVM memiliki kinerja prediksi yang lebih baik daripada model linear lainnya, seperti regresi logistik dan regresi linear.
Motivasi
Klasifikasi data adalah tugas umum dalam pembelajaran mesin. Anggaplah beberapa titik data yang diberikan masing-masing termasuk ke dalam salah satu dari dua kelas, dan tujuannya adalah untuk menentukan kelas mana titik data baru akan berada. Dalam kasus mesin pendukung vektor, sebuah titik data dilihat sebagai vektor berdimensi-p (sebuah daftar dari p angka), dan kita ingin tahu apakah kita dapat memisahkan titik-titik tersebut dengan sebuah hiperplan berdimensi-(p-1). Ini disebut sebagai klasifikasi linear. Ada banyak hiperplan yang dapat mengklasifikasikan data. Salah satu pilihan yang masuk akal sebagai hiperplan terbaik adalah yang mewakili pemisahan terbesar, atau margin, antara dua kelas. Jadi kita memilih hiperplan sehingga jarak dari hiperplan tersebut ke titik data terdekat di setiap sisi maksimum. Jika hiperplan semacam itu ada, dikenal sebagai hiperplan margin maksimum dan klasifikasi linear yang didefinisikan olehnya dikenal sebagai klasifikasi margin maksimum; atau setara, perceptron kestabilan optimal.
Secara lebih formal, sebuah mesin pendukung vektor membangun sebuah hiperplan atau serangkaian hiperplan dalam ruang berdimensi tinggi atau tak terbatas, yang dapat digunakan untuk klasifikasi, regresi, atau tugas lain seperti deteksi outliers. Secara intuitif, pemisahan yang baik dicapai oleh hiperplan yang memiliki jarak terbesar ke titik data pelatihan terdekat dari setiap kelas (yang disebut margin fungsional), karena pada umumnya semakin besar margin, semakin rendah kesalahan generalisasi klasifier. Kesalahan generalisasi yang lebih rendah berarti bahwa pengimplementasi kurang mungkin mengalami overfitting.
Sementara masalah asli mungkin dinyatakan dalam ruang berdimensi terbatas, sering kali terjadi bahwa set yang akan dipisahkan tidak dapat dipisahkan secara linear dalam ruang tersebut. Oleh karena itu, diusulkan bahwa ruang berdimensi terbatas asli tersebut dipetakan ke dalam ruang berdimensi yang jauh lebih tinggi, dengan harapan membuat pemisahan lebih mudah dalam ruang tersebut. Untuk menjaga beban komputasi yang wajar, pemetaan yang digunakan oleh skema SVM dirancang untuk memastikan bahwa perkalian dot dari pasangan vektor data input dapat dengan mudah dihitung dalam hal variabel-variabel dalam ruang asli, dengan mendefinisikan mereka dalam hal sebuah fungsi kernel k(x, y) yang dipilih sesuai dengan masalah. Hiperplan dalam ruang berdimensi tinggi tersebut didefinisikan sebagai set titik-titik yang perkalian dot-nya dengan sebuah vektor di ruang tersebut konstan, di mana sebuah set vektor tersebut adalah set vektor ortogonal (dan oleh karena itu minimal) yang mendefinisikan sebuah hiperplan. Vektor-vektor yang mendefinisikan hiperplan dapat dipilih sebagai kombinasi linear dengan parameter ai dari gambar vektor fitur yang terjadi dalam basis data. Dengan pemilihan hiperplan seperti ini, titik-titik x di ruang fitur yang dipetakan ke dalam hiperplan didefinisikan oleh relasi
. Perlu diperhatikan bahwa jika k(x, y) menjadi kecil saat y semakin jauh dari x, setiap term dalam jumlah tersebut mengukur tingkat kedekatan titik uji x ke titik basis data
yang sesuai. Dengan cara ini, jumlah kernel di atas dapat digunakan untuk mengukur kedekatan relatif setiap titik uji ke titik data yang berasal dari salah satu dari dua set yang akan dipisahkan. Perhatikan fakta bahwa set titik x yang dipetakan ke dalam hiperplan apa pun dapat sangat bercabang sebagai hasilnya, memungkinkan pemisahan yang jauh lebih kompleks antara set yang sama sekali tidak konveks dalam ruang asli.
Aplikasi Algoritma SVM
SVM dapat digunakan untuk menyelesaikan berbagai masalah dunia nyata:
SVM membantu dalam kategorisasi teks dan hiperteks, karena aplikasinya dapat secara signifikan mengurangi kebutuhan akan contoh pelatihan yang diberi label dalam kedua pengaturan induktif dan transduktif. Beberapa metode untuk parsing semantik dangkal didasarkan pada mesin pendukung vektor.
Klasifikasi gambar juga dapat dilakukan menggunakan SVM. Hasil eksperimental menunjukkan bahwa SVM mencapai akurasi pencarian yang jauh lebih tinggi daripada skema penyempurnaan kueri tradisional setelah hanya tiga hingga empat putaran umpan balik relevansi. Hal ini juga berlaku untuk sistem segmentasi gambar, termasuk yang menggunakan versi SVM yang dimodifikasi dengan pendekatan istimewa seperti yang disarankan oleh Vapnik.
Klasifikasi data satelit seperti data SAR menggunakan SVM yang diawasi.
Karakter tulisan tangan dapat dikenali menggunakan SVM.
Algoritma SVM telah banyak diterapkan dalam bidang biologi dan ilmu lainnya. Mereka telah digunakan untuk mengklasifikasikan protein dengan hingga 90% senyawa diklasifikasikan dengan benar. Uji permutasi berdasarkan bobot SVM telah disarankan sebagai mekanisme untuk interpretasi model SVM. Bobot mesin pendukung vektor juga telah digunakan untuk menginterpretasikan model SVM di masa lalu. Interpretasi pasca hoc dari model mesin pendukung vektor untuk mengidentifikasi fitur-fitur yang digunakan oleh model untuk membuat prediksi adalah area penelitian yang relatif baru namun memiliki signifikansi khusus dalam ilmu biologi.
Sejarah Algoritma SVM
Algoritma SVM asli ditemukan oleh Vladimir N. Vapnik dan Alexey Ya. Chervonenkis pada tahun 1964. Pada tahun 1992, Bernhard Boser, Isabelle Guyon, dan Vladimir Vapnik mengusulkan cara untuk membuat klasifikasi non-linear dengan menerapkan trik kernel pada hiperplan margin maksimum. Versi "marginal lembut", seperti yang umum digunakan dalam paket perangkat lunak, diusulkan oleh Corinna Cortes dan Vapnik pada tahun 1993 dan diterbitkan pada tahun 1995.
Implementasi
Parameter dari hiperplan margin maksimum diperoleh dengan memecahkan optimasi. Ada beberapa algoritma khusus untuk dengan cepat memecahkan masalah pemrograman kuadrat (QP) yang muncul dari SVM, sebagian besar mengandalkan heuristik untuk memecah masalah menjadi bagian-bagian yang lebih kecil dan lebih mudah dikelola.
Pendekatan lain adalah menggunakan metode titik dalam yang menggunakan iterasi mirip Newton untuk menemukan solusi dari kondisi Karush–Kuhn–Tucker dari masalah primer dan dual. Alih-alih memecahkan rangkaian masalah yang dipecahkan, pendekatan ini langsung memecahkan masalah secara keseluruhan. Untuk menghindari memecahkan sistem linear yang melibatkan matriks kernel besar, pendekatan ini sering menggunakan aproksimasi peringkat rendah untuk matriks dalam trik kernel.
Metode umum lainnya adalah algoritma optimasi minimal sekuen Platt (SMO), yang memecah masalah menjadi sub-masalah 2 dimensi yang dipecahkan secara analitis, menghilangkan kebutuhan akan algoritma optimasi numerik dan penyimpanan matriks. Algoritma ini secara konseptual sederhana, mudah diimplementasikan, umumnya lebih cepat, dan memiliki sifat scaling yang lebih baik untuk masalah SVM yang sulit.
Kasus khusus dari mesin pendukung vektor linier dapat dipecahkan secara lebih efisien dengan jenis algoritma yang sama yang digunakan untuk mengoptimalkan kerabat dekatnya, regresi logistik; kelas algoritma ini termasuk gradien sub-descent (misalnya, PEGASOS) dan desent koordinat (misalnya, LIBLINEAR). LIBLINEAR memiliki beberapa sifat menarik saat pelatihan. Setiap iterasi konvergensi membutuhkan waktu linear dalam waktu yang dibutuhkan untuk membaca data latih, dan iterasi juga memiliki sifat konvergensi Q-linear, membuat algoritma sangat cepat.
SVM kernel umum juga dapat dipecahkan secara lebih efisien menggunakan gradien sub-descent (misalnya, P-packSVM), terutama ketika paralelisasi diizinkan.
SVM kernel tersedia dalam banyak toolkit pembelajaran mesin, termasuk LIBSVM, MATLAB, SAS, SVMlight, kernlab, scikit-learn, Shogun, Weka, Shark, JKernelMachines, OpenCV, dan lainnya.
Pra-pemrosesan data (standarisasi) sangat dianjurkan untuk meningkatkan akurasi klasifikasi. Ada beberapa metode standarisasi, seperti min-max, normalisasi dengan skala desimal, Z-score. Pengurangan rata-rata dan pembagian dengan varians setiap fitur biasanya digunakan untuk SVM.
Disadur dari: en.wikipedia.org/wiki/Support_vector_machine
Teknik Industri
Dipublikasikan oleh Sirattul Istid'raj pada 29 April 2025
Analisis klaster atau clustering adalah tugas untuk mengelompokkan serangkaian objek sedemikian rupa sehingga objek dalam kelompok yang sama (yang disebut klaster) lebih mirip (dalam suatu arti tertentu yang ditentukan oleh analis) satu sama lain daripada dengan yang lain. Ini adalah tugas utama dalam analisis data eksploratori, dan merupakan teknik umum untuk analisis data statistik, digunakan dalam banyak bidang, termasuk pengenalan pola, analisis gambar, pengambilan informasi, bioinformatika, kompresi data, grafika komputer, dan pembelajaran mesin.
Analisis klaster merujuk pada keluarga algoritma dan tugas daripada satu algoritma spesifik. Ini dapat dicapai dengan berbagai algoritma yang berbeda secara signifikan dalam pemahaman mereka tentang apa yang merupakan sebuah klaster dan bagaimana cara menemukannya dengan efisien. Pandangan populer tentang klaster termasuk grup dengan jarak kecil antara anggota klaster, area padat di ruang data, interval, atau distribusi statistik tertentu. Oleh karena itu, pengelompokan dapat dirumuskan sebagai masalah optimasi multi-obyektif. Algoritma pengelompokan yang tepat dan pengaturan parameter (termasuk parameter seperti fungsi jarak yang digunakan, ambang batas kepadatan, atau jumlah klaster yang diharapkan) tergantung pada set data individu dan penggunaan yang dimaksudkan dari hasilnya. Analisis klaster sebagai demikian bukanlah tugas otomatis, tetapi merupakan proses iteratif penemuan pengetahuan atau optimasi multi-obyektif interaktif yang melibatkan percobaan dan kegagalan. Seringkali diperlukan untuk memodifikasi pra-pemrosesan data dan parameter model hingga hasil mencapai properti yang diinginkan.
Selain istilah pengelompokan, ada sejumlah istilah dengan makna yang serupa, termasuk klasifikasi otomatis, taksonomi numerik, botryology (dari bahasa Yunani βότρυς "anggur"), analisis tipe, dan deteksi komunitas. Perbedaan halus seringkali terletak pada penggunaan hasil: sementara dalam penambangan data, kelompok yang dihasilkan menjadi pokok perhatian, dalam klasifikasi otomatis, kekuatan diskriminatif yang dihasilkan menjadi pokok perhatian.
Analisis klaster berasal dari antropologi oleh Driver dan Kroeber pada tahun 1932 dan diperkenalkan ke dalam psikologi oleh Joseph Zubin pada tahun 1938 dan Robert Tryon pada tahun 1939, serta digunakan secara terkenal oleh Cattell mulai tahun 1943 untuk klasifikasi teori ciri dalam psikologi kepribadian.
Algoritma Klaster
Ketika berurusan dengan data, salah satu tugas utama adalah mengelompokkan informasi menjadi kelompok yang bermakna. Hal ini memungkinkan kita untuk menemukan pola, mencari kesamaan, dan mendapatkan wawasan yang berharga. Dalam dunia analisis data, ada banyak algoritma yang digunakan untuk melakukan tugas ini, dan masing-masing memiliki pendekatan yang berbeda. Mari kita lihat beberapa algoritma clustering yang paling populer:
1. Hierarchical Clustering: Algoritma ini berdasarkan pada konsep bahwa objek cenderung lebih terkait dengan objek yang berdekatan daripada dengan objek yang jauh. Algoritma ini menghubungkan objek untuk membentuk klaster berdasarkan jarak mereka. Klaster dapat dijelaskan oleh jarak maksimum yang diperlukan untuk menghubungkan bagian dari klaster tersebut. Klaster ini dapat direpresentasikan dengan menggunakan dendrogram, yang menjelaskan mengapa algoritma ini dikenal sebagai hierarchical clustering.
2. K-Means Clustering: Dalam pendekatan ini, setiap klaster direpresentasikan oleh sebuah vektor pusat. Tujuan dari algoritma ini adalah untuk menemukan pusat klaster dan menetapkan objek ke klaster terdekat, sehingga jarak kuadrat dari klaster diminimalkan. Algoritma ini umumnya menggunakan pendekatan pencarian solusi yang lebih cepat, meskipun hanya menemukan optimum lokal.
3. Fuzzy C-Means: Algoritma ini adalah variasi dari k-means yang memungkinkan untuk penugasan klaster yang lebih fleksibel. Sebagai lawan dari klaster yang keras, di mana setiap objek hanya boleh menjadi bagian dari satu klaster, algoritma ini memungkinkan objek untuk menjadi bagian dari setiap klaster dengan tingkat keanggotaan tertentu.
Setiap algoritma ini memiliki keunggulan dan kelemahan tersendiri, dan pilihan terbaik tergantung pada sifat data dan tujuan analisis. Dengan memahami berbagai pendekatan clustering yang tersedia, Anda dapat membuat keputusan yang lebih baik dalam menganalisis dan memahami data Anda.
Model-based clustering menggunakan pendekatan distribusi probabilitas untuk mengelompokkan data ke dalam campuran distribusi probabilitas. Salah satu metode yang umum digunakan adalah Gaussian mixture models (GMM) yang menggunakan algoritma expectation-maximization. Namun, metode ini rentan terhadap overfitting dan sulit untuk memilih kompleksitas model yang tepat.
Clustering berbasis densitas mengidentifikasi klaster sebagai area dengan kepadatan yang lebih tinggi daripada area lain dalam data set. DBSCAN adalah metode clustering berbasis densitas yang populer, tetapi sering menghasilkan batas klaster yang sewenang-wenang pada data dengan distribusi Gauss tumpang tindih. Mean-shift adalah pendekatan clustering lain yang memindahkan setiap objek ke area padat terdekat dalam data.
Pengembangan terbaru dalam clustering termasuk peningkatan kinerja algoritma yang ada dan pengembangan metode untuk data berdimensi tinggi. Salah satu pendekatan yang digunakan adalah clustering subspace dan clustering korelasi, yang mencari klaster dalam ruang subspace atau berdasarkan korelasi atributnya. Beberapa sistem clustering juga berdasarkan informasi saling mendukung, seperti metrik variasi informasi Marina Meilā dan algoritma genetika untuk optimasi fungsi-fit.
Evaluasi dan Penilaian Custering
Evaluasi hasil clustering merupakan tantangan yang sama sulitnya dengan proses clustering itu sendiri. Pendekatan populer melibatkan evaluasi "internal", "eksternal", "manual" oleh pakar manusia, dan "tidak langsung" dengan mengevaluasi kegunaan clustering dalam aplikasinya yang dimaksud.
Pengukuran evaluasi internal cenderung mewakili fungsi yang dapat dilihat sebagai tujuan clustering itu sendiri. Evaluasi eksternal memiliki masalah serupa: jika kita memiliki label "kebenaran dasar" maka kita tidak perlu melakukan clustering; dan dalam aplikasi praktis, kita biasanya tidak memiliki label semacam itu. Tidak ada pendekatan yang dapat sepenuhnya menilai kualitas sebenarnya dari suatu clustering, namun evaluasi manusia dapat memberikan kontribusi yang berharga, meskipun subjektif.
Meskipun demikian, statistik seperti ini dapat memberikan wawasan yang bermanfaat dalam mengidentifikasi clustering yang buruk, namun evaluasi manusia juga penting untuk dipertimbangkan.
Disadur dari: en.wikipedia.org/wiki/Cluster_analysis