Teknik Industri
Dipublikasikan oleh Muhammad Ilham Maulana pada 18 April 2024
JAKARTA, KOMPAS.com – Pernahkah Anda bertanya bagaimana media sosial merekomendasikan artikel, web page, atau user lain untuk diikuti? Atau, barangkali Anda pernah mendapati iklan tentang barang yang secara kebetulan dibutuhkan muncul tiba-tiba saat sedang asyik mengulik foto maupun video di media sosial Instagram? Jika iya, berarti Anda sedang merasakan sendiri bagaimana teknologi digital mengubah pola advertising saat ini. Hal-hal tersebut bisa terjadi berkat fenomena big data yang saat ini digunakan oleh perusahaan digital. Seiring kemunculan berbagai platform tempat berbagi konten foto, teks, video, dan data diri, data pribadi pun sudah tak menjadi hal yang sifatnya privasi di era ini.
Jumlah data ini luar biasa banyak sehingga dapat dikelola dengan baik untuk berbagai kepentingan, termasuk dalam bidang bisnis. Head of Data Science Program Bina Nusantara (Binus University) Alexander Gunawan mengatakan, perkembangan teknologi yang semakin pesat membuat hampir semua perusahaan memiliki dan dapat memanfaatkan big data, baik yang bersifat publik maupun privat. “Di Indonesia, semakin banyak perusahaan berbasis teknologi informasi (TI) seperti start-up yang berjalan secara online menggunakan data digital,” kata Alexander saat diwawancara Kompas.com, Kamis (26/11/2020). Alex juga mengatakan, big data tidak hanya dapat dimanfaatkan untuk kepentingan bisnis perusahaan teknologi, tetapi juga bidang lain mulai dari pemerintahan, perbankan, aktuaria (asuransi), konsultan jasa statistik, telekomunikasi, industri pabrik, pemasaran, industri kimia dan farmasi, hingga riset kesehatan.
Gunanya bermacam-macam. Di bidang pemerintahan misalnya, big data digunakan untuk mempercepat pengambilan keputusan, monitoring, dan evaluasi. Sementara di perbankan, big data dapat digunakan untuk meminimalisasi terjadinya kredit bermasalah dan kerugian bank, serta sebagai basis informasi mengenai rekam jejak debitur dalam aktivitas bisnis sehari-hari. Alexander menjelaskan, untuk mengambil, menyimpan, dan menganalisis data-data digital, diperlukan keilmuan data science dengan sumber daya manusia (SDM) yang kompeten dalam bidang ini. Dengan mengoptimalisasi data-data tersebut, lanjut Alexander, perusahaan dapat memperbaiki sekaligus meningkatkan layanan kepada konsumen.
“Jika (perusahaan) tidak mengacu pada data dan melihat perkembangan tren selera customer, mereka tidak dapat mengembangkan aplikasi maupun layanan yang relevan dengan kebutuhan konsumen,” jelasnya. Karenanya, lanjut dia, perusahaan perlu melakukan upgrading skill data analis SDM sehingga karyawan mahir sebagai data scientist.
Kebutuhan vital SDM data science
Di Indonesia, SDM dengan kompetensi data science masih kurang. Untuk mengisi kesenjangan (gap) terhadap kebutuhan tersebut, kata Alex, perusahaan melakukan upgrading SDM yang sudah ada lewat training (pelatihan) dari pihak ketiga. "Dengan begitu, SDM yang sudah ada bisa dimanfaatkan untuk mengolah data," kata Alex.
Meski demikian, menurutnya, akan lebih efektif jika perusahaan tetap memiliki karyawan yang memiliki disiplin ilmu data science. Hal ini memudahkan mereka jika ingin mengolah data, membaca proyeksi bisnis, dan mengambil keputusan. "Makanya, kalau misal di perusahaan ada yang berlatar belakang pendidikan data science, orang-orang ini biasanya yang dijadikan pimpinan divisi," tambahnya.
Sebagai pimpinan divisi, kata Alex, SDM potensial tersebut berperan untuk menyeragamkan kompetensi data science anggota divisi yang berasal dari berbagai latar belakang pendidikan, seperti ekonomi, informatika, maupun matematika. Kebutuhan akan SDM dengan disiplin ilmu data science juga diungkap Alex lewat publikasi World Economic Forum 2020 berdasarkan survei "Future of Job Report 2018". Di situ disebut bahwa data analyst dan data scientist menjadi peringkat pertama dari 10 pekerjaan paling bertumbuh pada 2022.
Alex memaparkan, keahlian dari disiplin ilmu ini memang akan terus dibutuhkan. Apalagi, imbuh Alex, di masa mendatang, ilmu data science semakin berkembang diikuti dengan jumlah data yang lebih besar. Keilmuan data science yang bersifat dinamis menurut Alexander juga menjadi tantangan tersendiri.
Seiring laju teknologi yang semakin cepat, keahlian SDM harus diperbaharui setiap tahun. “Tahun ini pakai program apa, tahun depan (sudah) ganti program lain yang lebih relevan,” urainya. Di sisi lain, ilmu data science membutuhkan pengetahuan dasar yang kuat dalam bidang matematika dan statistik sebagai dasar kemampuan analis. Ia menilai, dua hal tersebut menjadi salah satu tantangan dalam menyiapkan SDM yang relevan.
Mempersiapkan SDM Kompeten
Merespons kebutuhan industri terhadap SDM dengan kompetensi data science, Bina Nusantara (Binus) University menyediakan program studi strata 1 (S1) Data Science. Program Data Science merupakan bagian dari School of Computer Science yang terakreditasi A. Program studi ini mempelajari semua jenis data yang dihasilkan oleh proses bisnis dan operasional perusahaan.
Kemudian, dianalisis menggunakan teknik mining data (penambangan data) untuk memahami bagaimana kinerja suatu bisnis dan untuk mengidentifikasi peluang yang baru. Adapun program ini dirancang untuk memberikan mahasiswa keterampilan programming software development, machine learning, proses riset, dan domain knowledge berdasarkan kasus dari berbagai bidang.
“(Seorang) data scientist sebenarnya seperti ‘detektif’. Mereka harus punya kemampuan untuk memecahkan persoalan dan memberikan solusi. Skill utama ‘detektif’ adalah mengumpulkan data, kemudian menganalisis data, mencari hubungan antara setiap fakta sehingga menghasilkan suatu insight atau solusi. Itu skill utamanya,” papar Alexander.
Dalam proses belajar, lanjut dia, kalkulus dan statistik menjadi pelajaran fundamental untuk melakukan interpretasi data. Ketika berhadapan dengan data, terutama data yang detail dan ingin melakukan interpretasi hubungan variabel, ilmu statistik menjadi kunci. “Ketika jumlah data (yang dianalisis) sangat besar atau disebut big data atau mahadata, program studi Data Science mempelajari machine learning untuk mengolah data atau mencari pola data sehingga modelnya bisa digunakan untuk melakukan prediksi,” jelasnya.
Kemampuan lain yang juga harus dimiliki seorang lulusan Program Data Science adalah komunikasi. Kata Alex, solusi atau data yang telah diolah pada akhirnya akan disajikan dalam bentuk presentasi pada stakeholder. Di bagian ini, mereka harus cakap berkomunikasi, bahkan harus pintar storytelling. Alex menyebut, khusus di Binus, lulusan Program Data Science dipersiapkan untuk mampu bekerja di dunia industri.
Karenanya, mahasiswa program tersebut dibekali portofolio sejumlah kasus untuk dipecahkan. “Bila mahasiswa yang punya minat pada teknologi, mereka bisa mengambil data-data maupun kasus yang berkaitan dengan teknologi. Bila tertarik pada bidang bisnis, (mereka) bisa mengambil data-data yang berkaitan dengan bisnis seperti data transaksi,” imbuhnya. Dengan portofolio tersebut, perkembangan skill mahasiswa bisa diketahui berdasarkan studi kasus yang telah dikerjakan.
Persiapan lain yang dilakukan agar mahasiswa siap berhadapan langsung dengan pelaku industri atau masyarakat adalah 3+1 Enrichment Program. Program ini berlangsung selama 2 semester atau sebanyak 32 SKS yang dimulai dari semester 5 atau 6 sampai semester 7. Selama setahun, mahasiswa akan belajar di luar lingkungan kampus dan menimba ilmu dari perusahaan-perusahaan multinasional atau global.
Tujuan program ini adalah memberi kesempatan pada mahasiswa untuk terjun lebih awal ke dunia kerja. Dengan cara itulah, mahasiswa lebih siap bersaing. “Dalam 3+1 Enrichment Program, ada 5 jalur yang dapat dipilih mahasiswa, antara lain magang di industri, proyek riset, magang di luar negeri, entrepreneurship, dan kuliah kerja nyata (KKN),” terangnya.
Sumber: kompas.com
Teknik Industri
Dipublikasikan oleh Muhammad Ilham Maulana pada 18 April 2024
Definisi, karakteristik, dan manfaat
Definisi data mining, secara sederhana, adalah istilah yang digunakan untuk menjelaskan proses pencarian atau penambangan knowledge dari data yang sangat besar. Menurut analogi, orang mungkin berpikir bahwa istilah data mining adalah sesuatu yang tidak tepat; menambang emas dari bebatuan atau lumpur diacu sebagai ‘penambangan emas’ dan bukannya penambangan ‘batu’ atau ‘lumpur’.
Jadi, data mining barangkali lebih cocok diberi nama ‘knowledge mining’ atau ‘knowledge discovery’. Meskipun ada ketidakcocokan antara makna dan istilah, data mining telah menjadi pilihan bagi komunitas ilmu ini. Banyak nama-nama lain yang ter-asosiasi dengan data mining antara lain ‘knowledge extraction’, ‘pattern analysis’, ‘data archaeology’, ‘information harvesting’, ‘pattern searching’, dan ‘data dredging’.
Secara teknis, data minig adalah proses yang memanfaatkan teknik-teknik statistik, matematika, dan kecerdasan buatan untuk mengekstrak dan mengidentifikasi informasi dan knowledge selanjutnya (atau pola-pola) yang berasal dari sekumpulan data yang sangat besar. Berbagai macam pola tersebut bisa dalam bentuk aturan bisnis, kesamaan-kesamaan, korelasi, trend, atau model-model prediksi.
Kebanyakan literatur mendefinisikan data mining sebagai “proses yang rumit untuk mengidentifikasi pola-pola yang valid, baru, memiliki potensi bermanfaat, dan bisa dipahami, terhadap data yang disimpan di dalam database yang terstruktur”, dimana data diorganisir dalam baris-baris yang terstruktur menurut kategori, ordinal/berurutan, dan variable-variabel yang berkesinambungan. Dalam definisi ini, beberapa arti dari kata-kata kunci di atas adalah seperti berikut:
Data mining bukanlah disiplin ilmu baru, tetapi lebih pada definisi yang baru untuk pemanfaatan banyak disiplin ilmu. Data mining diposisikan erat di irisan berbagai disiplin ilmu, termasuk statistik, artificial intelligence (kecerdasan buatan), machine learning, management science, information systems (sistem informasi), dan database. Lihat gambar di bawah ini:
Dengan menggunakan perkembangan di semua disiplin itu, data mining berusaha membuat perkembangan dalam mengekstrak informasi dan knowledge dari database yang besar. Ini adalah bidang ilmu yang muncul ke permukaan dan menarik banyak perhatian dalam waktu yang singkat.
Berikut adalah karakteristik utama dan tujuan dari data mining:
Perusahaan yang secara efektif memanfaatkan tool-tool dan teknologi data mining bisa mendapatkan dan mempertahankan keunggulan kompetitif strategis. Data mining menawarkan perusahaan suatu environment yang sangat diperlukan untuk meningkatkan keputusan untuk memanfaatkan peluang-peluang baru dengan mentransformasikan data menjadi senjata yang strategis.
Sumber: binus.ac.id
Teknik Industri
Dipublikasikan oleh Muhammad Ilham Maulana pada 03 April 2024
Visualisasi data telah menjadi salah satu metode komunikasi visual modern yang sangat penting dalam berbagai bidang ilmu. Meskipun tidak secara eksklusif terkait dengan satu bidang tertentu, visualisasi data merupakan interpretasi antara banyak bidang, seperti statistik, ilmu komputer, dan pengembangan perangkat lunak. Tujuan utamanya adalah untuk mengkomunikasikan informasi dengan jelas dan efisien kepada pengguna melalui berbagai grafik informasi, seperti tabel dan grafik.
Seni dan sains berpadu dalam visualisasi data, di mana desain estetis dan fungsionalitas harus seimbang untuk memberikan wawasan yang intuitif terhadap data yang kompleks. Namun, terkadang desain visual yang menawan gagal dalam menyampaikan informasi dengan efektif.
Dalam era big data saat ini, tantangan dalam pemrosesan, analisis, dan komunikasi data semakin meningkat. Ilmu data dan para ilmuwan data muncul sebagai solusi untuk mengatasi tantangan tersebut. Visualisasi data secara dekat berkaitan dengan grafik informasi, visualisasi informasi, visualisasi ilmiah, eksplorasi analisis data, dan grafik statistis. Ini telah menjadi wilayah penelitian, pengajaran, dan pengembangan yang aktif pada milenium baru.
Mengungkapkan Keefektifan Tampilan Grafik dalam Komunikasi Informasi
Dalam era di mana informasi berlimpah, kemampuan untuk menyajikan data dengan jelas dan efektif melalui grafik adalah keterampilan yang sangat berharga. Professor Edward Tufte, seorang pakar dalam bidang visualisasi informasi, menekankan pentingnya prinsip-prinsip yang mendasari tampilan grafik yang efektif.
Pertama-tama, sebuah tampilan grafik harus mampu menampilkan data dengan jelas, memungkinkan pemirsa untuk dengan mudah menganalisis dan memahami informasi yang disajikan. Ini mengharuskan grafik untuk menghindari pengelabuan atau distraksi yang dapat mengaburkan pesan yang ingin disampaikan oleh data.
Selain itu, grafik yang efektif juga mendorong pengamat untuk fokus pada substansi dari data, bukan pada aspek-aspek teknis seperti desain grafik atau metodologi produksinya. Hal ini memastikan bahwa grafik tidak hanya sekadar hiasan visual, tetapi alat yang bermakna dalam menyampaikan informasi yang berguna.
Tufte juga menekankan pentingnya memaksimalkan efisiensi tampilan grafik dengan memberikan banyak informasi dalam ruang yang terbatas. Ini berarti mengurangi tinta-tinta yang tidak berkaitan dengan data serta menyajikan kumpulan data dalam format yang koheren dan mudah dipahami.
Sebagai contoh konkret, Tufte mencatat diagram Minard yang memvisualisasikan kekalahan tentara Napoleon pada tahun 1812-1813 sebagai salah satu contoh terbaik dari tampilan grafik yang efektif. Diagram ini berhasil menggabungkan beberapa variabel dalam dua dimensi dengan jelas dan menggambarkan narasi yang dapat dipahami dengan mudah.
Namun, tidak mematuhi prinsip-prinsip tampilan grafik yang efektif dapat menghasilkan apa yang disebut sebagai "sampah-grafik", di mana pesan yang ingin disampaikan oleh data menjadi kabur atau bahkan menyesatkan. Oleh karena itu, penting bagi pembuat grafik untuk mempertimbangkan secara hati-hati bagaimana mereka menyajikan informasi agar tidak mengganggu pesan yang ingin disampaikan.
Terakhir, praktik terbaik dalam menampilkan grafik, seperti yang disarankan oleh Congressional Budget Office, adalah untuk mengenali audiens yang dituju, merancang grafik yang dapat berdiri sendiri di luar konteks laporan, dan memastikan bahwa pesan kunci dapat dengan jelas disampaikan melalui grafik tersebut.
Pesan Kuantitatif
Stephen Few, penulis, mengidentifikasi delapan tipe pesan kuantitatif yang sering digunakan dalam analisis data dan komunikasi menggunakan grafik. Ini adalah:
Analisis data dapat meninjau beberapa atau semua pesan dan tipe grafik di atas untuk digunakan dalam pekerjaan atau penonton mereka. Proses uji coba untuk mengidentifikasi keterkaitan dan makna pesan pada data adalah bagian dari eksplorasi analisis data.
Persepsi Visual dan Visualisasi Data
Persepsi visual adalah aspek penting dari kognisi manusia yang memungkinkan kita membedakan panjang dua garis, orientasi, dan pola warna tanpa upaya pemrosesan yang signifikan. Kemampuan untuk mengenali perbedaan berdasarkan atribut pra-perhatian dikenal sebagai "pemrosesan pra-perhatian". Misalnya, manusia dapat dengan mudah membedakan panjang dua garis tanpa banyak usaha kognitif, namun mengidentifikasi berapa kali angka "5" muncul dalam sekelompok angka mungkin memerlukan lebih banyak perhatian dan pemrosesan.
Visualisasi data yang efektif memanfaatkan pemrosesan pra-perhatian dan kekuatan relatif dari berbagai atribut. Misalnya, manusia dapat dengan cepat memproses perbedaan panjang garis saat menggunakan diagram batang (yang memanfaatkan panjang garis untuk menunjukkan perbandingan) dibandingkan diagram lingkaran (yang menggunakan luas permukaan).
Terminologi
Visualisasi data mengikuti terminologi tertentu, beberapa di antaranya berasal dari statistik. Misalnya, Stephen Few mendefinisikan dua jenis data, yang digunakan secara kombinasi untuk mendukung analisis atau visualisasi yang bermakna:
1. Kategori: Label teks mendeskripsikan sifat data, seperti "Nama" atau "Usia". Kategori ini mencakup data kualitatif (bukan angka).
2. Kuantitatif: Pengukuran numerik, seperti "25" yang mewakili usia dalam tahun.
Dua Jenis Utama Penyajian Informasi Adalah Tabel Dan Bagan
Tabel berisi data kuantitatif yang disusun dalam baris dan kolom dengan label kategorikal. Biasanya digunakan untuk menampilkan data numerik. Dalam contoh di atas, sebuah tabel mungkin memiliki label kategorikal untuk nama (variabel kualitatif) dan usia (variabel kuantitatif), dengan setiap baris mewakili individu (unit eksperimen atau kategori dari sampel).
Bagan biasanya menampilkan data kuantitatif dan mewakili nilai yang dikodekan sebagai objek visual (seperti garis, batang, atau titik). Nilai numerik ditampilkan dalam wilayah yang diwakili oleh satu atau lebih sumbu. Sumbu memberikan skala (kuantitatif dan kategorikal) untuk memberi label dan memberikan nilai pada objek visual. Banyak bagan juga disebut sebagai grafik.
Perpustakaan KPI telah mengembangkan tabel periodik interaktif metode visualisasi, yang menampilkan berbagai metode visualisasi data. Ini mengikuti tujuh jenis metode visualisasi data: data, informasi, konsep, strategi, metafora, dan kombinasi.
Contoh diagram digunakan pada visualisasi data
Nama Visual Dimensi:
Dimensi Jaringan:
Grafik Batang:
Streamgraph:
Treemap:
Gantt Chart:
Scatter Plot (3D):
Beragam Pendekatan dalam Visualisasi Data
Dalam dunia visualisasi data, terdapat beragam pendekatan yang memperluas cakupan pemahaman kita tentang bagaimana informasi dapat disajikan dengan cara yang efektif dan bermakna. Salah satu pendekatan yang umum adalah fokus pada presentasi informasi, seperti yang diuraikan oleh Friedman (2008). Friendly (2008) juga menyoroti dua aspek utama dari visualisasi data: grafik statistik dan kartografi tematik.
Namun, ada pandangan lain yang membagi ruang lingkup visualisasi data menjadi berbagai subjek yang berbeda, seperti yang diungkapkan dalam artikel "Data Visualization: Modern Approaches" (2007). Di antara subjek-subjek tersebut termasuk menampilkan koneksi antara data, menyajikan data dengan jelas, menggambarkan berita melalui visualisasi, serta menciptakan representasi visual yang dapat diakses oleh pengguna.
Dari perspektif ilmu komputer, Frits H. Post (2002) memberikan pemahaman yang lebih terinci dengan mengkategorikan bidang ini menjadi beberapa sub-bidang. Ini termasuk visualisasi informasi, teknik interaksi dan arsitektur, teknik pemodelan, metode multiresolusi, algoritme, dan teknik visualisasi, serta visualisasi volume.
Ketika kita memeriksa berbagai pendekatan ini, kita dapat melihat bagaimana visualisasi data memiliki banyak dimensi dan kompleksitas. Ini menunjukkan bahwa ada berbagai cara untuk mendekati dan memahami bagaimana data dapat disajikan dan dimanfaatkan secara optimal. Dengan memahami keragaman perspektif ini, kita dapat lebih memperkaya pemahaman kita tentang kekuatan visualisasi data dalam menyampaikan informasi dengan jelas dan bermakna.
Memahami Arsitektur Presentasi Data: Menyajikan Pengetahuan dengan Efektif
Arsitektur Presentasi Data (APD) merupakan sekumpulan keahlian yang bertujuan untuk mengelola, menyusun, dan menyajikan data dengan cara yang optimal untuk mengkomunikasikan makna dan memberikan pengetahuan kepada pengguna. Sejarah APD mengaitkan istilah ini dengan Kelly Lautt, yang menggambarkan APD sebagai kunci untuk sukses dan nilai dalam Intelijensi Bisnis.
APD menggabungkan ilmu angka, statistik, visualisasi data, komunikasi, psikologi organisasi, dan manajemen perubahan untuk menghasilkan solusi intelijensi bisnis yang dapat dimengerti. Ini bukan hanya tentang teknologi informasi atau bisnis semata, tetapi merupakan keahlian terpisah yang mencakup pemilihan data, waktu penyampaian, format, dan visualisasi yang efektif.
Tujuan utama dari APD adalah menggunakan data untuk menyediakan pengetahuan dengan cara yang efisien dan efektif. Ini meliputi meminimalkan kebisingan dan kompleksitas data yang tidak diperlukan, sambil menyediakan data yang relevan dan komprehensif untuk setiap pengguna.
Dalam ruang lingkup APD, pekerjaan meliputi pembuatan mekanisme penyampaian data yang efektif, menentukan makna yang penting bagi setiap pengguna, menentukan periode perbaruan data yang diperlukan, menemukan data yang sesuai, dan menggunakan analisis, pengelompokan, dan visualisasi yang tepat.
Bidang ilmu terkait dengan APD termasuk analisis bisnis, perbaikan proses bisnis, visualisasi data, arsitektur informasi, arsitektur solusi, dan analisis statistik. Semua bidang ini berkontribusi pada pemahaman dan penerapan APD dalam konteks bisnis dan organisasi.
Dalam prakteknya, APD mempertimbangkan berbagai elemen dalam desain grafis atau pengguna, termasuk pemilihan lokasi, warna, dan elemen grafis lainnya, dengan tujuan mengomunikasikan makna, pengaruh, dan informasi yang bermanfaat bagi pengguna.
Pemahaman yang mendalam tentang APD membantu organisasi dalam menyajikan data dengan jelas, mudah dimengerti, dan mempengaruhi pengambilan keputusan yang efektif. Dengan memanfaatkan keahlian APD, sebuah organisasi dapat meningkatkan kinerja bisnisnya melalui penggunaan data yang lebih cerdas dan efisien.
Disadur dari: id.wikipedia.org
Teknik Industri
Dipublikasikan oleh Muhammad Ilham Maulana pada 03 April 2024
Pembelajaran tanpa pengawasan (unsupervised learning) adalah sebuah metode dalam pembelajaran mesin di mana algoritma belajar pola-pola secara ekslusif dari data yang tidak berlabel. Tujuannya adalah melalui peniruan (mimicry), yang merupakan mode pembelajaran penting pada manusia, mesin dipaksa untuk membangun representasi yang ringkas tentang dunianya dan kemudian menghasilkan konten imajinatif darinya.
Metode lain dalam spektrum pengawasan adalah Pembelajaran Penguatan (Reinforcement Learning) di mana mesin hanya diberikan skor kinerja numerik sebagai panduan, dan Pembelajaran Lemah atau Semi-Pengawasan di mana sebagian kecil data diberi label, dan Pembelajaran Kendali Sendiri (Self-Supervision).
Tugas vs. Metode dalam Jaringan Saraf Tiruan
Tugas jaringan saraf tiruan sering dikategorikan sebagai diskriminatif (pengenalan) atau generatif (imajinasi). Meskipun tidak selalu, tugas diskriminatif cenderung menggunakan metode pembelajaran terbimbing, sedangkan tugas generatif menggunakan pembelajaran tanpa pengawasan. Namun, pemisahan ini sangat kabur. Misalnya, pengenalan objek cenderung menggunakan pembelajaran terbimbing, tetapi pembelajaran tanpa pengawasan juga dapat mengelompokkan objek ke dalam kelompok. Selain itu, seiring kemajuan, beberapa tugas menggunakan kombinasi kedua metode, dan beberapa tugas beralih dari satu metode ke metode lainnya. Sebagai contoh, pengenalan gambar awalnya sangat bergantung pada pembelajaran terbimbing, tetapi kemudian menjadi hibrida dengan menggunakan pra-pelatihan tanpa pengawasan, dan akhirnya kembali ke metode terbimbing dengan munculnya dropout, ReLU, dan learning rate adaptif.
Proses Pelatihan
Selama fase pembelajaran, jaringan tanpa pengawasan berusaha meniru data yang diberikan dan menggunakan kesalahan dalam hasil tiru-tiruan untuk memperbaiki diri sendiri (yaitu, memperbaiki bobot dan biasnya). Terkadang kesalahan diekspresikan sebagai probabilitas rendah bahwa output yang salah terjadi, atau mungkin diekspresikan sebagai keadaan energi tinggi yang tidak stabil dalam jaringan.
Berbeda dengan metode terbimbing yang mendominasi penggunaan backpropagation, pembelajaran tanpa pengawasan juga menggunakan metode lain termasuk: Aturan Pembelajaran Hopfield, Aturan Pembelajaran Boltzmann, Contrastive Divergence, Wake Sleep, Inferensi Variasional, Maximum Likelihood, Maximum A Posteriori, Gibbs Sampling, dan backpropagating reconstruction errors atau hidden state reparameterizations.
Energ
Sebuah fungsi energi adalah ukuran makroskopik dari keadaan aktivasi jaringan. Dalam mesin Boltzmann, fungsi ini memainkan peran sebagai Fungsi Biaya. Analogi dengan fisika ini terinspirasi oleh analisis Ludwig Boltzmann tentang energi makroskopik gas dari probabilitas mikroskopik gerakan partikel , di mana k adalah konstanta Boltzmann dan T adalah suhu. Dalam jaringan RBM, relasinya adalah
, di mana
dan
bervariasi di setiap pola aktivasi yang mungkin dan
. Untuk lebih jelas,
, di mana
adalah pola aktivasi semua neuron (terlihat dan tersembunyi). Oleh karena itu, beberapa jaringan saraf awal dinamakan Mesin Boltzmann. Paul Smolensky menyebut
sebagai Harmoni. Sebuah jaringan mencari energi rendah yang berarti Harmoni tinggi.
Jenis-Jenis Jaringan
Artikel ini menyajikan diagram koneksi berbagai jaringan tanpa pengawasan, di mana detail akan diberikan dalam bagian Perbandingan Jaringan. Lingkaran mewakili neuron dan tepi di antaranya adalah bobot koneksi. Seiring perubahan desain jaringan, fitur ditambahkan untuk memungkinkan kemampuan baru atau dihilangkan untuk mempercepat pembelajaran. Misalnya, neuron berubah antara deterministik (Hopfield) dan stokastik (Boltzmann) untuk memungkinkan output yang kuat, bobot dihilangkan dalam satu lapisan (RBM) untuk mempercepat pembelajaran, atau koneksi diizinkan menjadi asimetris (Helmholtz).
Contoh gambar.
Dalam dunia pembelajaran mesin, pembelajaran tanpa pengawasan (unsupervised learning) memegang peran penting dalam mengekstraksi pola dan struktur tersembunyi dari data tanpa label. Artikel ini akan mengeksplorasi beberapa metode dan jaringan yang digunakan dalam pembelajaran tanpa pengawasan, serta memberikan gambaran tentang perkembangan historisnya.
Sejarah Singkat:
Jenis-Jenis Jaringan:
Metode Lainnya:
Dengan eksplorasi terus-menerus dalam metode pembelajaran tanpa pengawasan, kita dapat meningkatkan kemampuan kecerdasan buatan dalam mengekstraksi wawasan berharga dari data kompleks tanpa label, membuka pintu untuk penemuan dan inovasi baru di berbagai bidang.
Disadur dari: id.wikipedia.org
Teknik Industri
Dipublikasikan oleh Muhammad Ilham Maulana pada 01 April 2024
Dalam statistik, regresi linear adalah model statistik yang memperkirakan hubungan linear antara respons skalar dan satu atau lebih variabel penjelas (juga dikenal sebagai variabel terikat dan independen). Kasus satu variabel penjelas disebut regresi linear sederhana; untuk lebih dari satu, prosesnya disebut regresi linear berganda. Istilah ini berbeda dari regresi linear multivariat, di mana beberapa variabel terikat yang berkorelasi diprediksi, bukan hanya satu variabel skalar. Jika variabel penjelas diukur dengan kesalahan, maka diperlukan model kesalahan dalam variabel, juga dikenal sebagai model kesalahan pengukuran.
Dalam regresi linear, hubungan dimodelkan menggunakan fungsi prediktor linear yang parameter modelnya tidak diketahui dan diestimasi dari data. Model-model seperti itu disebut model linear. Paling umum, rata-rata bersyarat respons yang diberikan nilai variabel penjelas (atau prediktor) diasumsikan sebagai fungsi afinitas dari nilai-nilai tersebut; kurang umum, median bersyarat atau beberapa kuantil lainnya digunakan. Seperti semua bentuk analisis regresi, regresi linear berfokus pada distribusi probabilitas bersyarat respons yang diberikan nilai-nilai prediktor, bukan pada distribusi probabilitas bersama dari semua variabel ini, yang merupakan domain analisis multivariat.
Regresi linear adalah jenis analisis regresi pertama yang dipelajari secara ketat dan digunakan secara luas dalam aplikasi praktis. Ini karena model yang bergantung secara linear pada parameter yang tidak diketahui lebih mudah disesuaikan daripada model yang berkaitan secara non-linear dengan parameter mereka dan karena properti statistik estimator yang dihasilkan lebih mudah ditentukan.
Regresi linear memiliki banyak aplikasi praktis. Kebanyakan aplikasi dapat dikategorikan dalam salah satu dari dua kategori umum berikut:
Model-model regresi linear sering dipasangkan menggunakan pendekatan kuadrat terkecil, tetapi mereka juga dapat dipasangkan dengan cara lain, seperti dengan meminimalkan "kurang sesuaian" dalam beberapa norm lain (seperti regresi deviasi terkecil), atau dengan meminimalkan versi berpenalitas dari fungsi biaya kuadrat terkecil seperti pada regresi ridge (penalitas norma L2) dan lasso (penalitas norma L1). Penggunaan Mean Squared Error (MSE) sebagai biaya pada dataset yang memiliki banyak pencilan besar, dapat menghasilkan model yang lebih cocok dengan pencilan daripada data yang sebenarnya karena pentingnya yang lebih tinggi yang diberikan oleh MSE kepada kesalahan besar. Jadi, fungsi biaya yang tangguh terhadap pencilan harus digunakan jika dataset memiliki banyak pencilan besar. Sebaliknya, pendekatan kuadrat terkecil dapat digunakan untuk memasangkan model yang bukan model linear. Dengan demikian, meskipun istilah "kuadrat terkecil" dan "model linear" erat kaitannya, mereka tidak sinonim.
Rumus Sederhana Regresi Linier
Dalam suatu set data dari n unit statistik, model regresi linear mengasumsikan bahwa hubungan antara variabel dependen y dan vektor regresor x adalah linear. Hubungan ini dimodelkan melalui istilah gangguan atau variabel error ε — sebuah variabel acak yang tidak diamati yang menambah "noise" pada hubungan linear antara variabel dependen dan regresor. Dengan demikian, model ini memiliki bentuk sebagai berikut.
dimana T menunjukkan transpos, sehingga xiTβ adalah produk dalam antara vektor xi dan β.
Seringkali n persamaan ini ditumpuk dan ditulis dalam notasi matriks sebagai
dimana,
Notasi dan terminologi
Contoh Penggunaan
Pertimbangkan situasi di mana sebuah bola kecil dilemparkan ke udara dan kemudian kita mengukur ketinggiannya hi pada berbagai momen waktu ti. Fisika memberi tahu kita bahwa, dengan mengabaikan hambatan, hubungan tersebut dapat dimodelkan sebagai
dimana β1 menentukan kecepatan awal bola, β2 sebanding dengan gravitasi standar, dan εi disebabkan oleh kesalahan pengukuran. Regresi linier dapat digunakan untuk memperkirakan nilai β1 dan β2 dari data yang diukur. Model ini non-linier pada variabel waktu, tetapi linier pada parameter β1 dan β2; jika kita mengambil regressor xi = (xi1, xi2) = (ti, ti2), modelnya mengambil bentuk standar.
Dalam regresi linear univariat, hanya ada satu variabel independen yang terlibat. Karena itu, hanya ada satu variabel input X dan satu variabel output Y. Kedua variabel ini direpresentasikan sebagai sumbu X dan Y pada diagram kartesius. Dalam jenis regresi linear ini, model regresi linear dijelaskan sebagai berikut:
dimana {\displaystyle w} merupakan nilai yang akan dicari sedemikian sehingga nilai {\displaystyle w}
menjadi optimal dan {\displaystyle x}
merupakan variable bebas atau input. Proses pencarian nilai {\displaystyle w}
dapat dilakukan dengan beberapa cara diantaranya dengan menggunakan pendekatan least square, maximum likehood, atau algoritme gradient descent. Pada dasarnya, pencarian nilai {\displaystyle w}
dilakukan hingga nilai error yang dihasilkan merupakan nilai yang paling minimal. Fungsi error yang digunakan adalah sebagai berikut.
Dimana merupakan banyaknya data input,
merupakan model regresi linear, dan
adalah target output yang seharusnya.
Dalam regresi linear multivariat, tidak hanya ada satu variabel independen yang terlibat, tetapi beberapa variabel independen. Hal ini disebabkan oleh penggunaan input yang memiliki lebih dari satu dimensi. Oleh karena itu, diperlukan model regresi linear yang berbeda dari regresi linear univariat. Model regresi linear multivariat dapat dijelaskan sebagai berikut:
Dimana juga merupakan nilai yang akan dicari sedemikian sehingga nilai
menjadi optimal dan
merupakan variable bebas atau input. Proses pencarian nilai
juga masih dapat dilakukan dengan menggunakan cara yang sama dengan regresi linear univariate, yaitu dengan menggunakan pendekatan least square, maximum likehood, atau algoritme gradient descent. Pada dasarnya, pencarian nilai
dilakukan hingga nilai error yang didapatkan dari fungsi error merupakan nilai yang paling minimal. Fungsi error yang digunakan masih sama dengan regresi linear univariate.
Disadur dari: id.wikipedia.org
Teknik Industri
Dipublikasikan oleh Muhammad Ilham Maulana pada 28 Maret 2024
Data mining (Penambangan Data) adalah proses penting dalam dunia teknologi yang melibatkan ekstraksi dan penemuan pola-pola dalam kumpulan data besar. Ini melibatkan metode yang berada di persimpangan antara pembelajaran mesin, statistik, dan sistem database. Data mining merupakan subbidang interdisipliner dari ilmu komputer dan statistik yang bertujuan untuk mengekstrak informasi dari kumpulan data dan mengubahnya menjadi struktur yang dapat dipahami untuk penggunaan lebih lanjut. Ini merupakan langkah analisis dalam proses "penemuan pengetahuan dalam basis data" atau KDD. Selain langkah analisis, data mining juga melibatkan aspek manajemen data, preprocessing data, pertimbangan model dan inferensi, metrik menarik, kompleksitas, pengolahan hasil yang ditemukan, visualisasi, dan pembaruan online.
Meskipun disebut sebagai "data mining", tujuan sebenarnya adalah ekstraksi pola dan pengetahuan dari data yang besar, bukan penambangan data itu sendiri. Istilah ini sering digunakan secara luas untuk proses pengolahan informasi besar-besaran serta aplikasi sistem pendukung keputusan komputer, termasuk kecerdasan buatan dan bisnis. Tugas utama dalam data mining adalah analisis semi-otomatis atau otomatis dari jumlah data besar untuk mengekstrak pola-pola menarik yang sebelumnya tidak diketahui, seperti kelompok data, catatan yang tidak biasa, dan ketergantungan. Ini melibatkan penggunaan teknik basis data seperti indeks spasial. Pola-pola ini dapat digunakan dalam analisis lebih lanjut atau dalam pembelajaran mesin dan analisis prediktif. Perbedaan utama antara analisis data dan data mining adalah bahwa analisis data digunakan untuk menguji model dan hipotesis pada dataset, sedangkan data mining menggunakan model statistik dan pembelajaran mesin untuk mengungkap pola-pola tersembunyi dalam jumlah data yang besar.
Istilah terkait seperti data dredging, data fishing, dan data snooping mengacu pada penggunaan metode data mining untuk sampel bagian dari kumpulan data yang lebih besar yang mungkin terlalu kecil untuk membuat inferensi statistik yang dapat diandalkan tentang validitas pola yang ditemukan. Meskipun demikian, metode ini dapat digunakan dalam menciptakan hipotesis baru untuk diuji terhadap populasi data yang lebih besar.
Dengan teknologi yang terus berkembang, data mining tetap menjadi alat yang penting dalam mengungkap pola-pola berharga dari data besar dan kompleks, membantu organisasi dalam pengambilan keputusan yang lebih baik dan mempertahankan keunggulan kompetitif di pasar yang semakin kompetitif.
Asal Usul dan Sejarah Data Mining
Pada tahun 1960-an, para ahli statistik dan ekonom menggunakan istilah seperti "data fishing" atau "data dredging" untuk merujuk pada praktik yang dianggap tidak baik dalam menganalisis data tanpa hipotesis a priori. Istilah "data mining" juga digunakan dengan cara yang sama kritis oleh ekonom Michael Lovell dalam sebuah artikel yang diterbitkan di Review of Economic Studies pada tahun 1983. Lovell mengindikasikan bahwa praktik ini "menyamar di bawah berbagai alias, mulai dari "eksperimen" (positif) hingga "fishing" atau "snooping" (negatif).
Istilah data mining muncul sekitar tahun 1990 dalam komunitas basis data, dengan konotasi yang umumnya positif. Untuk sementara waktu pada tahun 1980-an, frasa "database mining"™, digunakan, tetapi karena telah dilindungi hak cipta oleh perusahaan HNC, yang berbasis di San Diego, untuk memasarkan Database Mining Workstation mereka; para peneliti akhirnya beralih ke data mining. Istilah lain yang digunakan termasuk data archaeology, information harvesting, information discovery, knowledge extraction, dll. Gregory Piatetsky-Shapiro menciptakan istilah "knowledge discovery in databases" untuk workshop pertama tentang topik yang sama (KDD-1989) dan istilah ini menjadi lebih populer di komunitas kecerdasan buatan dan pembelajaran mesin. Namun, istilah data mining menjadi lebih populer di kalangan bisnis dan pers. Saat ini, istilah data mining dan penemuan pengetahuan digunakan secara bergantian.
Latar Belakang Ekstraksi manual pola dari data telah terjadi selama berabad-abad. Metode awal untuk mengidentifikasi pola dalam data termasuk teorema Bayes (abad ke-18) dan analisis regresi (abad ke-19). Proliferasi, keberadaan, dan kekuatan yang meningkat dari teknologi komputer secara dramatis telah meningkatkan kemampuan pengumpulan, penyimpanan, dan manipulasi data. Seiring dengan pertumbuhan ukuran dan kompleksitas set data, analisis data langsung dengan tangan secara bertahap telah digantikan dengan pemrosesan data otomatis, dibantu oleh penemuan-penemuan lain dalam ilmu komputer, khususnya dalam bidang pembelajaran mesin, seperti jaringan saraf, analisis klaster, algoritma genetika (tahun 1950-an), pohon keputusan dan aturan keputusan (tahun 1960-an), dan mesin vektor dukungan (tahun 1990-an).
Data mining adalah proses menerapkan metode-metode ini dengan tujuan untuk mengungkap pola tersembunyi dalam set data yang besar. Ini memperjembatani kesenjangan antara statistik terapan dan kecerdasan buatan (yang biasanya menyediakan latar belakang matematika) dengan manajemen basis data dengan memanfaatkan cara data disimpan dan diindeks dalam basis data untuk menjalankan algoritma pembelajaran dan penemuan aktual secara lebih efisien, memungkinkan metode-metode tersebut diterapkan pada set data yang semakin besar.
Proses Penemuan Pengetahuan dari Data
Proses penemuan pengetahuan dari basis data (Knowledge Discovery in Databases/KDD) adalah langkah penting dalam memanfaatkan potensi data. Terdapat beberapa pendekatan seperti CRISP-DM yang menguraikan tahapan-tahapan yang harus diikuti, mulai dari pemahaman bisnis hingga implementasi model. Sebelum melakukan data mining, langkah pra-pemrosesan diperlukan untuk membersihkan data dari noise dan data hilang.
Data mining melibatkan tugas-tugas seperti deteksi anomali, pembelajaran aturan asosiasi, dan klasifikasi, dengan tujuan untuk mengekstrak pola dari data. Namun, hasil dari proses ini harus divalidasi secara hati-hati untuk memastikan keandalan dan kebergunaan informasi yang dihasilkan.
Dengan menggunakan kerangka kerja yang tepat dan melakukan validasi yang cermat, organisasi dapat mengubah data menjadi pengetahuan yang berharga untuk mendukung pengambilan keputusan yang lebih baik.
Proses Pencarian Pola
Penggalian data adalah salah satu bagian dari proses pencarian pola. Berikut ini urutan proses pencarian pola:
Teknik Penggalian Data
Penggalian data umumnya dapat dibagi menjadi dua fungsi utama: deskripsi dan prediksi. Berikut adalah beberapa fungsi penggalian data yang sering digunakan:
Disadur dari: id.wikipedia.org