Menjelajahi Kekuatan Pembelajaran Mesin: Perjalanan Menuju Pembelajaran Data Otonom

Dipublikasikan oleh Muhammad Ilham Maulana

02 April 2024, 10.35

Sumber: wikipedia.org

Machine learning (ML) atau Pemelajaran Mesin adalah bagian dari kecerdasan buatan (AI) yang berkaitan dengan pengembangan dan studi algoritme statistik yang dirancang untuk belajar secara mandiri dari data. Algoritme ini kemudian memanfaatkan pembelajaran ini untuk menggeneralisasi dan menangani data baru yang sebelumnya tidak terlihat, sehingga memungkinkan sistem ML untuk melakukan tugas-tugas tertentu tanpa memerlukan instruksi yang telah diprogram secara eksplisit. Dalam beberapa tahun terakhir, jaringan syaraf tiruan generatif telah menunjukkan kinerja yang lebih unggul daripada berbagai pendekatan konvensional di berbagai bidang.

Aplikasi pembelajaran mesin menjangkau berbagai domain, termasuk model bahasa besar (LLM), visi komputer, pengenalan suara, penyaringan email, pertanian, dan kedokteran. Bidang-bidang ini membutuhkan kemampuan untuk menangani tugas-tugas kompleks yang akan menantang dan mahal untuk dikembangkan menggunakan algoritme tradisional. Pembelajaran mesin juga dapat digunakan untuk memecahkan masalah bisnis, yang biasa disebut sebagai analisis prediktif. Meskipun tidak semua algoritme pembelajaran mesin didasarkan pada statistik, statistik komputasi memainkan peran penting dalam bidang ini.

Landasan matematis dari pembelajaran mesin berasal dari metode optimasi matematika. Penambangan data, bidang paralel yang terkait erat, berfokus pada analisis data eksplorasi melalui pembelajaran tanpa pengawasan. Dari perspektif teoretis, kerangka kerja pembelajaran PAC (Probably Approximately Correct) menyediakan model untuk menggambarkan pembelajaran mesin.

Definisi

Mesin yang dimaksud di sini adalah mesin dalam pengertian lebih mendekati kepada ‘sistem’, bukan mesin 'mekanik'. Istilah pemelajaran pertama kali muncul dalam disiplin ilmu kecerdasan buatan. Pemelajaran berarti menambah pengetahuan, memahami dengan belajar, dan mengikuti perintah. Pemelajaran mesin merupakan salah satu cabang dari kecerdasan buatan yang membahas mengenai pembangunan sistem yang didapat berdasarkan pada pemelajaran data, atau sebuah studi yang mempelajari cara untuk memprogram sebuah komputer untuk belajar. Inti dari pemelajaran mesin adalah representasi dan generalisasi. Pada tahun 1959, Arthur Samuel mendefinisikan bahwa pemelajaran mesin adalah bidang studi yang memberikan kemampuan untuk belajar tanpa diprogram secara eksplisit. Kemampuan belajar yang menjadi dominan ditentukan oleh kemampuan perangkat lunak atau alogaritmanya. Implementasi kemampuan belajar dapat dicapai dengan berbagai teknik, ada yang menggunakan kaidah (rule), ada yang menggunakan statistika, ada yang menggunakan pendekatan fisiologi yaitu sistem saraf manusia atau disebut dengan ANN (artificial neural network) atau jaringan saraf tiruan. Pemelajaran mesin dapat berfungsi untuk beradaptasi dengan suatu keadaan yang baru, serta untuk mendeteksi dan memperkirakan suatu pola.

Sejarah

Konsep pembelajaran mesin bermula pada akhir tahun 1950-an ketika Arthur Samuel, seorang karyawan IBM, memperkenalkan istilah tersebut dan membentuk dasar bagi bidang yang revolusioner ini. Namun, perjalanan pembelajaran mesin jauh melampaui kontribusi Samuel, berakar dari puluhan tahun ketertarikan manusia dalam memahami proses kognitif.

Pada akhir tahun 1940-an, karya teoritis psikolog Donald Hebb tentang struktur saraf membuka jalan bagi pengembangan neuron buatan dan prinsip-prinsip dasar yang mendasari algoritma kecerdasan buatan dan pembelajaran mesin. Kolaborator seperti logisian Walter Pitts dan Warren McCulloch memperdalam eksplorasi ini dengan merancang model matematis dari jaringan saraf yang mencerminkan proses berpikir manusia.

Tahun 1960-an menandai titik balik signifikan dengan diciptakannya "mesin pembelajaran" eksperimental seperti Cybertron, yang dirancang oleh Raytheon Company. Sistem-sistem awal ini, dilengkapi dengan memori pita berlubang, meneliti tugas pengenalan pola, membentuk dasar untuk kemajuan di masa depan.

Saat minat dalam pengenalan pola tetap berlanjut ke tahun 1970-an, peneliti seperti Nilsson dan Duda terus menjelajahi potensi pembelajaran mesin, fokus pada klasifikasi dan analisis pola. Pada tahun 1980-an, langkah-langkah besar telah dilakukan dalam memanfaatkan strategi pengajaran untuk melatih jaringan saraf buatan, menunjukkan kemajuan dalam tugas-tugas pengenalan karakter.

Definisi formal algoritma pembelajaran mesin oleh Tom M. Mitchell memberikan kejelasan tentang tujuan bidang ini: meningkatkan kinerja tugas berdasarkan pengalaman. Definisi operasional ini, terinspirasi oleh karya Alan Turing, mengalihkan fokus dari konsep kognitif abstrak ke aplikasi praktis.

Saat ini, pembelajaran mesin melayani dua tujuan: klasifikasi data dan analisis prediktif. Baik itu menggunakan visi komputer untuk mengklasifikasikan melanoma atau memprediksi tren pasar saham, algoritma pembelajaran mesin modern memanfaatkan dataset besar untuk membuat keputusan berbasis informasi dan membentuk masa depan.

Dari awal yang sederhana hingga aplikasi terkini yang canggih, perjalanan pembelajaran mesin mencerminkan upaya manusia yang tak kenal lelah dalam memahami dan memanfaatkan kekuatan sistem cerdas.

Hubungan antara Pembelajaran Mesin dan Bidang Lainnya

Pembelajaran mesin (ML) memiliki akar yang dalam dalam bidang kecerdasan buatan (AI). Pada awalnya, para peneliti dalam AI tertarik pada gagasan membuat mesin belajar dari data. Mereka mengadopsi berbagai metode simbolis dan memperkenalkan jaringan syaraf tiruan, seperti perseptron dan ADALINE, yang pada dasarnya adalah model linear umum dalam statistik. Namun, fokus pada pendekatan logis dan berbasis pengetahuan menyebabkan perbedaan antara AI dan ML. Pada tahun 1980-an, AI didominasi oleh sistem pakar, sementara ML mulai berkembang sebagai bidang yang mandiri, bergantung pada metode statistik dan model, seperti logika fuzzy dan teori probabilitas.

Pembelajaran mesin juga memiliki hubungan yang erat dengan penggalian data. Meskipun keduanya menggunakan metode yang serupa, fokusnya berbeda: ML berusaha untuk membuat prediksi berdasarkan data yang telah diketahui, sementara penggalian data bertujuan untuk menemukan informasi yang sebelumnya tidak diketahui dalam data. Meskipun terdapat kerancuan antara keduanya, keduanya saling melengkapi dan sering menggunakan metode yang sama untuk tujuan yang berbeda.

Selain itu, ML juga berhubungan dengan optimasi matematis. Banyak masalah pembelajaran dirumuskan sebagai masalah optimasi, di mana tujuannya adalah untuk meminimalkan fungsi kerugian pada set pelatihan. Ini menyoroti pentingnya generalisasi dalam ML, di mana tujuannya adalah untuk meminimalkan kerugian pada sampel yang tidak terlihat.

Pentingnya statistik dalam ML juga tidak bisa diabaikan. Meskipun memiliki metode yang mirip, statistik dan ML memiliki tujuan yang berbeda: statistik bertujuan untuk mengambil kesimpulan statistik dari sampel, sementara ML bertujuan untuk menemukan pola prediksi yang dapat digeneralisasi dari data. Beberapa ahli statistik bahkan telah mengadopsi metode dari ML, menciptakan bidang gabungan yang disebut sebagai pembelajaran statistik.

Terakhir, ML juga memiliki keterkaitan dengan fisika. Teknik analitis dan komputasi yang berasal dari fisika dapat diterapkan dalam masalah besar, termasuk ML. Sebagai contoh, fisika statistik dapat digunakan dalam analisis medis diagnostik.

Perbedaan dengan penggalian data

Penggalian data (data mining) merupakan suatu proses yang bertujuan untuk menemukan pengetahuan, kepentingan, dan pola baru dalam data dengan cara menghasilkan model deskriptif, dapat dimengerti, dan prediktif dari data dalam skala besar. Dengan kata lain, data mining adalah ekstraksi atau penggalian pengetahuan yang diinginkan dari volume data yang besar.

Dari definisi tersebut, dapat disimpulkan bahwa pemelajaran mesin berfokus pada studi, desain, dan pengembangan algoritma yang memungkinkan komputer untuk belajar secara mandiri tanpa perlu diprogram secara eksplisit. Di sisi lain, dalam penggalian data, proses dimulai dengan data yang tidak terstruktur, yang kemudian diekstraksi untuk mendapatkan pengetahuan atau pola yang belum diketahui sebelumnya. Selama proses penggalian data ini, algoritma dari pemelajaran mesin digunakan.

Berbagai Tipe Algoritma dalam Pembelajaran Mesin

Dalam dunia pembelajaran mesin, terdapat berbagai tipe algoritma yang dapat dikelompokkan berdasarkan karakteristik masukan dan keluaran yang diharapkan. Mari kita telaah beberapa tipe utama dari algoritma-algoritma ini:

  1. Pemelajaran Terarah (Supervised Learning): Algoritma ini bertujuan untuk membuat fungsi yang memetakan masukan ke keluaran yang diinginkan, contohnya dalam pengelompokan atau klasifikasi. Proses ini dilakukan dengan mempelajari contoh-contoh pasangan masukan-keluaran yang sudah diberikan label. Melalui data latih ini, algoritma berusaha untuk memahami pola-pola yang ada dan menghasilkan model yang mampu melakukan prediksi atau klasifikasi dengan akurasi tinggi.

  2. Pemelajaran Tak Terarah (Unsupervised Learning): Berbeda dengan pemelajaran terarah, algoritma tak terarah ini memodelkan himpunan masukan tanpa disertai keluaran yang tepat. Tujuannya adalah untuk menemukan pola-pola menarik dalam data yang tidak berlabel. Salah satu contoh algoritma tak terarah yang umum adalah clustering, di mana objek-objek yang serupa dikelompokkan dalam area tertentu tanpa adanya label.

  3. Pemelajaran Semi Terarah (Semi-Supervised Learning): Algoritma ini menggabungkan unsur dari supervised dan unsupervised learning. Sebagian contoh masukan-keluaran yang tepat diberikan, sementara sebagian lagi tidak memiliki label. Tujuannya adalah untuk memanfaatkan kelebihan dari kedua tipe pemelajaran untuk menciptakan model yang lebih baik.

  4. Reinforcement Learning: Jenis ini mengajarkan sebuah agen cerdas untuk bertindak dalam suatu lingkungan yang dinamis. Agen ini belajar melalui trial and error, dengan memaksimalkan nilai hadiah atau reward yang diperoleh dari tindakannya. Misalnya, sebuah agen dapat belajar menerbangkan helikopter dengan baik melalui pengalaman-pengalaman negatif seperti menabrak atau melenceng dari jalur tujuan.

  5. Pemelajaran Berkembang (Developmental Learning Algorithm): Bidang ini bertujuan untuk memahami mekanisme pengembangan dan batasan-batasan yang memungkinkan pembelajaran seumur hidup pada mesin. Ini melibatkan pengembangan algoritma yang terbuka terhadap pengetahuan dan kemampuan baru seiring waktu.

  6. Transduction: Mirip dengan supervised learning, tetapi tidak secara eksplisit membangun fungsi. Tujuannya adalah untuk memprediksi output baru berdasarkan pada input baru dan data latih yang tersedia.

  7. Learning to Learn: Algoritma ini menggunakan pembelajaran untuk memahami cara belajar sendiri. Ini melibatkan penggunaan algoritma untuk meningkatkan proses pembelajaran di masa mendatang.

Menjelajahi Berbagai Model dalam Pembelajaran Mesin

Dalam ranah machine learning, model pada dasarnya adalah rumus matematika yang, setelah dilatih pada dataset tertentu, dapat digunakan untuk membuat prediksi atau klasifikasi pada data baru. Selama proses pelatihan, algoritme pembelajaran menyempurnakan parameter internal model untuk meminimalkan kesalahan dalam prediksinya.

Terdapat spektrum jenis model, mulai dari kelas model yang luas dan algoritme pembelajaran yang terkait hingga model yang terlatih sepenuhnya dengan parameter internal yang dioptimalkan. Memilih model yang paling sesuai untuk tugas tertentu sering disebut sebagai pemilihan model.

  • Jaringan Syaraf Tiruan (JST):

Jaringan saraf tiruan, atau JST, adalah sistem komputasi yang terinspirasi oleh struktur jaringan saraf biologis yang saling berhubungan yang ditemukan di otak hewan. Sistem ini belajar melakukan tugas dengan menganalisis contoh tanpa diprogram secara eksplisit dengan aturan khusus tugas. ANN terdiri dari simpul yang saling terhubung, atau neuron buatan, yang memproses dan mengirimkan informasi melalui koneksi berbobot. Jaringan ini telah diterapkan pada berbagai tugas seperti visi komputer, pengenalan suara, dan diagnosis medis.

  • Pohon Keputusan:

Pembelajaran pohon keputusan melibatkan penggunaan pohon keputusan sebagai model prediktif untuk membuat kesimpulan tentang nilai target item berdasarkan pengamatan. Pohon keputusan digunakan dalam statistik, penggalian data, dan pembelajaran mesin, di mana cabang-cabang mewakili gabungan fitur yang mengarah ke label kelas atau nilai target tertentu. Pohon ini efektif untuk memvisualisasikan dan secara eksplisit merepresentasikan proses pengambilan keputusan.

  • Mesin Vektor Pendukung (Support-Vector Machines/SVM):

Support-vector machines adalah metode pembelajaran yang diawasi yang digunakan untuk tugas klasifikasi dan regresi. Mereka membangun model yang memprediksi apakah sebuah contoh baru masuk ke dalam salah satu dari dua kategori berdasarkan sekumpulan contoh pelatihan. SVM dapat secara efisien melakukan klasifikasi non-linear menggunakan trik kernel, memetakan input ke dalam ruang fitur berdimensi tinggi.

  • Analisis Regresi:

Analisis regresi memperkirakan hubungan antara variabel input dan fitur terkait. Regresi linier adalah bentuk yang umum, di mana sebuah garis ditarik agar sesuai dengan data. Model lainnya termasuk regresi polinomial, regresi logistik, dan regresi kernel, yang memperkenalkan non-linearitas untuk menangani masalah non-linear.

  • Jaringan Bayesian:

Jaringan Bayesian adalah model grafis probabilistik yang merepresentasikan variabel acak dan independensi bersyaratnya dengan grafik asiklik berarah. Jaringan ini digunakan untuk memodelkan hubungan antar variabel, seperti penyakit dan gejala, dan dapat menghitung probabilitas kejadian tertentu berdasarkan data yang diamati.

  • Proses Gaussian:

Proses Gaussian adalah proses stokastik di mana distribusi variabel acak adalah normal multivariat. Proses ini digunakan untuk tugas-tugas regresi, di mana output dari titik baru dapat dihitung berdasarkan titik-titik yang diamati dan kovariannya.

  • Algoritma Genetika:

Algoritma genetika meniru proses seleksi alam untuk menemukan solusi untuk masalah optimasi. Algoritme ini menggunakan metode seperti mutasi dan crossover untuk menghasilkan solusi baru untuk mencari hasil terbaik.

  • Fungsi Keyakinan:

Fungsi kepercayaan menyediakan kerangka kerja untuk penalaran dengan ketidakpastian dan memiliki hubungan dengan teori probabilitas. Fungsi ini memanfaatkan metode ensemble untuk menangani batasan keputusan, sampel yang sedikit, dan masalah kelas yang ambigu dalam pembelajaran mesin.

Model pelatihan dalam pembelajaran mesin membutuhkan sejumlah besar data yang dapat diandalkan untuk memastikan prediksi yang akurat. Overfitting, atau mendapatkan model dari data yang bias, dapat menyebabkan prediksi yang miring dan hasil yang merugikan. Mengatasi bias algoritmik dan mengintegrasikan etika pembelajaran mesin adalah pertimbangan penting dalam pelatihan model. Pembelajaran terfederasi adalah pendekatan baru yang mendesentralisasikan proses pelatihan, menjaga privasi pengguna, dan meningkatkan efisiensi.

Manfaat dan implementasi

Pemelajaran mesin menjaganya agar tetap sederhana, sebuah algoritme dikembangkan untuk mencatat perubahan dalam data dan berevolusi dalam desain itu untuk mengakomodasi temuan baru. Seperti diterapkan untuk analisis prediktif, fitur ini memiliki dampak luas mulai pada kegiatan yang biasanya dilakukan untuk mengembangkan, menguji, dan memperbaiki algoritme untuk tujuan tertentu. Aplikasi untuk pemelajaran mesin termasuk:

  • Machine perception
  • Computer vision, including object recognition
  • Natural language processing
  • Syntactic pattern recognition
  • Machine learning
  • Medical diagnosis
  • Bioinformatics
  • Brain-machine interfaces
  • Cheminformatics
  • Detecting credit card fraud
  • Stock market analysis
  • Classifying DNA sequences
  • Sequence mining
  • Speech and handwriting recognition
  • Games
  • Software engineering
  • Adaptive websites
  • Robot locomotion
  • Computational advertising
  • Computational finance
  • Structural health monitoring
  • Sentiment analysis (or opinion mining)
  • Affective computing
  • Menerima Informasi
  • Recommender systems

Penerapan Machine Learning di Masa Depan

Meskipun Machine Learning belum dapat secara efektif memprediksi tingkat kejengkelan pengguna, kami tetap yakin bahwa masih banyak yang dapat dilakukan untuk meningkatkan hasil proyek ini. Pertama-tama, kami menyadari bahwa kumpulan data yang kami miliki masih terbatas untuk metode pemelajaran mesin. Oleh karena itu, kami berencana untuk mengumpulkan lebih banyak data guna melihat apakah penambahan data dapat meningkatkan kinerja model kami secara signifikan.

Selain itu, kami juga berencana untuk mengubah jenis permainan yang digunakan dalam proses pengujian. Mengingat permainan yang digunakan saat ini adalah jenis permainan penembak, terdapat banyak aksi "menembak" yang terlibat. Kami berpendapat bahwa permainan balap mungkin akan lebih efektif dalam mendeteksi gangguan dengan menggunakan sensor gaya, karena dalam permainan balap terdapat lebih banyak tombol yang ditekan dibandingkan dengan permainan penembak. Selain itu, permainan balap juga dapat menghadirkan tingkat stres yang lebih terkait dengan situasi nyata daripada permainan penembak.

Dengan mengambil langkah-langkah ini, kami berharap dapat meningkatkan kemampuan model kami dalam memprediksi tingkat kejengkelan pengguna dengan lebih akurat dan efisien di masa depan.


Disadur dari : id.wikipedia.org/en.wikipedia.org/wiki/Machine_learning