Pemodelan Statistik Dengan Analisis Regresi

Dipublikasikan oleh Dias Perdana Putra

23 Februari 2024, 14.45

Garis regresi untuk 50 titik acak dalam distribusi Gaussian di sekitar garis y=1,5x+2 (tidak ditampilkan) (Wikipedia)

Analisis Regresi

Dalam pemodelan statistik, analisis regresi adalah serangkaian prosedur statistik untuk memperkirakan hubungan antara variabel terikat (disebut variabel "hasil" atau "respons" atau "label" dalam istilah pembelajaran mesin) dan satu atau lebih variabel bebas. Variabel (juga disebut "prediktor", "kovariat", "variabel penjelas", atau "skema"). Regresi linier, bentuk analisis regresi yang paling umum, melibatkan pencarian garis atau kumpulan garis yang paling sesuai dengan data berdasarkan beberapa kriteria matematika. Misalnya, kuadrat terkecil mewakili garis atau bidang elevasi yang meminimalkan jumlah selisih kuadrat antara data aktual dan garis.

Ada dua tujuan teoretis utama dari analisis invers. Pertama, digunakan untuk prediksi dan perkiraan, sering kali beralih ke bidang pembelajaran mesin. Kedua, dalam beberapa situasi, analisis regresi dapat digunakan untuk menentukan hubungan antara variabel independen dan dependen. Penting untuk diperhatikan bahwa regresi hanya menunjukkan hubungan antara variabel terikat dan bebas dalam suatu kumpulan data. Untuk menggunakan analisis regresi dalam memprediksi atau menentukan hubungan sebab akibat, peneliti harus terlebih dahulu memahami apa hubungan tersebut dalam konteks baru, atau apa hubungan antara dua variabel, penjelasan sebab akibat. Hal ini sangat penting ketika peneliti mencoba menyimpulkan hubungan sebab-akibat dengan menggunakan data observasi.

Sejarah 

Dalam pemodelan statistik, analisis regresi melibatkan serangkaian proses statistik untuk memperkirakan hubungan antara variabel terikat (sering disebut sebagai variabel 'hasil' atau 'respons', atau 'label' dalam bahasa pembelajaran mesin) dan satu atau lebih variabel bebas (sering disebut sebagai 'prediktor', 'kovariat', 'variabel penjelas', atau 'fitur'). Regresi linier, bentuk analisis regresi yang paling umum, melibatkan pencarian garis atau kombinasi linier yang paling sesuai dengan data berdasarkan kriteria matematika tertentu. Metode kuadrat terkecil biasa, misalnya, menghitung garis atau bidang hiper yang meminimalkan jumlah selisih kuadrat antara data sebenarnya dan garis tersebut.Bentuk awal analisis regresi ditemukan dalam metode kuadrat terkecil, yang diperkenalkan oleh Legendre pada tahun 1805 dan kemudian diterapkan oleh Gauss pada tahun 1809. Mereka menggunakan metode ini untuk menentukan orbit benda-benda astronomi seperti komet dan planet-planet kecil. Gauss kemudian mengembangkan teori kuadrat terkecil lebih lanjut pada tahun 1821, termasuk versi teorema Gauss-Markov.

Istilah "regresi" pertama kali digunakan oleh Francis Galton pada abad ke-19 untuk menjelaskan fenomena biologis di mana keturunan tinggi cenderung mengalami kemunduran menuju rata-rata normal, yang disebut sebagai regresi terhadap rata-rata. Galton memberi arti biologis pada regresi, tetapi definisi ini diperluas ke konteks statistik yang lebih luas oleh Udny Yule dan Karl Pearson. Yule dan Pearson mengasumsikan distribusi Gaussian untuk variabel respon dan penjelas, asumsi ini kemudian dilemahkan oleh RA Fisher pada tahun 1922 dan 1925. Fisher mengusulkan bahwa distribusi kondisional dari variabel respon adalah Gaussian, namun distribusi korelasi tidak harus seperti itu.

Pada tahun 1950-an dan 1960-an, para ekonom menggunakan kalkulator elektronik untuk menghitung penyusutan, seringkali membutuhkan waktu 24 jam untuk mendapatkan hasilnya. Metode deduktif adalah bidang penelitian yang aktif, dan dekade terakhir telah menyaksikan perkembangan baru, termasuk regresi yang kuat, regresi berdasarkan data yang berkorelasi seperti deret waktu, regresi yang melibatkan proyeksi atau respons kurva, elemen data yang kompleks, dan regresi. Ada berbagai jenis data yang hilang, regresi nonparametrik, metode regresi Bayesian, regresi dengan kesalahan pengukuran pada prediktor, regresi dengan estimasi observasi yang berlebihan, dan estimasi white matter.

Model Regresi

Dalam praktiknya, peneliti memilih model yang ingin mereka estimasi dan menggunakan metode khusus, seperti kuadrat terkecil, untuk memperkirakan parameter model. Ada beberapa komponen kunci dalam model regresi termasuk:

1. Parameter tidak diketahui

ditetapkan sebagai skala atau vektor β.

2. Variabel variabel

Variabel yang ditemukan dalam data, sering kali diwakili oleh vektor 𝑋ᡒ. Di sini 𝑖 mewakili urutan data.

3. Skala konservasi

Hal ini juga terlihat pada data dan dinyatakan sebagai skala π‘Œα΅’.

4. Istilah Kesalahan 

Juga dikenal sebagai 𝑒ᡒ, istilah kesalahan yang tidak secara langsung tercermin dalam data, sering kali dinyatakan dalam skala.Istilah lain digunakan untuk mewakili keyakinan dalam berbagai aplikasi. dan variabel independen.Pada sebagian besar model regresi, π‘Œα΅’ adalah fungsi dari 𝑋ᡒ dan β (fungsi regresi), dan 𝑒ᡒ mungkin mewakili istilah kesalahan tambahan yang mencerminkan perkiraan π‘Œα΅’ tanpa sampel atau gangguan statistik acak.

Diagnostik

Setelah model regresi dibuat, penting untuk memeriksa kesesuaian model dan signifikansi statistik dari parameter yang diestimasi. Uji kesesuaian yang umum digunakan meliputi R-squared, analisis model residu, dan pengujian hipotesis. Signifikansi statistik dapat ditentukan menggunakan uji F untuk goodness of fit dan uji t untuk parameter individual.Interpretasi uji probabilitas ini sangat bergantung pada sampel. Meskipun Anda dapat menggunakan uji residu untuk mengesampingkan suatu model, hasil uji t atau F lebih sulit diinterpretasikan jika asumsi model dilanggar. Misalnya, jika istilah kesalahan tidak terdistribusi secara normal, parameter yang diestimasi mungkin tidak terdistribusi secara normal di seluruh subsampel, sehingga membuat inferensi menjadi sulit. Namun, untuk sampel yang sangat besar, kita dapat melanjutkan ke pengujian hipotesis menggunakan pendekatan asimtotik menggunakan batasan utama.

Variabel Terikat Bebas

Variabel terikat terbatas , yaitu variabel respon yang merupakan variabel kategori atau variabel yang dibatasi untuk berada pada kisaran tertentu saja, sering kali muncul dalam ekonometrika .

Variabel respons mungkin tidak kontinu ("terbatas" terletak pada beberapa subset dari garis nyata). Untuk variabel biner (nol atau satu), jika analisis dilakukan dengan regresi linier kuadrat terkecil, modelnya disebut model probabilitas linier . Model nonlinier untuk variabel terikat biner meliputi model probit dan logit . Model probit multivariat adalah metode standar untuk memperkirakan hubungan gabungan antara beberapa variabel dependen biner dan beberapa variabel independen. Untuk variabel kategori dengan nilai lebih dari dua terdapat logit multinomial . Untuk variabel ordinal yang nilainya lebih dari dua, terdapat model logit ordinal dan model probit ordinal. Anda dapat menggunakan model regresi tertentu jika variabel dependen Anda acak, atau model koreksi Heckman jika sampel tidak diambil dari populasi yang diminati. Pendekatan lain terhadap metode ini adalah regresi linier, yang didasarkan pada korelasi polinomial (atau korelasi poliserial) antar variabel kategori. Metode-metode ini berbeda dalam asumsi mengenai distribusi variabel dalam populasi. Jika variabelnya positif dengan nilai kecil dan menunjukkan pengulangan peristiwa, Anda dapat menggunakan model statistik seperti regresi Poisson atau model binomial negatif.

Regresi Non-Linear

Jika parameter fungsi model tidak linier, maka jumlah kuadrat harus diminimalkan menggunakan metode iteratif. Hal ini menimbulkan sejumlah masalah yang dirangkum dalam Perbedaan antara kuadrat terkecil dan nonlinier.

Prediksi Interpolasi dan Ektrapolasi

Model regresi memprediksi nilai variabel Y, dengan mengetahui nilai variabel X yang diketahui. Prediksi rentang nilai dalam suatu kumpulan data digunakan dalam interpolasi. Contohnya secara informal disebut interpolasi. Prediksi di luar rentang data ini disebut ekstrapolasi. Pengurangan ini sangat bergantung pada asumsi terbalik. Jika estimasi melampaui data, kemungkinan kegagalan model karena perbedaan asumsi dan data sampel atau nilai aktual akan meningkat.

Area prediksi mewakili ketidakpastian dalam prediksi merek. Ketika nilai variabel independen berada di luar rentang yang terdapat dalam data observasi, rentang tersebut melebar dengan cepat.Karena alasan ini dan alasan lainnya, beberapa orang berpendapat bahwa ekstrapolasi tidak benar. Namun, hal ini tidak mencakup semua kemungkinan kesalahan pemodelan. Khususnya, jika hubungan diasumsikan antara Y dan , hal ini hanya mungkin terjadi dalam rentang nilai. Ini adalah jumlah variabel independen yang tersedia. Dengan kata lain, semua metode aditif sangat bergantung pada asumsi tentang sifat struktural dari hubungan regresi.

Jika pengetahuan ini mencakup fakta bahwa variabel terikat tidak boleh berada di luar rentang nilai tertentu, pengetahuan ini dapat digunakan untuk pemilihan sampel meskipun kumpulan data tidak memiliki nilai yang mendekati rentang tersebut. Implikasi dari langkah pemilihan bentuk pekerjaan yang tepat untuk pengurangan ini dapat menjadi signifikan ketika mempertimbangkan saling melengkapi. Paling tidak, ini memastikan bahwa keluaran dari model masukan adalah "benar" (atau serupa dengan yang diketahui).

Disadur dari : https://en.wikipedia.org/wiki/Regression_analysis