Censoring (Penyensoran) dalam Statistik: Pengertian dan Contoh

Dipublikasikan oleh Muhammad Ilham Maulana

18 April 2024, 11.07

Sumber: wikipedia.org

Dalam statistik, censoring adalah kondisi di mana nilai pengukuran atau observasi hanya diketahui sebagian. Misalnya, dalam sebuah studi untuk mengukur dampak suatu obat terhadap tingkat kematian, mungkin diketahui bahwa usia seseorang saat meninggal setidaknya 75 tahun (namun mungkin lebih). Hal ini bisa terjadi jika individu tersebut menarik diri dari studi pada usia 75 tahun, atau jika individu tersebut masih hidup pada usia 75 tahun.

Censoring juga terjadi ketika nilai berada di luar jangkauan alat ukur. Sebagai contoh, sebuah timbangan kamar mandi mungkin hanya dapat mengukur hingga 140 kg. Jika seseorang yang beratnya 160 kg ditimbang menggunakan timbangan tersebut, pengamat hanya akan tahu bahwa berat individu tersebut setidaknya 140 kg.

Masalah data yang disensor, di mana nilai yang diamati dari suatu variabel hanya diketahui sebagian, berkaitan dengan masalah data yang hilang, di mana nilai yang diamati dari suatu variabel tidak diketahui.

Censoring tidak boleh disamakan dengan gagasan terkait, yaitu truncation. Dengan censoring, observasi menghasilkan nilai yang diketahui secara tepat, atau diketahui bahwa nilai tersebut berada dalam suatu interval. Dengan truncation, observasi tidak pernah menghasilkan nilai di luar rentang yang diberikan: nilai di luar rentang tersebut tidak pernah terlihat atau tidak pernah tercatat jika terlihat. Perlu dicatat bahwa dalam statistik, truncation tidak sama dengan pembulatan.

Censoring adalah konsep yang penting dalam analisis statistik karena memungkinkan peneliti untuk memperhitungkan keterbatasan dalam pengumpulan data dan alat ukur.

Jenis Censoring dalam Statistik 

Censoring dapat terjadi dalam beberapa bentuk yang berbeda, memainkan peran penting dalam analisis statistik dan penelitian. Berikut adalah beberapa jenis censoring yang umum:

  1. Left censoring - Sebuah titik data berada di bawah nilai tertentu, tetapi seberapa jauhnya tidak diketahui.
  2. Interval censoring - Sebuah titik data berada di suatu interval antara dua nilai.
  3. Right censoring - Sebuah titik data berada di atas nilai tertentu, tetapi seberapa jauhnya tidak diketahui.

Selain itu, terdapat dua jenis censoring yang lebih spesifik:

  • Type I censoring terjadi ketika sebuah eksperimen memiliki jumlah subjek atau item yang tetap, dan menghentikan eksperimen pada waktu yang ditentukan sebelumnya, di mana subjek yang tersisa akan mengalami right-censoring.
  • Type II censoring terjadi ketika eksperimen berhenti setelah jumlah subjek atau item yang ditentukan sebelumnya mengalami kegagalan; subjek yang tersisa kemudian akan mengalami right-censoring.

Ada juga jenis censoring yang disebut random censoring, di mana waktu censoring setiap subjek bersifat statistik independen dari waktu kegagalan mereka. Penting untuk dicatat bahwa interval censoring dapat terjadi ketika pengamatan nilai memerlukan tindak lanjut atau inspeksi. Left dan right censoring adalah kasus khusus dari interval censoring, dengan awal interval dimulai dari nol atau akhir interval pada tak hingga.

Metode estimasi untuk menggunakan data left-censored bervariasi, dan tidak semua metode estimasi mungkin berlaku atau paling dapat diandalkan untuk semua kumpulan data. Namun, perlu diperhatikan bahwa terdapat kesalahan umum terkait dengan data interval waktu, di mana interval yang dimulai pada waktu awal tidak diketahui sering disalahartikan sebagai left-censored. Dalam kasus ini, data sebenarnya adalah right-censored, meskipun titik awal yang hilang berada di sebelah kiri interval yang diketahui ketika dilihat dalam kronologi waktu.

Penggunaan dan Metode dari Analisis Data Censored

Data censored, di mana observasi terjadi dalam kondisi yang tidak lengkap atau terbatas, memerlukan teknik khusus dalam analisis statistik. Dalam pengujian dengan waktu kegagalan tertentu, data yang mencerminkan kegagalan sebenarnya akan dikodekan, sedangkan data yang disensor akan dikodekan berdasarkan jenis censoring dan interval atau batas yang diketahui. Program perangkat lunak khusus, seringkali berorientasi pada kehandalan, dapat melakukan estimasi maksimum likelihood untuk statistik ringkasan, interval kepercayaan, dan sebagainya.

Epidemiologi

Salah satu upaya awal untuk menganalisis masalah statistik yang melibatkan data censored adalah analisis Daniel Bernoulli pada tahun 1766 tentang morbilitas dan mortalitas cacar untuk menunjukkan efikasi vaksinasi. Sebuah studi awal yang menggunakan estimasi Kaplan–Meier untuk mengestimasi biaya yang disensor dilakukan oleh Quesenberry dkk. (1989), namun pendekatan ini ditemukan tidak valid oleh Lin dkk. kecuali jika semua pasien mengakumulasi biaya dengan fungsi tingkat yang deterministik selama waktu tertentu, mereka mengusulkan teknik estimasi alternatif yang dikenal sebagai estimasi Lin.

Uji Operasional

Uji kehandalan seringkali melibatkan pelaksanaan tes pada suatu item untuk menentukan waktu yang dibutuhkan hingga terjadi kegagalan.

  • Kadang-kadang kegagalan terencana dan diharapkan tetapi tidak terjadi: kesalahan operator, kerusakan peralatan, anomali tes, dan sebagainya. Hasil tes bukanlah waktu kegagalan yang diinginkan tetapi dapat (dan seharusnya) digunakan sebagai waktu penghentian. Penggunaan data censored tidak disengaja tetapi diperlukan.
  • Kadang-kadang insinyur merencanakan program tes sehingga, setelah batas waktu tertentu atau jumlah kegagalan, semua tes lainnya akan dihentikan. Waktu yang ditangguhkan ini dianggap sebagai data yang disensor di sebelah kanan. Penggunaan data censored adalah sengaja.

Analisis Regresi Censored

Sebuah model regresi censored yang lebih awal, model tobit, diusulkan oleh James Tobin pada tahun 1958.

Kemungkinan

Kemungkinan adalah probabilitas atau kepadatan probabilitas dari apa yang diamati, dilihat sebagai fungsi dari parameter dalam model yang diasumsikan. Untuk memasukkan titik data yang disensor dalam kemungkinan, titik data yang disensor direpresentasikan oleh probabilitas titik data yang disensor sebagai fungsi dari parameter model yang diberikan sebuah model, yaitu fungsi dari CDF(s) alih-alih kepadatan atau massa probabilitas.


Disadur dari: en.wikipedia.org