Konsultasi
Kabinet Enam Puluh Berkembang
Memilih k-optimal dalam metode knn
-
sebelumnya saya menemukan referensi sebagai berikut.
- metode imputasi kurang sensitif terhadap pilihan k dalam kisaran 10-20.
- pilihan nilai k yang terlalu kecil mungkin dapat mengurangi keakuratan nilai imputasi, namun sebaliknya semakin besar nilai k yang digunakan akan berakibat pada penurunan performa komputasi
- Nilai k yang kecil dapat menghasilkan ragam yang besar pada hasil prediksi, sedangkan nilai k yang besar dapat mengakibatkan bias model yang besar.
saya menggunakan knn regresi dengan k fold cros validation dan hasil yang diperoleh yaitu makin bagus rmse dan rsquare maka makin besar k optimal yang dipilih (kisaran 10-25). variabel yang diimputasi juga merupakan variabel yang memiliki variasi yang beragam (variabel upah). bagaimana pendapatnya, apakah memilih k optimal berdasarkan nasehat dari referensi atau tidak?
Terimakasih.
Anonim SE
-
Sebelumnya kami ucapkan terima kasih karena telah menggunakan Layanan Konsi Teman Ese. Semoga jawaban yang kami berikan memuaskan.
- Menurutku, penentuan k yang optimal ditentukan penuh oleh peneliti yang melakukan penelitian. Referensi yang ada bermanfaat hanya merekomendasikan nilai kisaran k yang cocok untuk kasus-kasus tertentu, sehingga mengurangi waktu dalam proses mencoba-coba (trial and error). Data yang kamu gunakan bisa saja tidak cocok dengan data yang digunakan pada referensi. Tapi masukan dari referensi bisa kamu gunakan sebagai pertimbangan dalam mengurangi resiko seperti komputasi dan ragamnya.
- Kalau saranku, lihat kembali tujuan dari pembuatan modelnya, jika ingin mencari akurasi terbaik, kamu boleh aja meningkatkan k sampai yang optimal. Tapi jika untuk kepentingan generalisir model, atau penerapan model pada data lain (misal tahun atau lokus yang berbeda) perlu dicari k yang bisa beradaptasi baik dengan semua kondisi perbedaan data. Ini saran umum dari Teman Ese ya.
- Jika berkenan, bisa kamu coba informasikan kondisi data kamu seperti apa, misal berapa barisnya, berapa missingnya, lalu berapa persentase train-test nya, jumlah k foldnya dll. Mungkin nanti ada masukan lain dari Teman Ese.
Cukup sekian dulu dari Teman Ese, Terimakasih dan Semangat :)
Admin SE-221
-
barisnya sejumlah 400-450 baris, distribusinya menceng kanan, dan jumlah data dalam 1 fold berisi 5 sample data.
Anonim SE
-
hmmm oke, mohon maaf sebelumnya, itu 1 fold isi 5 sampel data maksudnya gimana ya? bukannya 1 fold itu berisi 1 per jumlah fold baris data. misal pakai k=10 fold, klo ada 450 baris maka akan ada 405 baris data train dan 45 baris data test, dilakukan berulang 10 kali. mohon koreksi dulu jika salah teman ese salah paham.
Admin SE-221
-
oh iya maaf, maksud saya 5 baris data test dan sisanya menjadi data train. Maaf tanya lagi, bagaimana penentuan k dalam k fold cross validation apakah boleh ditentukan penuh oleh peneliti? karena saya menggunakan k=80 an, dan semakin tinggi k maka rmse dan rsquare semakin baik. berdasarkan referensi juga mengatakan begini.
"The choice of k is usually 5 or 10, but there is no formal rule. As k gets larger, the difference in size between the training set and the resampling subsets gets smaller. As this difference decreases, the bias of the technique becomes smaller"
terimakasih.
Anonim SE
-
Owh begitu. Okey, jadi begini, penentuan jumlah k pada k fold cross validation juga akan berdampak pada proporsi antara data train dan test. Semakin besar nilai k fold maka semakin sedikit data test yang terbagi. Seperti di jawaban admin diatas, banyak sampel data test akan sebesar 1/k fold dari keseluruhan data yang ada. Begitu juga sebaliknya jika terlalu kecil nilai k-fold maka memperbesar proporsi data test. Admin menemukan sumber yang menggunakan data bangkitan untuk melihat perbedaan hasil proporsi tersebut, https://hrcak.srce.hr/file/375100.
- Kalau saran dari admin, dengan dataset 450, admin sarankan k-fold nya 4-5. Misal pakai k=5, Jadi nanti akan ada 1/5*450=90 baris data test dan 360 baris data train. ini proporsi yang ideal untuk dataset sebanyak itu. Atau dirasa jumlah 360 masih kurang untuk data train, bisa diperbesar lagi nilai k-foldnya. Kembali bergantung ke insting atau preferensi peneliti.
- Proporsi dari train dan test harus sesui berdasarkan kondisi data, setidaknya cukup informasi untuk membuat model dan cukup untuk menguji hasil model yang sudah ada.
Admin SE-221
-
Baik, terimakasih atas penjelasannya min..
Anonim SE