Abstract
Big data adalah suatu terminologi yang secara luas menggambarkan teknologi dengan volume data yang besar, tipe data yang bervariasi serta mempunyai proses belajar yang cukup cepat dalam mengekstrak pengetahuan (knowledge). Suatu himpunan data besar menjadi sangat berharga atau mempunyai nilai (value) karena memiliki banyak informasi dan pengetahuan penting untuk mendukung bisnis di dunia. Salah satu analisa data yang penting dalam big data adalah analisa regresi. Tujuan utama di regresi analisis adalah mencari suatu fungsi yang sesuai dan memiliki kesalahan prediksi yang seminimal mungkin dalam merelasikan hubungan antara suatu variabel respon dan variabel-variabel regressor-nya. Terdapat beberapa metode yang terkenal di regresi analisis seperti linier regresi berganda, linier regresi ridge, regresi berbasis jaringan syaraf tiruan, support vector regression, kernel principal component regression, kernel ridge regression serta extreme learning machine. Namun demikian, metode-metode regresi tersebut mempunyai beberapa kelemahan dalam aplikasi riilnya. Sebagai contoh: linier regresi berganda dan linier regresi ridge tidak sesuai untuk memprediksi data yang mempunyai perilaku non-linier, regresi berbasis jaringan syaraf tiruan mempunyai isu di keoptimalan di model prediksi-nya dan waktu proses pembelajaran, support vector regression mempunyai kelemahan di proses pembelajaran untuk data yang bervolume besar, kernel principal component regression harus memilih berapa banyak jumlah komponen dari kernel principal component analysis yang terlibat dalam pemodelan regresi-nya, kernel ridge regression harus menentukan parameter ridge yang sesuai, sementara extreme learning machine mempunyai kelemahan di kestabilan model prediksi yang diperoleh.
Keywords
Kernel, non-linier, regresi, principal component, ridge