Buku TA : K-Nearest Neighbor (KNN)

13 02 2010

K-Nearest Neighbor (KNN) adalah suatu metode yang menggunakan algoritma supervised dimana hasil dari query instance yang baru diklasifikan berdasarkan mayoritas dari kategori pada KNN. Tujuan dari algoritma ini adalah mengklasifikasikan obyek baru bedasarkan atribut dan training sample. Classifier tidak menggunakan model apapun untuk dicocokkan dan hanya berdasarkan pada memori. Diberikan titik query, akan ditemukan sejumlah k obyek atau (titik training) yang paling dekat dengan titik query. Klasifikasi menggunakan voting terbanyak diantara klasifikasi dari k obyek.. algoritma KNN menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari query instance yang baru.

Algoritma metode KNN sangatlah sederhana, bekerja berdasarkan jarak terpendek dari query instance ke training sample untuk menentukan KNN-nya. Training sample diproyeksikan ke ruang berdimensi banyak, dimana masing-masing dimensi merepresentasikan fitur dari data. Ruang ini dibagi menjadi bagian-bagian berdasarkan klasifikasi training sample. Sebuah titik pada ruang ini ditandai kelac c jika kelas c merupakan klasifikasi yang paling banyak ditemui pada k buah tetangga terdekat dari titik tersebut. Dekat atau jauhnya tetangga biasanya dihitung berdasarkan Euclidean Distance yang direpresentasikan sebagai berikut :

dimana matriks D(a,b) adalah jarak skalar dari kedua vektor a dan b dari matriks dengan ukuran d dimensi.

Pada fase training, algoritma ini hanya melakukan penyimpanan vektor-vektor fitur dan klasifikasi data training sample. Pada fase klasifikasi, fitur-fitur yang sama dihitung untuk testing data (yang klasifikasinya tidak diketahui). Jarak dari vektor baru yang ini terhadap seluruh vektor training sample dihitung dan sejumlah k buah yang paling dekat diambil. Titik yang baru klasifikasinya diprediksikan termasuk pada klasifikasi terbanyak dari titik-titik tersebut.

Sebagai contoh, untuk mengestimasi p(x) dari n training sample dapat memusatkan pada sebuah sel disekitar x dan membiarkannya tumbuh hingga meliputi k samples. Samples tersebut adalah KNN dari x. Jika densitasnya tinggi di dekat x, maka sel akan berukuran relatif kecil yang berarti memiliki resolusi yang baik. Jika densitas rendah, sel akan tumbuh lebih besar, tetapi akan berhenti setelah memasuki wilayah yang memiliki densitas tinggi. Pada Gambar 2.13 dan Gambar 2.14 ditampilkan estimasi densitas satu dimensi dan dua dimensi dengan KNN [11].

Nilai k yang terbaik untuk algoritma ini tergantung pada data. Secara umum, nilai k yang tinggi akan mengurangi efek noise pada klasifikasi, tetapi membuat batasan antara setiap klasifikasi menjadi semakin kabur. Nilai k yang bagus dapat dipilih dengan optimasi parameter, misalnya dengan menggunakan cross-validation. Kasus khusus dimana klasifikasi diprediksikan berdasarkan training data yang paling dekat (dengan kata lain, k = 1) disebut algoritma nearest neighbor.

Ketepatan algoritma KNN sangat dipengaruhi oleh ada atau tidaknya fitur-fitur yang tidak relevan atau jika bobot fitur tersebut tidak setara dengan relevansinya terhadap klasifikasi. Riset terhadap algoritma ini sebagian besar membahas bagaimana memilih dan memberi bobot terhadap fitur agar performa klasifikasi menjadi lebih baik.

KNN memiliki beberapa kelebihan yaitu ketangguhan terhadap training data yang memiliki banyak noise dan efektif apabila training data-nya besar. Sedangkan, kelemahan KNN adalah KNN perlu menentukan nilai dari parameter k (jumlah dari tetangga terdekat), training berdasarkan jarak tidak jelas mengenai jenis jarak apa yang harus digunakan dan atribut mana yang harus digunakan untuk mendapatkan hasil terbaik, dan biaya komputasi cukup tinggi karena diperlukan perhitungan jarak dari tiap query instance pada keseluruhan training sample.

Posted By : Evan Yofiyanto @ Evan’s Blog : Kuliah Informatika (kuliahinformatika.wordpress.com)

[FREAX]

Actions

Information

Date : February 13, 2010
Categories : Tugas Akhir

19 responses

1 07 2010: Yogie (11:34:57) :

Bro, aku ijin ngutip tulisannya bwt bahan Skripsiku yah..
Trims sbelumnya 🙂

Reply
27 09 2010: okaDP (23:25:20) :

ijin salin jg bro..

Reply
20 10 2010: fakhrul (03:48:34) :

Idem kaya bung yosie bro, saya juga ngutip tulisan buat bahan TA.
Thx 😀

Reply
19 01 2011: gerry (00:16:53) :

bro w minta refrensi bukunya donk bli dmna??

sangat – sangat membutuhkan nie

Thx

Reply
19 01 2011: gerry (00:19:45) :

w tanya donk??w ada rumus d2(x,y)={(x-y)pangkat T(I+Dwwpangkat T)(x-y)}pangkat 1/2
maaf katro ditulis kyk gini rumusnya, nie rumus w dapat pada contoh k-nn kredit scoring

w ngk tau x itu apa, y itu apa?mgkn dari grafik ya? trus T,I, ama Dww itu apa??

w mohon banget bantuannya??

Reply
19 01 2011: gerry (04:34:54) :

w mo tanya donk??

ad artikel credit scoring memakai metode knn, nah disitu ad rumus :
d(x,y)={(x-y)pangkat T(I+Dwwpangkat T)(x-y)}pangkat 1/2

maaf katro w nulis rumusnya,,,

w ngk ngerti nama2 variabel ini I untuk apa Dww untuk apa??
mohon penjelasannya???

terima kasih atas bantuannya

Reply
28 01 2011: r1024 (07:53:29) :

thx tutorialnya 🙂

Reply
6 03 2011: radika666 (06:08:43) :

permisi bos, saya minta ijin ngutip tulisannya ya??makasi

Reply
13 04 2011: mirza-13 (02:17:19) :

thanks ya atas info na…

Reply
4 08 2011: azura (18:04:05) :

saya mahasiswa tingkat akhir lagi kebingungan neih pak,,,mau minta tolong masukkannya kira2 algoritma apa ya yang cocok untuk membandingkan sesuatu,,judul saya berkaitan dengan menganalisis perbandingan kesehatan dan kecerdasan bayi/balita

Reply
11 09 2011: ismi (21:54:28) :

boleh minta referensi yang lebih lengkap lagi tentang KNN gk?
kalo bisa sama studi kasusnya

Reply
9 11 2011: henry (10:02:00) :

ijin salin bro…..

Reply
12 01 2012: muklis (21:51:48) :

ijin salin mas

Reply
21 11 2012: aditya (06:50:10) :

maz saya lagi cari buku ttg metode knn kl beli di mn?… kl sampean pnya saya beli ya… tlg dgn sabgat….

Reply
28 03 2013: Hotlin Derbero (03:05:13) :

ijin copas yaa. .

Reply
17 02 2014: Putria Febriana (05:32:25) :

mas, numpang nanya, kalo knn sebagai cluster itu untuk fase trainingnya seperti apa ya, langkah2nya…

Reply
5 05 2014: oemar4share (03:06:44) :

Reblogged this on Catatan Keyboard.

Reply
4 02 2015: ollein (10:15:50) :

thanks.. ijin kutip buat TA ya…

Reply
17 03 2015: top (20:13:05) :

ijin copas mas ….

Reply

	Stack-Struktur Data… on Stack & Queue : Penjelasan…
	ekoprastiyo on Fungsi & Array : Macam-Mac…
	top on Buku TA : K-Nearest Neighbor…
	ollein on Buku TA : K-Nearest Neighbor…
	raka on Fungsi & Array : Program u…

Evan's Blog : Kuliah Informatika