Destek Vektör Makinesi ve Çekirdek Hilesi
Vektör uzayında bulunan veri setini ayırmak için kullandığımız yöntemlerden biri de Support Vector Machine (SVM) algoritmasıdır. Bu yöntemle, uzayda bulunan veri kümelerini ayıran sınır çizgisini belirlenmek amaçlanır. Linear, polinomial, sigmoid ve rbf gibi türleri vardır. Üstünden kısa kısa geçeceğiz. Örneğimizde ise, 2016 THE (Times Higher Education) Dünya Üniversiteler Sıralaması veri setini kullanacağız. Dosya ekte bulunuyor. Konumuzu bitirmeden terimlere bir göz atalım:
Linear: İki veri kümesi arasında doğrusal bir sınır çizilir.
Polinomial: Birden fazla değişkenli karar sınırı belirlenir.
Sigmoid: Oldukça ünlü olan ‘S’ fonksiyonu çizilir.
RBF: Radyal fonksiyonu ‘çekirdek hilesi’ dediğimiz yöntem ile çizilir. Ne anlama geliyor ?
Veri kümelerimiz her zaman doğrusal yöntemle ayrılmayabilir. Bu algoritmayla kolayca ayırabiliyoruz. Detaylarını merak edenleri ekteki kartlara alalım! Kodlarımıza geçmeden önce verilerimizi bir inceleyelim:
7 kolonumuzla birlikte satırlarımızda 800 tane üniversite var, incelemeden önce bir atıfta bulunmak isterim; umarım ülkemizdeki üniversitelerimizi daha yüksek sıralarda görebiliriz. İlk kolonumuzda her 200 satırda A-B-C-D sınıflandırması ekledim. Bunu tahmin algoritmasında kullanmak için düşündüm; 3–7 arasındaki kolonlardaki verileri öğrenip 4 kademedeki yerini tahmin edecek. Yukarıda tanımladığımız algoritmaların sonuçlarını hep beraber gözlemleyeceğiz.
Linear fonksiyonumuz daha iyi bir sonuç veriyor. Bu iyi bir şey! Yanlış sınıflandırılanları yanlış, doğru sınıflandırılanları ise doğru olarak nitelendirebiliyor.
Son olarak, karmaşıklık matrisi için yazı eklerde bulunuyor.
Detaylı Konu Anlatımı: ML & DM -Northeastern University