Özellik Seçim Yöntemleri Kullanılarak Sınıflandırma Algoritmalarının Performanslarının Karşılaştırılması
Abstract
Bu çalışmanın amacı, istatistik biliminde büyük önem teşkil eden sınıflandırma yöntemleri için ilgili veri setindeki değişkenlerin farklı özellik seçim yöntemleri ile belirlenmesidir. Özellik seçim yöntemleri k adet değişken seti içerisinden veri yapısına en uygun daha az sayıda değişkenin belirlenmesinde kullanılan ve sağladığı avantajlar bakımından da son yıllarda popülerliği artan istatistiksel yöntemler bütünüdür. Özellik seçim yöntemleri içerisinde kullanılan farklı teknikler, farklı sayıda ve farklı değişkenlerin seçilmesine sebep olabilmektedir. Bu çalışmada ilk olarak farklı tekniklere yardımıyla yapılan özellik seçimi sonucunda elde edilen yeni veri setleri oluşturulmuştur. Daha sonra oluşturulan bu veri setleri farklı makine öğrenme teknikleri ile analiz edilerek ilgili veri seti için yapılan karşılaştırmalar sonucunda en iyi makine öğrenme tekniği belirlenmiştir. Çalışmada kronik böbrek hastalığı veri seti kullanılarak Weka paket programı yardımı ile ilgili analizler gerçekleştirilmiştir. Analiz sonuçlarına göre korelasyon tabanlı özellik seçim yöntemi uygulandığında en iyi doğru sınıflandırma oranı %99.75 ile rassal orman ve çok katmanlı algılayıcı, filtre özellik seçim yöntemi uygulandığında %99.75 ile k-en yakın komşu, tutarlılık özellik seçim yöntemi uygulandığında %98.75 ile rassal orman en yüksek doğru sınıflandırma oranına sahiptir. Tutarlılık özellik seçim yöntemi uygulandığında %89 ile destek vektör makineleri(RTF Kernel ) en düşük doğru sınıflandırma oranını vermiştir. Bu çalışmadan elde edilen bulgular incelendiğinde aynı veri seti kullanılarak yapılan daha önceki çalışmalara nazaran daha yüksek doğru sınıflama oranları elde edilmiştir. Çalışmadan elde edilen diğer bulgu ve sonuçlar ilgili çizelge ve şekillerde sunulmuştur. The purpose of this study is to determine the variables in the relevant data set with different feature selection methods for classification methods, which are of great importance in statistics. Feature selection methods are a set of statistical methods, which are used to determine less number of variables that are most suitable for the data structure among k variable sets and have become popular in recent years in terms of their advantages. Different techniques used in feature selection methods may cause the selection of different numbers and different variables. In this study, firstly, new data sets obtained as a result of feature selection made with the help of different techniques were created. Afterwards, these data sets created were analyzed with different machine learning techniques and the best machine learning technique was determined as a result of the comparisons made for the relevant data set. In this study by using the cronic kidney data set, analyzes were carried out with the help of Weka software. According to the results of the analysis, the best correct classification rate is random forest and multilayer perceptron with 99.75% when the correlation-based feature selection method is applied, the k-nearest neighbor with 99.75% when the filter feature selection method is applied, and the random forest with 98.75% when the consistency feature selection method is applied. It has the correct classification rate. When the consistency feature selection method was applied, support vector machines (RBF Kernel) gave the lowest correct classification rate with 89%.
The results of this study indicate that compared with the earlier studies using the same data set, the accuracy ratios of this study are much greater than the others. The other results obtained from this study are given in related tables and figures.
Collections
- Yüksek Lisans Tezleri [879]