Determination of the classification success of KNN Algorithm distance metric methods on wheat seeds dataset

Yükleniyor...
Küçük Resim

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Afyon Kocatepe Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Machine learning algorithms are widely used in product sorting processes in the food industry. The attributes of the products are used in the classification process. Attributes vary for each product. In this study, using the k nearest neighbor (KNN) algorithm, the classification of the wheat groups of Kama, Rosa and Canada was performed. The Seeds dataset provided in UCI (University of California, Irvine) machine learning open source data storage was used. There are 70 examples of each wheat class in the data set. In addition, the classification estimation success of distance metrics and the number of training data was measured. Each of the wheat samples was randomly selected and a soft X-ray technique was used to visualize the inner core structure of the wheat in the experimental environment with high quality. According to the training rates ranging from 50% to 90% of the data set, the classification success of the KNN algorithm was tested. In the KNN algorithm, the neighborhood values 1, 3 and 5 were selected to affect the classification success. The successes of the Euclidean, Chebyshev, Manhattan and Mahalanobis distance metric methods of the KNN algorithm were tested according to each k neighborhood value. According to the results obtained, with the Mahalanobis metric method, a classification success rate of 0.9924 accuracy was obtained according to the AUC (Area Under the Curve) success metric by using the neighborhood value of k = 3. In the literature, there is no study comparing the KNN algorithm, neighborhood values and distance vectors together on food data sets using varying training and test data. Therefore, it is thought that the study will make an important contribution to the literature.

Makine öğrenmesi algoritmaları, gıda sektöründe ürün sınıflandırma işlemlerinde yaygın olarak kullanılmaktadır. Sınıflandırma işleminde ürünlerin öznitelikleri kullanılmaktadır. Öznitelikler her ürüne göre değişiklik göstermektedir. Bu çalışmada, k en yakın komşu (KNN) algoritması kullanılarak, Kama, Rosa ve Kanada buğday gruplarının sınıflandırması gerçekleştirilmiştir. UCI (University of California, Irvine) makine öğrenme açık kaynak veri depolama alanında temin edilen Seeds veri seti kullanılmıştır. Veri setinde her buğday sınıfına ait 70 örnek mevcuttur. Ayrıca uzaklık metriklerinin ve eğitim veri sayısının sınıflandırma tahmin başarısı ölçülmüştür. Her bir buğday örneği rastgele seçilerek, deney ortamında buğdayların iç çekirdek yapısının yüksek kalitede görselleştirilmesi için yumuşak bir X-ışını tekniği kullanılmıştır. Veri setinin %50 ile %90 arasında değişen eğitim oranlarına göre KNN algoritmasının sınıflandırma başarısı test edilmiştir. KNN algoritmasında sınıflandırma başarısını etkilen k komşuluk değeri 1, 3 ve 5 seçilmiştir. Her k komşuluk değerine göre KNN algoritmasının Euclidean, Chebyshev, Manhattan ve Mahalanobis uzaklık metrik yöntemlerinin başarıları test edilmiştir. Elde edilen sonuçlara göre Mahalanobis metrik yöntemiyle, k=3 komşuluk değeri kullanılarak, AUC(Area Under the Curve: Eğri Altındaki Alan) başarı metriğine göre, 0.992 doğrulukta sınıflandırma başarısı elde edilmiştir. Literatürde, değişen eğitim ve test verileri kullanılarak gıda veri setleri üzerinde, KNN algoritmasının, komşuluk değerlerinin ve uzaklık vektörlerinin birlikte kıyaslandığı bir çalışmaya rastlanmamıştır. Bundan dolayı yapılan çalışmanın, literatüre önemli katkı sağlayacağı düşünülmektedir

Açıklama

Anahtar Kelimeler

Machine Learning, Classification, Seeds Dataset, KNN Algorithm, Distance Metric Methods, Random Sampling, Makine Öğrenmesi, Sınıflandırma, Seeds Veri Seti, KNN Algoritması, Uzaklık Metrik Yöntemleri, Rastgele Örnekleme

Kaynak

Fen ve Mühendislik Bilimleri Dergisi

WoS Q Değeri

Scopus Q Değeri

Cilt

23

Sayı

5

Künye

Çelik, A. (2023). Determination of the Classification Success of KNN Algorithm Distance Metric Methods on Wheat Seeds Dataset. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi, 23(5), 1142-1149. https://doi.org/10.35414/akufemubid.1263900

Onay

İnceleme

Ekleyen

Referans Veren