Turkish text classification based on wrapper feature selection using particle swarm optimization
Künye
Zorarpacı, E. (2024). Turkish Text Classification Based On Wrapper Feature Selection Using Particle Swarm Optimization. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi, 24(5), 1180-1188. https://doi.org/10.35414/akufemubid.1420120Özet
The vast majority of the digital era data is stored as text. Text
mining is an integral part of data mining. Text classification (TC)
is a natural language processing (NLP) operation often needed
in text mining. This operation is needed in numerous kinds of
research such as information retrieval, document classification,
language detection, sentiment analysis, etc. According to the
literature, the filter feature selection methods have often been
applied to reduce the dimensionality of data in Turkish TC.
However, the wrapper-based feature selection methods can
provide better classification accuracies than the filter methods.
Motivated by this idea, a Turkish TC method based on wrapper
feature selection using particle swarm optimization algorithm
(PSO) and multinomial naive bayes (MNB) classifier is proposed
in this study. TTC-3600 Turkish news texts are used for TC in the
experiments. The proposed method achieves a classification
accuracy of 94.55% on TTC-3600 Turkish news text dataset by
using stemming Tf-Idf features. Hence, it produces competitive
accuracies to the cutting-edge Turkish TC methods. Dijital çağ verilerinin büyük çoğunluğu metin olarak
depolanmaktadır. Metin madenciliği veri madenciliğinin
ayrılmaz bir parçasıdır. Metin sınıflandırma (TC), metin
madenciliğinde sıklıkla ihtiyaç duyulan bir doğal dil işleme (NLP)
işlemidir. Bu işleme bilgi erişimi, belge sınıflandırma, dil tespiti,
duygu analizi vb. birçok araştırmada ihtiyaç duyulmaktadır.
Literatüre göre, Türkçe TC'de veri boyutunun azaltması için filtre
öznitelik seçme yöntemleri sıklıkla uygulanmaktadır. Ancak
sarmalayıcı tabanlı öznitelik seçme yöntemleri, filtre
yöntemlerine kıyasla daha iyi sınıflandırma doğruluğu
sağlayabilir. Bu fikirden hareketle, bu çalışmada parçacık sürüsü
optimizasyon algoritması (PSO) ve çok terimli naive bayes (MNB)
sınıflandırıcısını kullanan sarmalayıcı öznitelik seçim yöntemi
tabanlı bir Türkçe TC metodu önerilmektedir. Deneylerde TC için
TTC-3600 Türkçe haber metinleri kullanılmıştır. Önerilen
yöntem, köklerine ayrılmış (stemming) Tf-Idf özniteliklerini
kullanarak TTC-3600 Türkçe haber metni veri kümesinde
%94,55'lik bir sınıflandırma doğruluğuna ulaşmaktadır. Böylece
en son Türkçe TC yöntemleriyle rekabet edebilen sınıflandırma
doğrulukları üretmektedir.
Kaynak
Fen ve Mühendislik Bilimleri DergisiCilt
24Sayı
5Bağlantı
https://dergipark.org.tr/tr/download/article-file/3661301https://hdl.handle.net/11630/12955
Koleksiyonlar
- Cilt 24 : Sayı 5 [25]



















