BERTurk-Based Sentiment Analysis on E-Commerce Multi Domain Product Reviews
Citation
Teke, B., Yazıcı, S. N., Zamir, G., Budak, A. B., vd. (2025). BERTurk-Based Sentiment Analysis on E-Commerce Multi Domain Product Reviews. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi, 25(3), 497-509. https://doi.org/10.35414/akufemubid.1537513Abstract
Product reviews on e-commerce platforms constitute an
important source of information for customers’ shopping
processes. Learning about various product features and
evaluating user experiences makes shopping more reliable and
provides sellers with valuable customer satisfaction feedback. In
order for sellers to make strategic decisions about their
products, customer satisfaction and product feedback should be
analyzed in detail. For this purpose, sentiment analysis methods
were applied to the data to analyze the sentiment of the
comments. In this study, sentiment analysis was performed
using comments from the Trendyol e-commerce site. Our
dataset consists of a total of 73392 data, retrieved from six
different categories: Computer, Phone, Shoes, Clothing,
Cosmetics, Sports and Outdoor through Selenium. The
generated dataset is published in the Kaggle public database.
Since the distribution of positive, negative and neutral labeled
classes is unbalanced in the obtained data, a second dataset was
created by applying a cluster-based undersampling method.
After the preprocessing stage, these datasets were divided into
80% training data and 20% test data. As a result of the
experiments, among the traditional machine learning models,
Support Vector Machines (SVM) gave the highest accuracy rate
with 89% (original) and 84% (undersampled) in both datasets,
while the BERTurk model, one of the transformer-based models,
was determined as the most successful model with an accuracy
rate of 96% (original) and 93% (undersampled) compared to all
methods. E-ticaret platformlarındaki ürün yorumları, müşterilerin alışveriş
süreçlerinde önemli bir bilgi kaynağı oluşturmaktadır. Ürünlerin
çeşitli özellikleri hakkında bilgi edinmek ve kullanıcı
deneyimlerini değerlendirmek, alışverişi daha güvenilir hale
getirirken satıcılara da müşteri memnuniyeti konusunda değerli
geri bildirimler sağlar. Satıcıların ürünleriyle ilgili stratejik
kararlar alabilmesi için müşteri memnuniyeti ve ürünle ilgili geri
bildirimlerin ayrıntılı bir şekilde analiz edilmesi gerekmektedir.
Bu amaçla, yorumların duygu durumunu analiz etmek için veriler
üzerinde duygu analizi yöntemleri uygulanmaktadır.
Çalışmamızda, Trendyol e-ticaret sitesinin yorumları kullanılarak
duygu analizi yapılmıştır. Veri setimiz, Selenium aracılığıyla
Bilgisayar, Telefon, Ayakkabı, Giyim, Kozmetik, Spor ve Açık Hava
olmak üzere altı farklı kategoriden veri çekilerek toplamda
73392 veriden oluşmaktadır. Oluşturulan veriseti Kaggle açık
veritabanında yayınlanmıştır. Elde edilen verilerde pozitif,
negatif ve nört etiketli sınıf dağılımları dengesiz olduğu için küme
tabanlı örnek azaltma yöntemi uygulanarak ikinci bir veriseti
oluşturulmuştur. Önişleme aşamasından sonra bu verisetlerinin
%20'si test ve %80'i ise eğitim verisi olarak ayrılmıştır. Deneyler
sonucunda geleneksel makine öğrenmesi modellerinden Destek
Vektör Makineleri (DVM) her iki veri kümesinde de %89 (orijinal)
ve %84 (undersampled) ile en yüksek doğruluk oranını verirken,
transformatör tabanlı modellerden BERTurk modeli %96
(orijinal) ve %93 (undersampled) doğruluk oranı ile tüm
yöntemlere göre en başarılı model olarak belirlenmiştir.
Volume
25Issue
3Collections
- Cilt 25 : Sayı 3 [25]



















