Failure prediction using ensemble learning: a comparative study with synthetic and real-world datasets
Künye
Çiftpınar, A. B., Kanar, P., & Erzurum Cıcek, Z. I. (2025). Failure Prediction Using Ensemble Learning: A Comparative Study with Synthetic and Real-World Datasets. Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi, 25(4), 785-797. https://doi.org/10.35414/akufemubid.1571811Özet
The ability to predict and prevent machine failures is a crucial
task for businesses on a global scale at a time of increasing
dependence on automation and technology. This paper
primarily addressed a novel failure prediction model approach
based on ensemble learning. Commonly used machine learning
models including Decision Trees, K-Nearest Neighborhood,
Support Vector Machines, and Logistic Regression and two
different ensemble learning strategies were used: bagging and
majority voting. The SZVAV real-life failure dataset provided by
Lawrence Berkeley National Laboratory and the AI4I2020
Predictive Maintenance synthetic dataset were utilized to
evaluate the performance of the proposed ensemble models.
The preprocessing stage included the application of
oversampling since there is an imbalance problem in both
datasets. In this context, a comparison of three oversampling
techniques was also presented for the datasets considered in
the study. As a result of the tests, it was seen that the proposed
models are superior to individual machine learning methods and
Random Forest, which is an ensemble model itself, for the
considered datasets. In addition, the proposed ensemble
models were compared with the original failure prediction
models previously presented in the literature on the AI4I2020
dataset, and it was reported that more successful results are
obtained with the proposed approach. Makine arızalarını tahmin etme ve önleme yeteneği, otomasyon
ve teknolojiye olan bağımlılığın arttığı bir zamanda küresel
ölçekte işletmeler için kritik bir görevdir. Bu çalışma öncelikle
topluluk öğrenmeye dayalı özgün bir arıza tahmin modeli
yaklaşımını ele almaktadır. Karar Ağaçları, K-En Yakın Komşuluk,
Destek Vektör Makineleri ve Lojistik Regresyon dahil olmak
üzere yaygın olarak kullanılan makine öğrenmesi modelleri ve iki
farklı topluluk öğrenme stratejisi kullanılmıştır: torbalama ve
çoğunluk oylaması. Lawrence Berkeley Ulusal Laboratuvarı
tarafından sağlanan SZVAV gerçek yaşam arıza veri seti ve
AI4I2020 Tahmini Bakım sentetik veri seti, önerilen topluluk
modellerinin performansını değerlendirmek için kullanılmıştır.
Her iki veri setinde de bir dengesizlik sorunu olduğu için ön
işleme aşaması aşırı örnekleme uygulamasını içermektedir. Bu
bağlamda, çalışmada ele alınan veri setleri için üç aşırı
örnekleme tekniğinin bir karşılaştırması da sunulmuştur. Testler
sonucunda, ele alınan veri setleri için önerilen modellerin
bireysel makine öğrenmesi yöntemlerinden ve kendisi bir
topluluk modeli olan Rastgele Orman'dan üstün olduğu
görülmüştür. Ayrıca önerilen topluluk modelleri, AI4I2020 veri
seti üzerinden literatürde daha önce sunulan orijinal hasar
tahmin modelleri ile karşılaştırılmış ve önerilen yaklaşımla daha
başarılı sonuçlar elde edildiği raporlanmıştır.
Kaynak
Fen ve Mühendislik Bilimleri DergisiCilt
25Sayı
4Bağlantı
https://dergipark.org.tr/tr/download/article-file/4307488https://hdl.handle.net/11630/13088
Koleksiyonlar
- Cilt 25 : Sayı 4 [25]



















