Comparison of hierarchic clustering methods with cophenetic correlation coefficient in big data

Yükleniyor...
Küçük Resim

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Afyon Kocatepe Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

The aim of this study is to compare hierarchical clustering methods by Cophenetic Correlation Coefficient (CCC) when there is a big data. For this purpose, after giving information about big data, clustering methods and CCC, analyzes are carried out for the related data set. The 2015 air travel consumer report, which was used in the application part of the study and published by the US Ministry of Transport, was used as big data. Libraries of the Python programming language installed on the Amazon cloud server, which includes open-source big data technologies, were used for data analysis. Since there is big data in the study, in order to save time and economy, the variables used in the study were first reduced by feature selection method, standardized and analyzed over the final 4 different data sets. As a result of the clustering analysis, it was observed that the highest CCC was obtained with the Average clustering method for all of these four different data sets.

Bu çalışmanın amacı büyük veri söz konusu olduğunda hiyerarşik kümeleme yöntemlerini Kofenetik korelasyon katsayı ise karşılaştırmaktır. Bu amaçla büyük veri, kümeleme yöntemleri ve Kofenetik korelasyon katsayısı hakkında bilgiler verildikten sonra ele alınan veri seti için analizler gerçekleştirilmiştir. Çalışmanın uygulama kısmında kullanılan ve büyük veri olarak ABD ulaştırma bakanlığı tarafından yayınlanan 2015 yılı hava seyahat tüketici raporu kullanılmıştır. Veri analizi için açık kaynaklı büyük veri teknolojilerini içeren Amazon bulut sunucusuna kurulan Python programlama diline ait kütüphanelerden yararlanılmıştır. Çalışmada büyük veri söz konusu olduğundan, zamandan ve maliyetten tasarruf amacıyla çalışmada kullanılan değişkenler ilk olarak özellik seçimi yöntemi ile indirgenmiş, standardize edilmiş ve nihai 4 farklı veri seti üzerinden çözümlemeye gidilmiştir. Kümeleme analiz sonucunda bu dört farklı veri setinin tamamı için en yüksek Kofenetik korelasyon katsayısının ortalama bağlantı kümeleme yöntemi ile elde edildiği gözlemlenmiştir.

Açıklama

Anahtar Kelimeler

Cophenetic Correlation Coefficient, Big Data, Cluster Analysis, Data Mining, Kofenetik Korelasyon Katsayısı, Büyük Veri, Kümeleme Analizi, Veri Madenciliği

Kaynak

Fen ve Mühendislik Bilimleri Dergisi

WoS Q Değeri

Scopus Q Değeri

Cilt

22

Sayı

3

Künye

Saraçlı, S. & Akşit, M. (2022). Comparison of Hierarchic Clustering Methods with Cophenetic Correlation Coefficient in Big Data . Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi , 22 (3) , 552-559 . DOI: 10.35414/akufemubid.1018302

Onay

İnceleme

Ekleyen

Referans Veren