Büyük veride hiyerarşik kümeleme  yöntemlerinin kofenetik korelasyon ile karşılaştırılması

Akşit, Murat

dc.contributor.advisor	Saraçlı, Sinan
dc.contributor.author	Akşit, Murat
dc.date.accessioned	2020-12-07T12:45:11Z
dc.date.available	2020-12-07T12:45:11Z
dc.date.issued	2020	en_US
dc.identifier.uri	https://hdl.handle.net/11630/8495
dc.description.abstract	Bu çalışmada, öncelikle büyük verinin tanımı, büyük verinin bilişenleri, büyük veri analitiği ve büyük veri teknolojileri hakkında teorik-kuramsal bilgilere yer verilmiştir. Bununla birlikte kümeleme analizi, kümeleme yöntemleri, kümeleme yöntemi uzaklık ölçütleri ve Kofenetik korelasyon katsayısı hakkında da teorik-kuramsal bilgiler yer almaktadır. Devamında ise büyük veri teknolojilerini kullanarak büyük veride hiyerarşik kümeleme yöntemleri Kofenetik korelasyon katsayısı karşılaştırılmıştır. Veri analizi için açık kaynaklı büyük veri teknolojilerini içeren Amazon bulut sunucusu kullanılmıştır. Sunucu üzerine Python programlama dili kurulmuşve analiz sürecindePython için geliştirilmiş kütüphaneler kullanılmıştır. Çalışmada ABD Ulaştırma Bakanlığıtarafından yayınlanan 2015 Hava Seyahat Tüketici Raporundaki veri seti kullanılmıştır. Çalışmanın sonucuna etki etmeyecek veri setindeki değişkenler, analiz süreçlerini uzatabileceğinden özellik seçim işlemi ile çıkartılmıştır.Sonrasında, boş gözlemler temizlenmiş ve veriler standar dize edilmiştir. Ardından, veri seti içerisinden ana kütleye temsilen rastgele seçim yöntemiyle 4 farklı veri seti oluşturulmuştur.Bu veri setlerine kümeleme analizi uygulanmıştır. Yapılan analizler sonucunda tüm veri setlerinde Kofenetik korelasyon katsayısının, ortalama bağlantı kümeleme yönteminde en yüksek değeri sağladığı gözlemlenmiştir.	en_US
dc.description.abstract	In this study, firstly, theoretical information about the definition of big data, components of big data, Big data analytics and big data technologies are included. In addition, theoretical information about cluster analysis, clustering methods, distance measures of clustering method and cophenetic correlation coefficient are given. Afterwards, hierarchical clustering methods in big data using big data technologies were compared with the cophenetic correlation coefficient. Amazon Cloud Server containing open source big data technologies was used for data analysis. Python programming language is installed on this server. Libraries developed for Python were used in the analysis processes. Air Travel Consumer Report in the USA for 2015, which was published as an open access data set, was used.Since the inclusion of variables that do not affect the result analysis may prolong the analysis process, the feature selection process has been performed. The blank observations were then cleared and the data were standardized. Afterwards, 4 different data sets were created by random selection method representing the main population from the data set. Clustering analysis was applied to these data sets. As a result of the analysis, it was observed that the cophenetic correlation coefficient gave the highest result in the Avarage Clustering method in all data sets.	en_US
dc.language.iso	tur	en_US
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.subject	Kofenetikkorelasyon	en_US
dc.subject	Büyük veri	en_US
dc.subject	Kümeleme analizi	en_US
dc.title	Büyük veride hiyerarşik kümeleme yöntemlerinin kofenetik korelasyon ile karşılaştırılması	en_US
dc.title.alternative	Comparison of hierarchical cluster methods by cophenetic correlation in big data	en_US
dc.type	masterThesis	en_US
dc.department	Fen-Edebiyat Fakültesi	en_US
dc.identifier.startpage	1	en_US
dc.identifier.endpage	50	en_US
dc.relation.publicationcategory	Tez	en_US
dc.contributor.institutionauthor	Akşit, Murat

Bu öğenin dosyaları:

Ad:: 10214194.pdf
Boyut:: 1.321Mb
Biçim:: PDF
Açıklama:: Yüksek Lisans Tezi

Göster/Aç

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Yüksek Lisans Tezleri [890]
Fen Bilimleri Enstitüsü'ne ait Yüksek Lisans Tezlerini içerir.

Basit öğe kaydını göster