Gelişmiş Arama

Basit öğe kaydını göster

dc.contributor.advisorSaraçlı, Sinan
dc.contributor.authorAkşit, Murat
dc.date.accessioned2020-12-07T12:45:11Z
dc.date.available2020-12-07T12:45:11Z
dc.date.issued2020en_US
dc.identifier.urihttps://hdl.handle.net/11630/8495
dc.description.abstractBu çalışmada, öncelikle büyük verinin tanımı, büyük verinin bilişenleri, büyük veri analitiği ve büyük veri teknolojileri hakkında teorik-kuramsal bilgilere yer verilmiştir. Bununla birlikte kümeleme analizi, kümeleme yöntemleri, kümeleme yöntemi uzaklık ölçütleri ve Kofenetik korelasyon katsayısı hakkında da teorik-kuramsal bilgiler yer almaktadır. Devamında ise büyük veri teknolojilerini kullanarak büyük veride hiyerarşik kümeleme yöntemleri Kofenetik korelasyon katsayısı karşılaştırılmıştır. Veri analizi için açık kaynaklı büyük veri teknolojilerini içeren Amazon bulut sunucusu kullanılmıştır. Sunucu üzerine Python programlama dili kurulmuşve analiz sürecindePython için geliştirilmiş kütüphaneler kullanılmıştır. Çalışmada ABD Ulaştırma Bakanlığıtarafından yayınlanan 2015 Hava Seyahat Tüketici Raporundaki veri seti kullanılmıştır. Çalışmanın sonucuna etki etmeyecek veri setindeki değişkenler, analiz süreçlerini uzatabileceğinden özellik seçim işlemi ile çıkartılmıştır.Sonrasında, boş gözlemler temizlenmiş ve veriler standar dize edilmiştir. Ardından, veri seti içerisinden ana kütleye temsilen rastgele seçim yöntemiyle 4 farklı veri seti oluşturulmuştur.Bu veri setlerine kümeleme analizi uygulanmıştır. Yapılan analizler sonucunda tüm veri setlerinde Kofenetik korelasyon katsayısının, ortalama bağlantı kümeleme yönteminde en yüksek değeri sağladığı gözlemlenmiştir.en_US
dc.description.abstractIn this study, firstly, theoretical information about the definition of big data, components of big data, Big data analytics and big data technologies are included. In addition, theoretical information about cluster analysis, clustering methods, distance measures of clustering method and cophenetic correlation coefficient are given. Afterwards, hierarchical clustering methods in big data using big data technologies were compared with the cophenetic correlation coefficient. Amazon Cloud Server containing open source big data technologies was used for data analysis. Python programming language is installed on this server. Libraries developed for Python were used in the analysis processes. Air Travel Consumer Report in the USA for 2015, which was published as an open access data set, was used.Since the inclusion of variables that do not affect the result analysis may prolong the analysis process, the feature selection process has been performed. The blank observations were then cleared and the data were standardized. Afterwards, 4 different data sets were created by random selection method representing the main population from the data set. Clustering analysis was applied to these data sets. As a result of the analysis, it was observed that the cophenetic correlation coefficient gave the highest result in the Avarage Clustering method in all data sets.en_US
dc.language.isoturen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectKofenetikkorelasyonen_US
dc.subjectBüyük verien_US
dc.subjectKümeleme analizien_US
dc.titleBüyük veride hiyerarşik kümeleme yöntemlerinin kofenetik korelasyon ile karşılaştırılmasıen_US
dc.title.alternativeComparison of hierarchical cluster methods by cophenetic correlation in big dataen_US
dc.typemasterThesisen_US
dc.departmentFen-Edebiyat Fakültesien_US
dc.identifier.startpage1en_US
dc.identifier.endpage50en_US
dc.relation.publicationcategoryTezen_US
dc.contributor.institutionauthorAkşit, Murat


Bu öğenin dosyaları:

Thumbnail

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster