Makine öğrenmesi yöntemleri ile web’den bilgi çıkarımı sürecinin iyileştirilmesi
Künye
Özhan, E . (2020). Makine Öğrenmesi Yöntemleri ile Web’den Bilgi Çıkarımı Sürecinin İyileştirilmesi . Afyon Kocatepe Üniversitesi Uluslararası Mühendislik Teknolojileri ve Uygulamalı Bilimler Dergisi , 3 (2) , 52-59 .Özet
Web ortamı bilginin doğduğu, yayıldığı ve yaşadığı bir formata sahiptir. Gün geçtikte bilgi morfolojik
olarak değişim geçirmekte ve bu değişimle birlikte avantajlar yanında istenilen anlamlı bilgiye ulaşmada
zorluklar artmaktadır. Zaman, depolama, iletişim ve veri işleme maliyetleri açısından istenilen bilgiye en
verimli şekilde ulaşmak kritik bir görevdir. Bunun yanında verinin yaşam süreci boyunca
kullanılabilirliğini de artırabilir. Web sayfalarının “layout” adı verilen bölümlerinin sınıflandırılması bu
sorunların çözümüne önemli katkılar sağlayabilir. Özellikle bu bölümlerdeki gereksiz içeriğin bilinmesi
faydalı ve anlamlı bilgiye ulaşmayı kolaylaştırıcı ve maliyetleri düşürücü etki sağlayabilir. Bu çalışma
makine öğrenmesi yöntemleri ile web sayfası bölümlerinin sınıflandırılması sürecini iyileştirmek
amacıyla farklı algoritmalara odaklanmış ve bu algoritmaların iyileştirici sonuçlarını ortaya koymuştur.
Elde edilen sonuçlara göre Random Forest ve KStar algoritmalarının süreci iyileştirici modeller olduğu
görülmüştür. Random Forest algoritması %98.46 doğru sınıflandırma oranı sunarken, KStar hız
faktörüyle öne çıkmıştır. Çalışmada karar ağacı ve entropi tabanlı algoritmaların başarımları da
karşılaştırılmış ve bulgular hesaplama zamanlarıyla birlikte sunulmuştur. The web environment has a format in which information is born, propagated and lived. Information
changes morphologically day by day, and with this change, difficulties in reaching the desired
meaningful information increase as well as advantages. It is a critical task to reach the desired
information in the most efficient way in terms of time, storage, communication and data processing
costs. In addition, it can increase the availability of data throughout its life cycle. Classification of the
parts of web pages called “layout” can make important contributions to the solution of these problems.
In particular, knowing the unnecessary content in these sections can facilitate access to useful and
meaningful information and provide a cost-reducing effect. This study focuses on different algorithms in
order to improve the process of classifying web page sections with machine learning methods and
reveals the improvement results of these algorithms. According to the results, it has been seen that
Random Forest and KStar algorithms have process improvement solutions. While the Random Forest
algorithm offers 98.46% correct classification rate, KStar stands out with its speed factor. In the study,
especially the performance of tree and entropy-based algorithms were compared and the findings were
presented together with the computation times.
Kaynak
Afyon Kocatepe Üniversitesi Uluslararası Mühendislik Teknolojileri ve Uygulamalı Bilimler DergisiCilt
3Sayı
2Bağlantı
https://dergipark.org.tr/tr/pub/akuumubd/issue/56619/784089https://hdl.handle.net/11630/8751
Koleksiyonlar
- Cilt 3 : Sayı 2 [2]