Makine öğrenmesi sınıflandırma algoritmalarının incelenmesi
[ X ]
Date
2018
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Sinop Üniversitesi
Access Rights
info:eu-repo/semantics/openAccess
Abstract
Bu çalışmada, literatürde her birinin kendi içinde karmaşık bir teoriye sahip oldukları görülen, Karar Ağacı, Naive Bayes, Rastgele Orman ve K-en yakın komşu sınıflandırma algoritmalarının R programında yazılan kodlar yardımıyla, farklı veri tiplerine uygulanması ile daha anlaşılır ve açık bir şekilde sunulması hedeflenmektedir. Ayrıca gerçek bir veri kümesi üzerinden, son dönemlerde makine öğrenmesi yöntemleri için son kullanıcı dostu yeniliklerle ön plana çıkan KNIME programı yardımıyla yukarıda bahsedilen dört makine öğrenme sınıflandırma algoritmasının bir performans karşılaştırması yapılmıştır. Çalışmanın birinci bölümünde, konuya giriş yapılmış olup, ikinci bölümde ise büyük veri, makine öğrenmesi, performans değerlendirme yöntemleri, sınıflandırma ve sınıflandırma başarı ölçüleri hakkında temel kavramlardan bahsedilmiştir. Daha sonraki bölümlerde sırasıyla, Karar Ağacı, Naive Bayes, Rastgele Orman ve K-en yakın komşu sınıflandırma algoritmaları için gerekli matematiksel kavramlar verilmekte ve bu yöntemlerin kullanımının önemi vurgulanmaktadır. Çalışmanın dördüncü bölümünde ise farklı veri tipleri kullanılarak önceki bölümlerde ele alınan sınıflandırma algoritmalarının R programı uygulamalarına ve KNIME programı ile analiz edilen gerçek bir veri kümesi üzerinden bir performans karşılaştırması uygulamasına yer verilmektedir. Son bölümde ise çalışmadan elde edilen sonuçlar tartışılacaktır.
In this study, it is aimed to present in a clearer and clear with the application of Decision Tree, Naive Bayes, Random Forest and K-nearest neighboring classification algorithms which are seen to have a complex theory within the literature, to different data types with the help of codes written in R program. In addition, a performance comparison of the above-mentioned four machine learning classification algorithms has been made with the help of the KNIME program, which has recently come to the forefront with end-user-friendly innovations for machine learning methods over a real data set. In the first section of the study, an introduction was made and in the second part, basic concepts about big data, machine learning, performance evaluation methods, classification and classification success measures were mentioned. In the following chapters, mathematical concepts for Decision Tree, Naive Bayes, Random Forest and K-nearest neighboring classification algorithms are given and the importance of using these methods is emphasized. In the fourth part of the study, using different data types, R applications of classification algorithms discussed in previous chapters and a performance comparison in KNIME is made over a real dataset. In the last section, the results of the study are discussed.
In this study, it is aimed to present in a clearer and clear with the application of Decision Tree, Naive Bayes, Random Forest and K-nearest neighboring classification algorithms which are seen to have a complex theory within the literature, to different data types with the help of codes written in R program. In addition, a performance comparison of the above-mentioned four machine learning classification algorithms has been made with the help of the KNIME program, which has recently come to the forefront with end-user-friendly innovations for machine learning methods over a real data set. In the first section of the study, an introduction was made and in the second part, basic concepts about big data, machine learning, performance evaluation methods, classification and classification success measures were mentioned. In the following chapters, mathematical concepts for Decision Tree, Naive Bayes, Random Forest and K-nearest neighboring classification algorithms are given and the importance of using these methods is emphasized. In the fourth part of the study, using different data types, R applications of classification algorithms discussed in previous chapters and a performance comparison in KNIME is made over a real dataset. In the last section, the results of the study are discussed.
Description
Keywords
İstatistik, Statistics, Sınıflandırma Algoritmaları, Makine Öğrenme, Büyük Veri., Classification Algorithms, Machine Learning, Big Data.