Veri kümeleme algoritmalarının performansları üzerine karşılaştırmalı bir çalışma

Durmuş, Mustafa Seçkin

Please use this identifier to cite or link to this item: https://hdl.handle.net/11499/1219

Title:	Veri kümeleme algoritmalarının performansları üzerine karşılaştırmalı bir çalışma
Other Titles:	A comperative study on performances of data clustering algorithms
Authors:	Durmuş, Mustafa Seçkin
Advisors:	Serdar İplikçi
Keywords:	Data Mining Data Clustering Clustering Algorithms Graph Structures Nearest Neighbor Minimum Spanning Tree Mutual Neighborhood Support Vectors Veri Madenciliği Veri Kümeleme Kümeleme Algoritmaları Çizge Yapıları En Yakın Komşu En Küçük Tarama Ağacı Karşılıklı Komşuluk Destek Vektörleri
Publisher:	Pamukkale Üniversitesi Fen Bilimleri Enstitüsü
Abstract:	Bu tezde farklı veri kümeleme algoritmaları performanslarına göre karşılaştırmalı olarak incelenmiştir. Sık kullanılan kümeleme algoritmaları tanımlanmış ve bu algoritmalar arasından, kümeleme işlemi sonunda oluşacak küme sayısının ve hangi verinin hangi kümeye yerleştirileceğinin önceden bilinmediği (öğreticisiz öğrenme) algoritmalar karşılaştırmalı çalışma için seçilmiştir. Seçilen bu algoritmalar farklı üç veri seti üzerinde (MATLAB ortamında oluşturulan rasgele veri seti, iris çiçeği veri seti ve Avustralya yengeçlerinden oluşturulmuş veri seti) gürültüye dayanıklılık, işlemler için kullanılan hafıza, işlem süresi ve işlemler esnasında kullandıkları flop sayılarına göre karşılaştırılmışlardır. Tüm kümeleme algoritmaları veriye bağlıdır ve herhangi bir kümeleme algoritması tüm veri setleri için her zaman en iyi kümeleri oluşturmamaktadır. Bu nedenle, seçilen veriye en uygun algoritma belirlenmelidir. Bu karşılaştırmalı çalışma için seçilen algoritmalar MATLAB benzetim programı kullanılarak gerçekleştirilmiş ve her üç veri seti için seçilen tüm algoritmalar farklı eşik değerleri için denenmiştir. Sonuçlar arasında karşılaştırmalar yapılmıştır. In this thesis, a comparative study on performances of different data clustering algorithms is considered. Commonly used clustering algorithms are defined and among these algorithms in which resulting cluster number and which data is going to be placed in which cluster (unsupervised learning) are not to be known before clustering, were chosen for comparative study. These algorithms are examined on three different data sets (A random data set generated by MATLAB, the iris data set and the Australian crab data set) for their endurance of noise, memory used for processes, process time and flop numbers. All clustering algorithms are data dependent and an algorithm is not being always capable for all data sets. Therefore, the most suitable algorithm must be determined for the chosen data set. Algorithms for this comparative study are realized by MATLAB and all algorithms are tested for different threshold values. Comparisons were made between different results.
URI:	https://hdl.handle.net/11499/1219
Appears in Collections:	Tez Koleksiyonu (Eğitim Bilimleri Enstitüsü)