Please use this identifier to cite or link to this item: https://hdl.handle.net/11499/1219
Title: Veri kümeleme algoritmalarının performansları üzerine karşılaştırmalı bir çalışma
Other Titles: A comperative study on performances of data clustering algorithms
Authors: Durmuş, Mustafa Seçkin
Advisors: Serdar İplikçi
Keywords: Data Mining
Data Clustering
Clustering Algorithms
Graph Structures
Nearest Neighbor
Minimum Spanning Tree
Mutual Neighborhood
Support Vectors
Veri Madenciliği
Veri Kümeleme
Kümeleme Algoritmaları
Çizge Yapıları
En Yakın Komşu
En Küçük Tarama Ağacı
Karşılıklı Komşuluk
Destek Vektörleri
Publisher: Pamukkale Üniversitesi Fen Bilimleri Enstitüsü
Abstract: Bu tezde farklı veri kümeleme algoritmaları performanslarına göre karşılaştırmalı olarak incelenmiştir. Sık kullanılan kümeleme algoritmaları tanımlanmış ve bu algoritmalar arasından, kümeleme işlemi sonunda oluşacak küme sayısının ve hangi verinin hangi kümeye yerleştirileceğinin önceden bilinmediği (öğreticisiz öğrenme) algoritmalar karşılaştırmalı çalışma için seçilmiştir. Seçilen bu algoritmalar farklı üç veri seti üzerinde (MATLAB ortamında oluşturulan rasgele veri seti, iris çiçeği veri seti ve Avustralya yengeçlerinden oluşturulmuş veri seti) gürültüye dayanıklılık, işlemler için kullanılan hafıza, işlem süresi ve işlemler esnasında kullandıkları flop sayılarına göre karşılaştırılmışlardır. Tüm kümeleme algoritmaları veriye bağlıdır ve herhangi bir kümeleme algoritması tüm veri setleri için her zaman en iyi kümeleri oluşturmamaktadır. Bu nedenle, seçilen veriye en uygun algoritma belirlenmelidir. Bu karşılaştırmalı çalışma için seçilen algoritmalar MATLAB benzetim programı kullanılarak gerçekleştirilmiş ve her üç veri seti için seçilen tüm algoritmalar farklı eşik değerleri için denenmiştir. Sonuçlar arasında karşılaştırmalar yapılmıştır.
In this thesis, a comparative study on performances of different data clustering algorithms is considered. Commonly used clustering algorithms are defined and among these algorithms in which resulting cluster number and which data is going to be placed in which cluster (unsupervised learning) are not to be known before clustering, were chosen for comparative study. These algorithms are examined on three different data sets (A random data set generated by MATLAB, the iris data set and the Australian crab data set) for their endurance of noise, memory used for processes, process time and flop numbers. All clustering algorithms are data dependent and an algorithm is not being always capable for all data sets. Therefore, the most suitable algorithm must be determined for the chosen data set. Algorithms for this comparative study are realized by MATLAB and all algorithms are tested for different threshold values. Comparisons were made between different results.
URI: https://hdl.handle.net/11499/1219
Appears in Collections:Tez Koleksiyonu

Files in This Item:
File Description SizeFormat 
Mustafa Seçkin Durmuş.pdf5.85 MBAdobe PDFThumbnail
View/Open
Show full item record



CORE Recommender

Page view(s)

130
checked on May 27, 2024

Download(s)

2,196
checked on May 27, 2024

Google ScholarTM

Check





Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.