Büyük veri araçlarından hadoop kullanarak veri madenciliği

Salur, Mehmet Umut

Please use this identifier to cite or link to this item: https://hdl.handle.net/11499/1229

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Sezai Tokat	-
dc.contributor.author	Salur, Mehmet Umut	-
dc.date	2016-12-12	en_US
dc.date.accessioned	2016-12-13T10:23:33Z
dc.date.available	2016-12-13T10:23:33Z
dc.date.issued	2016-11	-
dc.identifier.uri	https://hdl.handle.net/11499/1229	-
dc.description.abstract	Bu tez çalışması kapsamında günümüzde çok önemli bir konu haline gelen büyük verinin işlenmesi incelenmiştir. Büyük veriden anlamlı bilgiler çıkarmak günümüz hem özel sektör hem de kamu alanı için önemli bir konudur. Bu nedenle birçok kuruluş bu alan için ciddi yatırımlar yapmaktadır. Büyük veri genellikle yapısal olmayan verilerden oluşmaktadır. Yapısal olmayan verilerden anlamlı bilgiler elde etmekte doğal dil işleme yöntemleri kullanılmaktadır. Doğal dil işleme yöntemlerini kullanarak duygu analizi yapmak birçok alanda önemli avantajlar sağlamaktadır. Bu tez çalışması kapsamında büyük veri işleme araçlarından olan Hadoop üzerinde veri madenciliği yöntemleriyle duygu analizi yapılması hedeflenmiştir. Veri madenciliği kapsamında metin madenciliği kullanılmıştır. Hadoop üzerinde veri madenciliği yapmak için özelleştirilmiş olan Mahout aracı kullanılmıştır. Mahout makine öğrenmesi algoritmalarının map-reduce formatında yazılmış hallerini içeren bir kütüphanedir. Metin madenciliğinde kullanılan veri kümesi için Türkiye’deki 15 günlük gazetenin Twitter ’da paylaşmış oldukları haber başlıkları kullanılmıştır. Bu haber başlıkları Türkçe doğal dil işleme için geliştirilen Zemberek kütüphanesi yardımıyla ön işlemlerden geçirilmiştir. Bu haber başlıkları olumlu veya olumsuz olarak sınıflandırılmıştır. Sınıflandırma işlemi için Mahout aracıyla birlikte Naive Bayes istatistik tabanlı sınıflandırma algoritması kullanılmıştır. Sınıflandırma işleminden önce Naive Bayes algoritması için eğitim verisi oluşturulmuştur. Eğitim verisi için yaklaşık 105.000 haber başlığı, yazılan bir uygulama yardımıyla kullanıcı tarafından olumlu, olumsuz veya belirsiz olarak işaretlenmiştir. Eğitim verisinin bir kısmı algoritmanın eğitilmesi, bir kısmı ise algoritmanın testi için kullanılmıştır. Naive bayes algoritmasının çalıştırılması için iki farklı Hadoop ortamı oluşturulmuş. Bu ortamlar tek node’luk Hadoop sistemi ve 4 node’luk Hadoop sistemi şeklindedir. Sınıflandırma işlemi her iki ortamda gerçekleştirilmiştir. Sınıflandırma işleminde %80’e yakın başarı elde edilmiştir.	en_US
dc.description.abstract	This thesis has investigated the big data which has become very popular topic in recent days. Drawing meaningful information from big data is an important topic for both private and public sectors. Thus, many companies have made serious investments. The big data is made of unstructured data. The natural language process methods have been used to obtain meaningful information from unstructured data. Using the natural language process methods to analyze emotion is bringing important advantages to many fields. His study aimed to analyze emotion with data mining method by using Hadoop which is a tool for big data processing. The text mining is used within data mining process. The Mahout tool which is specialized to do data mining on Hadoop is used. Mahout is a library that contains machine learning algorithms its map-reduce formats. The data set used for the text mining has been drawn from the headlines of 15 Turkish daily newspapers Twitter posts. This headlines has been filtered with Zemberek library developed for natural language process of Turkish. These headlines were classified as positive and negative. Mahout and Naive Bayes statistical based classification algorithms tools are used for the classification. The learning data is prepared for the Naive Bayes algorithm prior to the classification process. More than 105 thousands headlines are drawn from twitter with a developed software for the learning data and this data is marked as positive, negative, and uncertain. The part of the learning data has been used for the learning algorithm and the other part has been used for the testing of the algorithm. The type of Hadoop environment was developed in order to run the Naive Bayes algorithm. These environments were single node Hadoop system and 4-node Hadoop system. The classification process has been carried out in the both systems. In the classification, success was achieved close to 80%.	en_US
dc.language.iso	tr	en_US
dc.publisher	Pamukkale Üniversitesi Fen Bilimleri Enstitüsü	en_US
dc.rights	info:eu-repo/semantics/closedAccess	en_US
dc.subject	Hadoop	en_US
dc.subject	Mahout	en_US
dc.subject	Veri Madenciliği	en_US
dc.subject	Büyük Veri	en_US
dc.subject	Duygu Analizi	en_US
dc.subject	Data Mining	en_US
dc.subject	Big Data	en_US
dc.subject	Sentiment Analysis	en_US
dc.title	Büyük veri araçlarından hadoop kullanarak veri madenciliği	en_US
dc.title.alternative	Data mining using hadoop big data tool	en_US
dc.type	Master Thesis	en_US
dc.relation.publicationcategory	Tez	en_US
dc.identifier.yoktezid	450617	en_US
dc.owner	Pamukkale University	-
item.openairetype	Master Thesis	-
item.grantfulltext	open	-
item.cerifentitytype	Publications	-
item.fulltext	With Fulltext	-
item.languageiso639-1	tr	-
item.openairecristype	http://purl.org/coar/resource_type/c_18cf	-
Appears in Collections:	Tez Koleksiyonu