Büyük veri araçlarından hadoop kullanarak veri madenciliği

Salur, Mehmet Umut

Please use this identifier to cite or link to this item: https://hdl.handle.net/11499/1229

Title:	Büyük veri araçlarından hadoop kullanarak veri madenciliği
Other Titles:	Data mining using hadoop big data tool
Authors:	Salur, Mehmet Umut
Advisors:	Sezai Tokat
Keywords:	Hadoop Mahout Veri Madenciliği Büyük Veri Duygu Analizi Data Mining Big Data Sentiment Analysis
Publisher:	Pamukkale Üniversitesi Fen Bilimleri Enstitüsü
Abstract:	Bu tez çalışması kapsamında günümüzde çok önemli bir konu haline gelen büyük verinin işlenmesi incelenmiştir. Büyük veriden anlamlı bilgiler çıkarmak günümüz hem özel sektör hem de kamu alanı için önemli bir konudur. Bu nedenle birçok kuruluş bu alan için ciddi yatırımlar yapmaktadır. Büyük veri genellikle yapısal olmayan verilerden oluşmaktadır. Yapısal olmayan verilerden anlamlı bilgiler elde etmekte doğal dil işleme yöntemleri kullanılmaktadır. Doğal dil işleme yöntemlerini kullanarak duygu analizi yapmak birçok alanda önemli avantajlar sağlamaktadır. Bu tez çalışması kapsamında büyük veri işleme araçlarından olan Hadoop üzerinde veri madenciliği yöntemleriyle duygu analizi yapılması hedeflenmiştir. Veri madenciliği kapsamında metin madenciliği kullanılmıştır. Hadoop üzerinde veri madenciliği yapmak için özelleştirilmiş olan Mahout aracı kullanılmıştır. Mahout makine öğrenmesi algoritmalarının map-reduce formatında yazılmış hallerini içeren bir kütüphanedir. Metin madenciliğinde kullanılan veri kümesi için Türkiye’deki 15 günlük gazetenin Twitter ’da paylaşmış oldukları haber başlıkları kullanılmıştır. Bu haber başlıkları Türkçe doğal dil işleme için geliştirilen Zemberek kütüphanesi yardımıyla ön işlemlerden geçirilmiştir. Bu haber başlıkları olumlu veya olumsuz olarak sınıflandırılmıştır. Sınıflandırma işlemi için Mahout aracıyla birlikte Naive Bayes istatistik tabanlı sınıflandırma algoritması kullanılmıştır. Sınıflandırma işleminden önce Naive Bayes algoritması için eğitim verisi oluşturulmuştur. Eğitim verisi için yaklaşık 105.000 haber başlığı, yazılan bir uygulama yardımıyla kullanıcı tarafından olumlu, olumsuz veya belirsiz olarak işaretlenmiştir. Eğitim verisinin bir kısmı algoritmanın eğitilmesi, bir kısmı ise algoritmanın testi için kullanılmıştır. Naive bayes algoritmasının çalıştırılması için iki farklı Hadoop ortamı oluşturulmuş. Bu ortamlar tek node’luk Hadoop sistemi ve 4 node’luk Hadoop sistemi şeklindedir. Sınıflandırma işlemi her iki ortamda gerçekleştirilmiştir. Sınıflandırma işleminde %80’e yakın başarı elde edilmiştir. This thesis has investigated the big data which has become very popular topic in recent days. Drawing meaningful information from big data is an important topic for both private and public sectors. Thus, many companies have made serious investments. The big data is made of unstructured data. The natural language process methods have been used to obtain meaningful information from unstructured data. Using the natural language process methods to analyze emotion is bringing important advantages to many fields. His study aimed to analyze emotion with data mining method by using Hadoop which is a tool for big data processing. The text mining is used within data mining process. The Mahout tool which is specialized to do data mining on Hadoop is used. Mahout is a library that contains machine learning algorithms its map-reduce formats. The data set used for the text mining has been drawn from the headlines of 15 Turkish daily newspapers Twitter posts. This headlines has been filtered with Zemberek library developed for natural language process of Turkish. These headlines were classified as positive and negative. Mahout and Naive Bayes statistical based classification algorithms tools are used for the classification. The learning data is prepared for the Naive Bayes algorithm prior to the classification process. More than 105 thousands headlines are drawn from twitter with a developed software for the learning data and this data is marked as positive, negative, and uncertain. The part of the learning data has been used for the learning algorithm and the other part has been used for the testing of the algorithm. The type of Hadoop environment was developed in order to run the Naive Bayes algorithm. These environments were single node Hadoop system and 4-node Hadoop system. The classification process has been carried out in the both systems. In the classification, success was achieved close to 80%.
URI:	https://hdl.handle.net/11499/1229
Appears in Collections:	Tez Koleksiyonu