Kutupsallık sözlüğü ve yapay zeka yardımı ile Türkçe twitter verileri üzerinde duygu analizi

Shehu, Harisu Abdullahi

Please use this identifier to cite or link to this item: https://hdl.handle.net/11499/3240

Title:	Kutupsallık sözlüğü ve yapay zeka yardımı ile Türkçe twitter verileri üzerinde duygu analizi
Other Titles:	Sentiment analysis of Turkısh twitter data using polarity lexicon and artificial intelligence
Authors:	Shehu, Harisu Abdullahi
Advisors:	Sezai Tokat
Keywords:	Duygu analizi Twitter Tivit Türkçe Kutupsallık sözlüğü Sınıflandırma Sentiment analysis Tweet Turkish Polarity lexicon Classification
Publisher:	Pamukkale Üniversitesi Fen Bilimleri Enstitüsü
Abstract:	Sosyal medya artık insanların duygularını etkilemede önemli bir rol oynamakta, insanların özellikle de tüketicilerin belirli bir konu, ürün veya fikir hakkında ne hissettiklerini analiz etmemize yardımcı olmaktadır. İnsanların düşüncelerini ifade etmek için kullandıkları güncel sosyal medya platformlarından biri Twitter'dır. Bu tez çalışmasında Twitter API'si kullanılarak Twitter'dan 13 bin tivit toplanmış ve kutupsallık sözlüğü ve makine öğrenmesi sınıflandırmaları yardımı ile duygu analizi yapılmıştır. Bu amaçla bu tez çalışmasında rasgele orman (random forest) ve destek vektör makineleri (support vector machines) olmak üzere iki farklı makine öğrenmesi yöntemi sınıflandırıcı olarak kullanılmıştır. Toplanan tivitler içeriğine göre pozitif, negatif veya nötr olarak etiketlenmiştir. Twitler üzerindeki duygu analizleri ham biçimdeki tivitler üzerinde, dizgecikler ve etkisiz-kelimeler (stop-words) çıkarıldıktan sonra oluşan veri üzerinde ve tivitlerin kökü bulunduktan sonra oluşan veri üzerinde olmak üzere üç farklı aşamada yapılmıştır. Bu aşamaların hepsinde ayrı ayrı duygu analizi yapılmıştır. Son olarak, kullanılan farklı yöntemler toplanan veriler üzerinde test edilmiştir. Ele alınan problem için destek vektör makinelerinin en kısa yürütme süresine sahip olduğu, rasgele orman yönteminin ham veriler üzerinde daha iyi performans gösterdiği, kutupsallık sözlüğü kullanan yöntemin performansının ise diğer yöntemlerde olmayan bir şekilde verilerin ham halinden köklerinin bulunduğu duruma doğru sürekli olarak iyileştiği gözlenmiştir Social media is now playing an important role in influencing people’s sentiment and also helps us to analyze how people particularly consumers feel about a particular topic, a product or an idea. One of the recent social media platforms to express thoughts is Twitter. In this thesis, a sum of 13K Turkish tweets had been collected from Twitter using the Twitter API and their sentiments are being analyzed using polarity lexicon and the use of machine learning classifiers. Random forests and support vector machines are the two kinds of classifiers that are adopted. The collected tweets are classified to be eitherpositive, negative or neutral based on their contents and then their sentiments have been analyzed in three different phases both when the tweets are in raw form, after the tweets are converted into tokens and stop-words are being removed from them and also when the tweets are being stemmed. Finally, the different methodologies used have been tested and find out that support vector machines is the method with the shortest execution time, while random forests perform better on raw data before any manipulation of the data, the performance of the method using polarity lexicon increases continuously as the data being manipulated from raw up to stemmed data.
URI:	https://hdl.handle.net/11499/3240
Appears in Collections:	Tez Koleksiyonu (Fen Bilimleri Enstitüsü)