Sosyal medya hesaplarının kural tabanlı profil çıkarımı: Kullanıcı siyasi eğilimlerinin sınıflandırılması ve araştırılması

Şahin, Emre

Please use this identifier to cite or link to this item: https://hdl.handle.net/11499/3157

Title:	Sosyal medya hesaplarının kural tabanlı profil çıkarımı: Kullanıcı siyasi eğilimlerinin sınıflandırılması ve araştırılması
Other Titles:	Rule based profile extraction of social media accounts: classification and exploration of user political tendencies
Authors:	Şahin, Emre
Advisors:	Emre Şahin Sezai Tokat
Keywords:	Sosyal Medya Profilleme Kural Tabanı Sosyal Medya Analizi Profil Çıkarımı Social Media Profilling Rule Base Social Media Analysis Profile Extraction
Publisher:	Pamukkale Üniversitesi Fen Bilimleri Enstitüsü
Abstract:	İnsanların kişilik özelliklerini, düşüncelerini ve tercihlerini tahminlemek pazarlama ve reklamcılık gibi alanların ilgisini çeken konulardır. Geçmişte bunun için anket ve testler kullanılırken günümüzde sosyal medya kullanımının artmasıyla birlikte bu platformlar bu çalışmalar için daha uygun ortamlar haline gelmiştir. Ancak sosyal medya üzerindeki bilgiler test ve anketlerdeki gibi belirli bir amaca yönelik bilgiler olmadığı için işlemesi ve analiz edilmesi daha zordur. Bununla ilgili sürekli olarak yeni yöntemler, araçlar ve teknikler önerilmekte ve geliştirilmektedir. Profil çıkarımı, sosyal medyada önemli bir tahminleme konusudur. Bu çalışmada sosyal medya kullanıcılarının profil çıkarım çalışmalarında kullanılabilecek, arkadaşlık benzerliğine dayanan 13 farklı özellik önerilmekte ve bu özelliklerden bir kural tabanı elde edilmektedir. Önerilen bu özelliklerin kullanılabilirliğini test etmek için Twitter kullanıcılarının siyasi parti eğilimlerini tahminlemeye yönelik bir uygulama gerçekleştirilmiştir. Uygulamada siyasi partilerin ve liderlerinin resmi Twitter hesaplarının arkadaş ve takipçi listesinden elde edilen benzerlik değerleri kullanılarak sınıflandırma ve kümeleme işlemleri gerçekleştirilmiştir. Sınıflandırma için farklı eğitim veri setleriyle sistemin başarımı test edildiği zaman minimum %70.81 doğruluk, %77.40 kesinlik ve %70.81 f1 değeri elde edilirken genel olarak k-NN ile karar ağacına göre daha başarılı sonuçlar elde edilmiştir. Ancak karar ağacı yönteminin faydası, sınıflandırmayı görsel olarak ifade edebilmesi ve kural tabanı çıkarımına yardımcı olmasıdır. Kümeleme için de aynı özellikler k-Ortalamalar ve Bulanık c-Ortalamalar yöntemleriyle farklı veri setleri üzerinde test edilmiştir. Testler sonucunda k-Ortalamalar ile daha başarılı sonuçlar alınmasına rağmen Bulanık c-Ortalamalar örneklere küme üyelik dereceleri atadığı için yanlış kümelenen örneklerin gözlenmesine, karşılaştırılmasına olanak sağlamaktadır. k-Ortalamalar yönteminde örnekler birden fazla kümenin merkezine aynı uzaklıkta olsalar bile yalnızca bir tane kümeye dahil edilerek gösterilmekte ve diğer kümeler göz ardı edilmektedir. Halbuki Bulanık c-Ortalamalar'ın kullanıldığı durumda, eğilim analizinde katkı sağlayacak şekilde, örnekler üyelik derecesine bağlı olarak farklı kümelere farklı oranda dahil olabilmektedir. Marketing and advertising sectors are very interested in predicting people's personality, ideas and preferences. In the past, surveys and tests have been used for this aim, however with the increasing use of social media, these platforms have become more suitable environments. On the other hand, the information on social media is more difficult to process and analyze as there is no specific purpose-oriented information such in tests and surveys. Therefore new methods, tools and techniques have being explored and developed. Profile extraction is an important prediction topic in social media. In this study, 13 different features based on the resemblance of fundamental friendship are proposed and a rule base is derived from these features, which can be used in the profile extraction of social media users. To test the usability of these features, an application was implemented to anticipate the political party tendencies of Twitter users. In this application classification and clustering was carried out using similarity values obtained from official Twitter accounts of friends and followers of political parties and leaders. When the system was tested for performance with different training data sets for classification, the results of k-NN were generally more successful than decision tree where the minimum performance scores are 70.81% accuracy, 77.40% precision and 70.81% f1. However, the advantage of the decision tree method is that it can visually express the classification and helps to extract the rule base. For clustering, the same features have been tested on different data sets with k-Means and Fuzzy c-Means methods. Even though more successful results are obtained with the k-Means as a result of the tests, Fuzzy c-Means allows to observe and compare the wrong clustered samples because they assign cluster membership values to the samples. In the k-Means method, even though the samples are at the same distance from the center of more than one cluster, this samples are included in only one cluster, other clusters are ignored. However in cases where Fuzzy c-Means is used, different samples can be included in different clusters depending on the degree of membership, as a contribution to the trend analysis.
URI:	https://hdl.handle.net/11499/3157
Appears in Collections:	Tez Koleksiyonu