Duygu Analizi İçin Veri Madenciliği Sınıflandırma Algoritmalarının Karşılaştırılması


Çelik E., Dal D., Aydın T.

Avrupa Bilim ve Teknoloji Dergisi, sa.27, ss.880-889, 2021 (Hakemli Dergi)

  • Yayın Türü: Makale / Tam Makale
  • Basım Tarihi: 2021
  • Doi Numarası: 10.31590/ejosat.905259
  • Dergi Adı: Avrupa Bilim ve Teknoloji Dergisi
  • Derginin Tarandığı İndeksler: TR DİZİN (ULAKBİM), Index Copernicus
  • Sayfa Sayıları: ss.880-889
  • Atatürk Üniversitesi Adresli: Evet

Özet

Teknolojinin gelişmesi, internetin yaygınlaşması ve internet aracılığıyla bilgiye erişim kolaylığı insanların duygu ve düşüncelerini farklı iletişim araçlarını kullanarak paylaşmalarına imkân sağlamaktadır. Uyarlanabilir öğrenme ve karar verebilme gibi yeteneklerle donatılarak daha akıllı hale gelen söz konusu bu iletişim araçları, her geçen gün daha geniş kitlelere ulaşmaktadır. Bir zamanlar sadece ses iletimi için kullanılan bu araçlar şimdilerde insanların forum ve blog gibi sanal ortamlarda duygu ve düşüncelerini yazılı olarak paylaşmalarını mümkün kılmaktadır. Sanal ortamlar aracılığıyla yapılan bu yorumlar artık bir bilgi edinme kaynağı olarak görülmekte ve daha da önemlisi bu yorumlar bireylerin farklı konulara ilişkin düşüncelerinin analiz edilebilmelerini kolaylaştırdıkları için konu üzerinde çalışmalar yürüten araştırmacıların dikkatini fazlasıyla çekmektedir. Başka bir deyişle bu yorumlardan günümüzün popüler bir araştırma alanı olan duygu analizi için gerçek bir veri seti olarak faydalanılmaktadır. Bu çalışmada ürün, film ve restoran yorumlarını içeren farklı veri setlerinden faydalanılarak veri madenciliği sınıflandırma algoritmaları yardımıyla duygu analizi yapılmıştır. Bu amaçla Destek Vektör Makinesi, K-En Yakın Komşu, Naive Bayes, Karar Ağacı ve Rastgele Orman sınıflandırma algoritmalarından faydalanılmıştır. Veri boyutunu ve çeşitliliğini arttırmak amacıyla her biri içerisinde 500 olumlu, 500 olumsuz olmak üzere toplamda 1000 adet yorum içeren üç farklı veri seti birleştirilmiştir. Deneysel sonuçlar Destek Vektör Makinesi sınıflandırma algoritmasının duygu analizi noktasında diğer yöntemlere kıyasla daha başarılı olduğunu göstermiştir.

The development of technology, the spread of the Internet and the ease of access to the information through the Internet enable people to share their feelings and thoughts using different communication channels. These communication mediums, that have become smarter by being equipped with the skills such as the adaptive learning and decision making, are reaching a wider audience day by day. While these channels were once used only for the voice transmission, it nowadays enables people to share their feelings and thoughts in the virtual environments such as forums and blogs. The comments made through the virtual environments are now seen as a source of information, and more importantly, these comments attract the attention of researchers who are working on the subject, as they facilitate the analysis of individuals' opinions on different topics. In other words, these comments are used as a real data set for the sentiment analysis, that is one of the popular research areas. In this study, the sentiment analysis was carried out by means of the data mining classification algorithms applied on different data sets including the product, movie and restaurant reviews. For this purpose, Support Vector Machine, K-Nearest Neighbor, Naive Bayes, Decision Tree and Random Forest classification algorithms were taken into consideration. In order to increase the data size and its diversity, three different data sets, each containing 500 positive and 500 negative, 1000 comments in total, were combined. Experimental results showed that the Support Vector Machine classification algorithm is more successful than other methods in the sentiment analysis.