Metin sınıflandırma teknikleri ile türkçe twitter duygu analizi


Doç. Dr. Önder ÇOBAN

Tez Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Atatürk Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Anabilim Dalı, Türkiye

Tez Danışmanı: Yrd. Doç. Dr. Gülşah Tümüklü Özyer

Tezin Onay Tarihi: 2016

Tezin Dili: Türkçe

Desteklendiği Program: Öğretim Üyesi Yetiştirme Programı (ÖYP)

Özet:

Metin sınıflandırma doğal dil metinlerini önceden tanımlanmış veya mevcut kategorilerden birisiyle etiketleme işlemidir. Doküman sınıflandırma, istenmeyen mesajların filtrelenmesi ve web sorgulamaları için doğru sonuçların görüntülenebilmesi gibi problemler metin sınıflandırma çalışmalarına örnek olarak verilebilir. Duygu analizi ise kişisel blog ve sosyal medya gibi mecralardan elde edilen metinsel veriler üzerinde semantik bilginin ortaya çıkarılması amacını taşır. İşlenen veriler kısa metinlerden oluştuğu için duygu analizi de bir metin sınıflandırma problemi olarak ele alınır. Metin sınıflandırma ve duygu analizi problemlerinin çözümü için diğer dillerde gerekli sistemler geliştirilmiş olmakla beraber Türkçe için yapılan çalışmalar oldukça sınırlıdır. Bu tezde, Twitter'dan elde edilen Türkçe mesajlar üzerinde iki kategorili duygu analizi çalışılmıştır. Duygu analizi bir metin sınıflandırma problemi olarak düşünülmüş; duygu analizi tekniklerinin yanı sıra klasik metin sınıflandırma teknikleri de kullanılmıştır. Twitter mesajlarında gözlenen baskın duygunun otomatik olarak tespitinde ise makine öğrenmesi yöntemleri kullanılmıştır. Hem metin sınıflandırma hem de duygu analizi deneylerinin gerçekleştirildiği bu çalışmada, asıl hedef ise duygu analizi başarısını artırmak olmuştur. Bu amaçla Türkçe Twitter duygu analizinde farklı önişleme, etiketleme, sınıflandırma ve benzerlik yöntemlerinin etkisi incelenmiştir. Ayrıca topik bilgisine dayalı etiketleme yöntemi önerilmiş ve en yüksek %92,50 oranında başarı elde edilmiştir. Böylece dil işleme ile ilgili işlemler uygulanmadan duygu analizi başarısı önceki çalışmalara kıyasla daha yüksek elde edilebilmiştir. Bunun yanı sıra, metin sınıflandırma ve duygu analizi süreçlerini otomatikleştirme amacıyla hem Türkçe hem de İngilizce metinsel içerikleri işleyebilen bir yazılım prototipi geliştirilmiştir.