2024 32. Sinyal İşleme ve İletişim Uygulamaları Konferansı (SIU), Mersin, Türkiye, 15 - 18 Mayıs 2024, ss.1-4
Deprem, ülkemizin karşı karşıya olduğu en
kaçınılmaz doğal afetlerden biridir. Tarihsel süreçte pek çok kez
büyük kayıplara yol açan bu doğal olayın getirdiği tehlikelerin
yönetilmesi, toplumun can ve mal güvenliği için son derece
kritiktir. Depremin hemen ardından alınması gereken hızlı
aksiyonlar için anlık ve doğru veriye erişim büyük önem
taşımaktadır. Ancak, bu kritik dönemde toplanan veri genellikle
yoğun ve karmaşıktır, bu nedenle sadece sınırlı miktarda veri
etiketlemesi mümkündür. Bu çalışmasının öncelikli amacı, böyle
bir durumda Twitter'da meydana gelen veri kirliliği içerisinden,
afet yönetimi ve müdahale için kritik öneme sahip bilgileri hızlı
ve etkin bir şekilde sınıflandırabilmektir. Bu sürecin en önemli
zorluğu, az sayıda etiketli veri ile maksimum verimliliğe ulaşmayı
hedeflemektir. Bu bağlamda, çalışmada Transformatörlerden
Çift Yönlü Kodlayıcı Temsilleri (BERT), Güçlü Bir Şekilde
Optimize Edilmiş BERT (RoBERTa) ve damıtma işlemi yoluyla
elde edilen BERT (DistilBERT) modellerinin yanı sıra, geleneksel
makine öğrenmesi yöntemleri ve sıfır atış (zero-shot) ile birkaç
örnek öğrenme (few-shot) yöntemleri de incelenmiştir. Deprem
sonrası çevrim içi sosyal ağlara ait verilerin sınıflandırılmasında
bu modellerin etkinliğini değerlendirilmiş ve başarım oranları
karşılaştırılmıştır. Bu çalışmanın sonuçları az sayıda etiketli veri
kullanılarak da başarılı sınıflandırma sonuçlarının elde
edilebileceğini göstermektedir.
— Earthquakes are among the most inevitable natural
disasters our country faces. Throughout history, this natural
phenomenon has caused significant losses multiple times, making
the management of its dangers critical for the safety and security of
the community. Access to instant and accurate data is crucial for
rapid actions that need to be taken immediately after an
earthquake. However, the data collected during this critical period
is often voluminous and complex, making only a limited amount of
data labeling possible. The primary goal of this study is to quickly
and efficiently classify information of critical importance for
disaster management and response from the data pollution on
Twitter in such a situation. The most significant challenge of this
process is to achieve maximum efficiency with a minimal amount of
labeled data. In this context, the study examines Bidirectional
Encoder Representations from Transformers (BERT), Robustly
optimized BERT approach (RoBERTa) and BERT obtained through the distillation process (DistilBERT), along with
traditional machine learning methods and zero-shot as well as fewshot learning methods. The effectiveness of these models in
classifying data from online social networks after earthquakes has
been evaluated, and their performance rates have been compared.
The results of this study demonstrate that successful classification
outcomes can be achieved even with a small number of labeled
data.