چارچوبی برای تحلیل احساسات داده های متنی و شکلک ها در شبکه های اجتماعی

نوع مقاله : مقاله پژوهشی

نویسندگان

دانشگاه صنعتی خواجه نصیرالدین طوسی

چکیده

امروزه افراد به‌منظور افزایش احساس خود در متن یا خلاصه کردن عبارات ،از شکلک‌ها استفاده می‌کنند، تکنیک‌های قبلی یادگیری ماشین فقط شامل طبقه‌بندی متن، شکلک یا تصاویر، به‌تنهایی بوده است، جایی که شکلک‌ها با متن اکثر اوقات نادیده گرفته شده است. تحقیقات نشان می‌دهد یادگیری عمیق به‌ندرت در تحلیل احساسات بر روی ترکیب داده‌های متن و شکلک اعمال‌شده است. بنابراین، این مقاله متن و شکلک‌ها را به‌طور جداگانه و به‌صورت ترکیبی برای یافتن احساسات، تجزیه‌وتحلیل کرده است. بدین‌صورت که ابتدا یک تجزیه‌وتحلیل مقایسه‌ای از شبکه‌های عصبی کانولوشنی و شبکه‌های حافظه طولانی کوتاه‌مدت انجام می‌گردد، که جهت افزایش دقت تعبیه کلمات، بردارهای تعبیه کلمات از قبل آموزش‌دیده word2vec، glove، BERT و RoBERTa مورداستفاده قرار گرفته است. سپس یک مدل ترکیبی مبتنی بر توجه ارائه می‌گردد که از شبکه‌های عصبی کانولوشنی و شبکه‌های حافظه طولانی کوتاه‌مدت دوطرفه استفاده می‌کند. نتایج نشان می‌دهد که درنظر گرفتن شکلک‌ها به عنوان ویژگی، سبب افزایش دقت مدل شده است، همچنین مدل پیشنهادی بر اساس چهار معیار ارزیابی دقت، صحت، فراخوانی و امتیاز f1 از مدل‌های پایه و کارهای قبلی بررسی شده، بهتر عمل کرده، که دقت مدل پیشنهادی بر روی مجموعه داده بدون شکلک 80/85 بوده و برای مجموعه داده شامل شکلک 18/90 است.

کلیدواژه‌ها


عنوان مقاله [English]

A framework for sentiment analysis of textual data and emoticons on social networks

نویسندگان [English]

  • Morteza Sharifi
  • Hojatollah Hamidi
K.N.Toosi University of Technology
چکیده [English]

Nowadays, people use emoticons in the text to increase their feelings or summarize expressions. Earlier machine learning techniques only involve the classification of text, emoticons, or images solely, whereas emoticons with text have most of the time been neglected. Research shows deep learning was rarely applied in sentiment analysis on text and emoticon data combination. Therefore, this article has analyzed the text and emoticons separately and in combination to find the emotions. First a comparative analysis of convolutional neural networks and long-short term memory networks is performed, to increase the accuracy of word embedding, pre-trained word embedding vectors word2vec, glove, BERT and RoBERTa were used. Then, a new hybrid attention-based model is presented, which uses convolutional neural networks and Bidirectional long-short term memory networks. The results show that considering emoticons as a feature increases the accuracy of the model, also the proposed model has performed better than the basic models and previously reviewed works based on the four evaluation criteria of accuracy, precision, recall, and f1 score that accuracy of the proposed model on the dataset without emoticons is 85.80 and on the dataset including emoticons is 90.18.

کلیدواژه‌ها [English]

  • Sentiment Analysis
  • Opinion mining
  • Natural Language Processing
  • Deep Learning