БАГАТОМІРНА МОДЕЛЬ ОЦІНЮВАННЯ СЕМАНТИЧНОЇ ЗАБАРВЛЕНОСТІ ПРИРОДНОМОВНИХ ТЕКСТІВ
Ключові слова:
система, сентимент-аналіз, семантична забарвленість, модель машинного навчання, класифікаціяАнотація
У роботі описується розробка системи класифікації емоційного сприйняття природномовних текстів, яка включає напрацювання у галузі семантичного аналізу, лінгвістики і когнітивної психології. Пропонується багатомірна модель розмітки і оцінювання семантичної забарвленості текстів природною мовою, у якій враховуєтся широкий спектр людських емоцій.
Наведено результати опрацювання розміченого експертами текстового корпусу, на якому в подальшому здійснювалось навчання системи, що була реалізована на основі моделей машинного навчання. Для побудови системи мультисентимент-класифікації текстів були використані Модель наївного Байєсівського класифікатора (BNM), Модель лінійної регресії (LRM) і Метод опорних векторів (SVM) у різних варіантах і конфігураціях.
Наводяться дані експериментів, проведених для перевірки ефективності і коректності моделі. Вони включають навчання та перевірку точності сентимент-класифікаторів, з використанням методу перехресного оцінювання (так званого методу крос-валідації – cross-validation method).
Запропонована модель відрізняється від стандартних підходів технології сентимент-аналізу, і дозволяє ідентифікувати широкий набір базових емоцій людини, що збільшує можливості визначення семантичної забарвленості тексту із подальшим використанням для вирішення завдань інформаційно-аналітичної діяльності в інтересах інформаційної безпеки. Результати проведених експериментів підтверджують ефективність і коректність розробленої моделі.