МЕТОД ОЦІНКИ КОГЕРЕНТНОСТІ УКРАЇНОМОВНИХ ТЕКСТІВ З ВИКОРИСТАННЯМ ЗГОРТКОВОЇ НЕЙРОННОЇ МЕРЕЖІ
DOI:
https://doi.org/10.17721/2519-481X/2019/65-08Ключові слова:
когерентність тексту, згорткова нейронна мережа, семантична узгодженість речень, за-дача розрізнення документів, задача вставкиАнотація
Задача оцінки когерентності тексту є однією із актуальних задач комп’ютерної лінгвістики. Аналіз цілісності текстової інформації використовується для написання та відбору документів, що дозволяють передати читачу ідею автора у зрозумілий спосіб. Важливість цієї задачі підтверджує наявність актуальних робіт, присвячених її вирішенню. Автоматизовані методи оцінки цілісності тексту основані на методології машинного навчання, що полягають у формалізованому представленні тексту та подальшому виявленні закономірностей для формування вихідного результату. Метою роботи є аналітичний огляд різних методів оцінки цілісності тексту; обґрунтування вибору методу та здійснення його адаптації відповідно до особливостей української мови; виконання експериментальної перевірки ефективності роботи пропонованого методу для україномовного корпусу.
В роботі здійснено порівняльний аналіз методів оцінки когерентності англомовних текстів на основі методології машинного навчання. За результатами проведеного аналізу обґрунтовано доцільність застосування методів з використанням попередньо навчених універсальних моделей формалізованого представлення елементів тексту. До таких методів відносяться моделі на основі нейронних мереж різної архітектури: рекурентні та згорткові мережі. Такі типи мереж використовуються для обробки текстів, адже дозволяють здійснювати обробку вхідних даних нефіксованого розміру – речень чи слів. Незважаючи на властивість рекурентних мереж враховувати попередні дані, що певним чином відтворює процес сприйняття інформації читачем, для проведення експериментального дослідження обрано згорткову нейронну мережу. Такий вибір обумовлений здатністю згорткових мереж відслідковувати зв’язки між сутностями незалежно від відстані між ними. В роботі детально описано принцип роботи методу на основі згорткової нейронної мережі, розглянуто її архітектуру. Для перевірки ефективності роботи розглянутого методу на множині україномовних текстів створено застосування з використанням згорткової нейронної мережі. Формалізоване представлення елементів тексту здійснено за допомогою попереднього навчання моделі семантичного представлення слів на корпусі україномовних анотацій наукових статей. Виконано навчання сформованої мережі з використанням навченої моделі. Проведено експериментальну перевірку ефективності роботи методу на множині наукових статей для вирішення задач розрізнення документів і вставки. На основі отриманих результатів можна зробити висновок про доцільність використання згорткової нейронної мережі для оцінки когерентності україномовних текстів.