КЛАСИФІКАЦІЯ ТЕКСТІВ НА ПРИРОДНІЙ МОВІ ЗА ДОПОМОГОЮ НЕЙРОННОЇ МЕРЕЖІ

Автор(и)

  • І.М. Шпінарева
  • О.А. Геренко
  • К.Ю. Морозова

Ключові слова:

автоматична класифікація текстів, статистичні міри, TF-IDF, TF-SLF, нейронна мережа, навчання нейронної мережі

Анотація

У статті були досліджені проблеми класифікації текстів на природній мові з використанням методів машинного навчання, зокрема за допомогою нейронних мереж. Визначено актуальність досліджень в направленні подання текстового документа у вигляді математичного вектора. У якості векторної моделі використовується "мішок термів". У статті розглядаються підходи побудови векторної моделі статистичними мірами TF-IDF або TF-SLF і класифікації текстів нейронними мережами прямого поширення. Проводиться порівняння ефективності класифікації для кожного з підходів при різних ознаках і обсягах вибірок. Процес класифікації текстів проходить в три етапи. На етапі передобробці в вхідному тексті видаляються стоп-слова і виконується стемінг. На етапі визначення ознак тексту обчислюються статистичні міри TF-IDF або TF-SLF. На третьому етапі класифікація виконується двошаровою нейронною мережею з прямими зв'язками і безперервною функцією активації (сигмоид). Мережа була навчена методом зворотного поширення ошібок. Зроблений аналіз і порівняння якості роботи різних методів класифікації за такими характеристиками, як точність, повнота.

##submission.downloads##

Опубліковано

2018-10-05

Як цитувати

Шпінарева, І., Геренко, О., & Морозова, К. (2018). КЛАСИФІКАЦІЯ ТЕКСТІВ НА ПРИРОДНІЙ МОВІ ЗА ДОПОМОГОЮ НЕЙРОННОЇ МЕРЕЖІ. Збірник наукових праць Військового інституту Київського національного університету імені Тараса Шевченка, (59), 171–177. вилучено із http://miljournals.knu.ua/index.php/zbirnuk/article/view/322

Номер

Розділ

ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ