ІДЕНТИФІКАЦІЇ ОБ'ЄКТІВ В СЛАБОСТРУКТУРОВАНІЙ БАЗІ ДАНИХ
Ключові слова:
база даних, нечіткий пошук, порівняння рядків, пошук даних, алгоритми, інформаційна системаАнотація
У статті розглянуті проблеми ідентифікації об'єктів в слабоструктурованій базі даних, а також застосування результатів порівняльного аналізу для вирішення алгоритмів їх пошуку. Описаний алгоритм усунення дублювання записів в базі даних при наявності декількох джерел інформації і помилок операторського введення. Запропоновано алгоритм обчислення функції релевантності. Нечіткий пошук доцільно застосовувати при ідентифікації слів з друкарськими помилками, а також у тих випадках, коли виникають сумніви в правильному написанні персональних даних. Використані при реалізації нечіткого пошуку алгоритми засновані на особливій системі асоціативного доступу до слів, що містяться в текстовому індексі повнотекстового сховища документів. В якості одиниць пошуку використовуються ланцюжки букв, що складають слово. Для прискорення пошуку попередньо створюється спеціальний індекс, що містить фрагменти слів з посиланнями на слова, в яких ці фрагменти зустрілися. Алгоритм нечіткого пошуку дозволяє швидко відібрати всі слова, фрагменти яких співпадають з фрагментами слова в запиті, що лежать в заданому діапазоні допустимих спотворень. Алгоритм дозволяє: зберегти інформаційну цілісність, а також знизити зашумленість даних; виробляти об'єднання записів, в яких відсоток схожості по заданому набору полів вище встановленої межі; виробляти усунення дублювань як на підставі автоматично налаштованих правил, так і з втручанням людини в особливо складних випадках.##submission.downloads##
Опубліковано
2016-11-24
Як цитувати
Лєнков, С., Джулій, В., Осипа, В., & Хлистун, І. (2016). ІДЕНТИФІКАЦІЇ ОБ’ЄКТІВ В СЛАБОСТРУКТУРОВАНІЙ БАЗІ ДАНИХ. Збірник наукових праць Військового інституту Київського національного університету імені Тараса Шевченка, (52), 129–134. вилучено із http://miljournals.knu.ua/index.php/zbirnuk/article/view/111
Номер
Розділ
ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ