ІДЕНТИФІКАЦІЇ ОБ'ЄКТІВ В СЛАБОСТРУКТУРОВАНІЙ БАЗІ ДАНИХ

Автор(и)

  • С.В. Лєнков
  • В.М. Джулій
  • В.О. Осипа
  • І.А. Хлистун

Ключові слова:

база даних, нечіткий пошук, порівняння рядків, пошук даних, алгоритми, інформаційна система

Анотація

У статті розглянуті проблеми ідентифікації об'єктів в слабоструктурованій базі даних, а також  застосування результатів порівняльного аналізу для вирішення алгоритмів їх пошуку. Описаний алгоритм усунення дублювання записів в базі даних при наявності декількох джерел інформації і помилок операторського введення. Запропоновано алгоритм обчислення функції релевантності. Нечіткий пошук доцільно застосовувати при ідентифікації слів з друкарськими помилками, а також у тих випадках, коли виникають сумніви в правильному написанні персональних даних. Використані при реалізації нечіткого пошуку алгоритми засновані на особливій системі асоціативного доступу до слів, що містяться в текстовому індексі повнотекстового сховища документів. В якості одиниць пошуку використовуються ланцюжки букв, що складають слово. Для прискорення пошуку попередньо створюється спеціальний індекс, що містить фрагменти слів з посиланнями на слова, в яких ці фрагменти зустрілися. Алгоритм нечіткого пошуку дозволяє швидко відібрати всі слова, фрагменти яких співпадають з фрагментами слова в запиті, що лежать в заданому діапазоні допустимих спотворень. Алгоритм дозволяє: зберегти інформаційну цілісність, а також знизити зашумленість даних; виробляти об'єднання записів, в яких відсоток схожості по заданому набору полів  вище встановленої межі; виробляти усунення дублювань як на підставі автоматично налаштованих правил, так і з втручанням людини в особливо складних випадках.

Біографії авторів

С.В. Лєнков

доктор технічних наук, професор, Заслужений діяч науки і техніки України, Лауреат Державної премії України в галузі науки і техніки, начальник науково-дослідного центру, Військовий інститут Київського національного університету імені Тараса Шевченка (м. Київ, Україна)

В.М. Джулій

кандидат технічних наук, доцент, доцент кафедри комп’ютерних систем та мереж Хмельницького національного університету (м. Хмельницький, Україна)

В.О. Осипа

кандидат технічних наук, доцент, старший науковий співробітник, Військовий інститут Київського національного університету імені Тараса Шевченка (м. Київ, Україна)

І.А. Хлистун

магістр кафедри комп’ютерних систем та мереж,  Хмельницький національний університет (м. Хмельницький, Україна)

##submission.downloads##

Опубліковано

2016-11-24

Як цитувати

Лєнков, С., Джулій, В., Осипа, В., & Хлистун, І. (2016). ІДЕНТИФІКАЦІЇ ОБ’ЄКТІВ В СЛАБОСТРУКТУРОВАНІЙ БАЗІ ДАНИХ. Збірник наукових праць Військового інституту Київського національного університету імені Тараса Шевченка, (52), 129–134. вилучено із http://miljournals.knu.ua/index.php/zbirnuk/article/view/111

Номер

Розділ

ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ