АЛГОРИТМ ПРИЙНЯТТЯ РІШЕННЯ ІДЕНТИФІКАЦІЇ ФІЗИЧНИХ ОСІБ НА ОСНОВІ СИСТЕМИ ПРАВИЛ І ВАГ
Ключові слова:
база даних, нечіткий пошук, порівняння рядків, пошук даних, алгоритми, інформаційна системаАнотація
Проведений аналіз напрямків розвитку сучасних баз даних показує, що склалися і формуються за останні роки тенденції розвитку інформаційних технологій істотно впливають на функціональні можливості автоматизованих систем. Задача встановлення відповідності між окремими об'єктами - побудова процедур ототожнення ускладнюється відсутністю серед загальних атрибутів відповідних один одному таблиць різних БД первинних ключів і наявністю помилок операторського введення. З урахуванням специфіки роботи з персональними даними пропонується вирішення наступних прикладних задач: повна ідентифікація клієнта при наявності спотворень інформації в базі даних або в пошукових запитах; усунення дублікатів записів при надходженні до БД з множинних джерел зі слабоструктурованою інформацією; пошук і коректування помилок в персональних даних клієнтів (фізичних і юридичних осіб). Укрупнений алгоритм даного підходу складається з трьох основних блоків: формування масиву «подібних» людей; використання не суворої відповідності серед масиву «подібних» людей; відпрацювання виняткових ситуацій. Дозволяє: виконувати функцію ідентифікації фізичної особи; при створенні реєстрів населення може допомогти при первинному об'єднанні накопичених відомчих БД; зберегти інформаційну цілісність, а також знизити зашумленість даних, обумовлену наявністю помилок операторського введення; виробляти об'єднання записів, відсоток схожості, по заданому набору полів яких вище встановленої межі.
Алгоритм ідентифікації фізичних осіб та алгоритм не суворого порівняння рядків, дозволяють оцінити ступінь схожості даних клієнтів. Розроблена система правил і ваг є основою для прийняття рішення по ідентифікації фізичних осіб.
На основі запропонованих алгоритмів розроблений програмний модуль, який призначений для пошуку та усунення дублікатів записів в базі даних за допомогою операції не суворої відповідності та інтегрується із засобами СУБД.