МЕТОД НАБЛИЖЕНОГО ПОШУКУ ТА ІДЕНТИФІКАЦІЇ ФІЗИЧНИХ ОСІБ
Ключові слова:
база даних, наближений пошук, порівняння рядків, пошук даних, алгоритм, інформаційна система, ключ подібностіАнотація
В статті запропонований метод наближеного пошуку та ідентифікації фізичних осіб, який дозволяє оцінити ступінь подібності неточно сформульованих або пошкоджених даних.
Проведений аналіз даних надає можливість виділити основні види втрат, що виникають внаслідок помилок і спотворень інформації в базах даних: втрати внаслідок невірного, не якісного надання послуг («брак» в інформації); втрати оплачуваного часу співробітників на непродуктивну діяльність; втрати внаслідок використання неоптимальних технологічних послідовно виконуваних процесів. Продуктивність і ефективність будь-якої системи зберігання інформації безпосередньо залежить від ефективності та продуктивності пошукових систем. Саме пошукова система визначає, чи перетворяться в знання численні розрізнені дані, що надходять по різних каналах зв'язку і накопичуються в різноманітних базах даних та електронних архівах.
Стає актуальною задача розробки спеціальних методів і технологій текстового пошуку з використанням нетривіальних рішень.
Метод наближеного пошуку та ідентифікації фізичних осіб розроблений на основі функції релевантності, процедури формування ключа подібності, відстані Левенштейна і процедури наближеного пошуку на базі модифікації алгоритму прямого перебору. При цьому ключ подібності використовується як в ручному введенні інформації в якості підказки при занесенні даних, про клієнта, так і в пошукових запитах, в яких беруть участь персональні дані. Відстань Левенштейна використовується як ранжуюча функція при виведенні результатів. Спеціально розроблена процедура наближеного пошуку застосовується виключно до пошуку по довгих рядках. Даний алгоритм використовує умову неперевищення порогів ідентифікації та дозволяє підвищити ефективність роботи користувачів в випадках роботи з неточно сформульованими або пошкодженими даними.