Назва статті

МЕТОДИ ЕКСТРАКЦІЇ СТРУКТУРОВАНИХ ДАНИХ З ВЕБ-СТОРІНОК

Номер віснику

19

DOI:

Автори

Крамов А. А., Погорілий С. Д.

Ключові слова

екстракція даних; методи екстракції даних; класифікація методів екстракції даних; генерація шаблону веб-сторінок; тернарне дерево HTMLсторінки; формування регулярного виразу.

Анотація

Методи екстракції структурованих даних з веб-сторінок використовуються для виділення даних, необхідних користувачу, серед множини HTMLсторінок. Зважаючи на постійне збільшення обсягу інформації та відсутність стандартизованого формату представлення даних в мережі Internet, варто звернути увагу на неконтрольовані методи екстракції даних, які полягають у відсутності аналізу розмітки веб-сторінок користувачем власноруч. Неконтрольовані методи екстракції даних дозволяють виявити дані серед множини веб-сторінок, сформованих спільним сценарієм, але різними наборами даних. В роботі проаналізовано основні методи екстракції структурованих даних з множини веб-сторінок. Розглянута класифікація методів за ступенем автоматизації (фактору впливу користувача) процесу формування шаблону. Детально описані принципи роботи основних неконтрольованих методів (Roadrunner, FiVaTech, Trinity), розглянуті їхні переваги та недоліки. Обґрунтовано переваги використання методу Trinity порівняно з іншими методами.

PDF version