ДОСЛІДЖЕННЯ ЕФЕКТИВНОСТІ РОЗПОДІЛЕНИХ ІНФОКОМУНІКАЦІІЙНИХ СИСТЕМ НА ОСНОВІ ОБРОБЛЕННЯ ВЕЛИКИХ ОБСЯГІВ ДАНИХ
Ключові слова:
Розподілені системи, Big Data, Сингулярна декомпозиція даних, MPI, MapReduceАнотація
В роботі досліджено особливості обробки великих масивів інформації для розподілених систем. Застосовано метод сингулярної декомпозиції даних, завдяки якому можна зменшити обсяг оброблюваних даних, відкинувши надлишковість. Отримано залежності ефективності обчислень у розподілених системах із використанням протоколу обміну повідомленнями MPI та програмної моделі взаємодії вузлів MapReduce. Проаналізовано ефективність застосування кожної технології для обробки масивів даних різних розмірів. Визначено, що протокол MPI дозволяє ефективніше проводити обчислення невеликих обсягів інформації. При збільшення масивів даних доцільно застосовувати модель Map Reduce. В системах з розподіленими ресурсами пристрій обробляє лише певну частину даних, які надходять для обчислення. Після того, як окремі обчислювальні засоби проведуть опрацювання своїх задач, відбувається об’єднання всіх частин та отримується кінцевий результат. Далі пристрої отримують частини інших даних і т.д. Внаслідок такого підходу підвищується продуктивність системи, оскільки значно швидше опрацьовуються великі обсяги інформації. Розподілені обчислювальні системи мають ряд інших переваг, зокрема, масштабованість і надійність обробки та зберігання даних. В подібних системах дані розподіляються різними пристроями невеликими частинами, що значно зменшує втрату інформації при помилках і пошкодженні останньої Звичайні нерозподілені системи обробки даних неефективні для великого обсягів інформації через невисоку продуктивність обчислень. Пропонується використовувати розподілені системи, в яких використовують метод сингулярної декомпозиції даних, що дозволить зменшити обсяг оброблюваної інформації. В результаті дослідження систем з використанням протоколу MPI та моделі MapReduce отримано залежності тривалості обчислень від кількості процесів, які свідчать про доцільність використання розподілених обчислень при обробці великих масивів даних. Також визначено, що розподілені системи із застосуванням моделі обчислень MapReduce працюють значно ефективніше ніж за протоколом MPI, особливо при великому обсягу даних.