ВІСНИК УНІВЕРСИТЕТУ "УКРАЇНА"

Серія "Інформатика, обчислювальна техніка та кібернетика"

ШТУЧНИЙ ІНТЕЛЕКТ ТА МАШИННЕ НАВЧАННЯ В ЗАДАЧАХ СТЕГАНОАНАЛІЗУ ДАНИХ





УДК 004.056.55

 

ШТУЧНИЙ ІНТЕЛЕКТ ТА МАШИННЕ НАВЧАННЯ

В ЗАДАЧАХ СТЕГАНОАНАЛІЗУ ДАНИХ

 

DOI 10.36994/2707-4110-2019-2-23-20

Версія статті в PDF: ШТУЧНИЙ ІНТЕЛЕКТ ТА МАШИННЕ НАВЧАННЯ В ЗАДАЧАХ СТЕГАНОАНАЛІЗУ ДАНИХ 

Шматок О.С. к.т.н., доцент, Відкритий міжнародний університет розвитку людини «Україна», м. Київ, Україна, sh_al_st@ukr.net

Фіненко Ю.І. Національний авіаційний університет, м. Київ, Україна, talaveryuriy@gmail.com

Єлізаров А.Б., к.т.н., доцент, Національний авіаційний університет, м. Київ, Україна

Телющенко В.А., Національний авіаційний університет, м. Київ, Україна

 

Анотація. У даній статті розглянуто основні методи аналізу даних, що лежать в основі сучасних пошукових алгоритмів. Проведено класифікацію методів машинного навчання та показана принципова різниця між ними. Описано математичні аспекти класифікації об’єктів. Розглянуто принцип і можливості застосування алгоритмів машинного навчання для захисту інформаційних систем. Запропоновано концепцію побудови нового методу аналізу каналів зв’язку. Проведено аналіз основних статистичних характеристиках заповненого та порожнього контейнеру та їх відмінність. Розглянуто та систематизовано теоретичні основи машинного навчання та розпізнавання образів в умовах невідомої вхідної інформації. При використанні алгоритмів навчання без вчителя, найкращий результат досягається для контейнерів в яких статистичні характеристики достатньо різняться між собою, а для алгоритмів де класифікація відбувається з вчителем, коли статистичні характеристики практично однакові, результат дозволяє зробити оцінку про наповненість контейнеру. Також розглянуто практичне застосування теоретичних алгоритмів класифікації на основі реальних вхідних контейнерів. Аналіз методів машинного навчання дозволив побачити переваги та недоліки представлених алгоритмів. Результатом дослідження є можливість пристосування технологій машинного навчання для потреб захисту даних завдяки аналізу каналів зв’язку на предмет прихованої інформації. Було досліджено реакцію алгоритмів, коли статистичні характеристики порожнього та заповненого контейнерів практично однакові. Отримані експериментальні результати, що дозволяють зробити висновок про ефективність розроблених нових методів стеганоаналізу при обсязі вбудованої інформації більше 10% від максимально можливого. Крім того, запропоновані методи можуть бути застосовані для стеганоаналізу всього класу стеганографічних алгоритмів, що використовують при встановленні умов візуальної якості зображень. В рамках стеганоаналізу дозволяє зробити висновок про доцільність використання таких алгоритмів в даній області.

Ключові слова: машинне навчання, контейнер, класифікація.

 

ARTIFICIAL INTELLIGENCE AND MACHINE TRAINING

IN TASKS OF DATA STEGANANALYSIS

 

Alexander Shmatok, Ph.D., Open International University of Human Development "Ukraine", Kyiv, Ukraine, sh_al_st@ukr.net

Yuriy Fnenko, National Aviation University, Kyiv, Ukraine, talaveryuriy@gmail.com

Anatoly Elizarov, Ph.D., National Aviation University, Kyiv, Ukraine

Valentine Telushchenko, National Aviation University, Kyiv, Ukraine

 

Abstract. The basic methods of analysis of data that are the basis of modern searching algorithms are considered in this article. Classification of methods of machine studies is conducted and the shown fundamental difference between them. The mathematical aspects of classification of objects are described. Principle and possibi­lities of application of algorithms of machine studies are considered for defence of the informative systems. Conception of construction of new method of analysis of communication channels offers. An analysis is conducted basic statistical descriptions filled and empty to the container and their difference. Theoretical bases of machine studies and recognition of patterns are considered and systematized in the conditions of unknown entrance information. At the use of algorithms of studies without a teacher, the best result is arrived at for containers in that statistical descriptions differ enough inter se, and for algorithms where classification takes place with a teacher, when statistical descriptions are practically identical, a result allows to do an estimation about gap-fillingness to the container. Practical application of theoretical algorithms of classification is also considered on the basis of the real entrance containers. The analysis of methods of machine studies allowed to see advantages and lacks of the presented algorithms. A research result is possibility of adaptation of technologies of machine studies for the necessities of defence of the communication channels given due to an analysis for the purpose the hidden information. The reaction of algorithms was investigational, when statistical descriptions of empty and filled containers are practically identical. Got experimental results that allow to draw conclusion about efficiency of the worked out new methods of стеганоаналізу at the volume of built-in information anymore 10% from maximally possible. In addition, offer methods can be applied for стеганоаналізу of all class of стеганографічних algorithms that use for establishment of terms of visual quality of images. Within the framework стеганоаналізу allows to draw conclusion about expedience of the use of such algorithms in this area.

Keywords: machine learning, container, classification.

 

Вступ

Немає сумнівів, що штучний інтелект і машинне навчання протягом останніх кількох років знайшли широку популярність. Як технології Data Mining утримують статус самого обговорюваного IT-тренда сучасності, так і алгоритми машинного навчання можна вважати найпотужнішим інструментом, орієнтованим на аналіз великих обсягів даних. Один з найбільш глобальних прикладів використання машинного навчанняалгоритми Netflix, які пропонують подивитися кінострічки на підставі тих, що користувач бачив раніше. Але застосування методів машинного навчання тільки для прогнозування вподобань клієнтів сервісів, це лише маленька частина того де може застосовуватися алгоритми аналізу даних.

У сфері інформаційної безпеки алгоритми Data Mining поки що застосовуються в DLP системах для аналізу вихідних даних на предмет комерційної таємниці та інших критичних даних, також технологія застосовується для ідентифікації користувачів в системах, наприклад Apple FaceID або Windows Hello. Однак є ще одна не менш важлива задача у сфері захисту інформації, це викриття прихованих алгоритмів, які можуть нанести непоправну шкоду інформаційним системам, здійснюється через відкриті канали зв’язку ззовні за допомогою методів стеганографії. Виявлення таких алгоритмів та каналів управління ними є пріоритетними напрямками сфери кібербезпеки. Виявлення таких каналів зв’язку являється досить трудоємкою задачею навіть для існуючих методів та систем стеганоаналізу [1,2]. У загальному випадку це не так, так як досить часто доводиться обробляти невеликі набори даних, і знаходити в них закономірності нітрохи не простіше, ніж в сотнях мільйонів записів. Використання методів стеганоаналізу та машинного навчання дозволить ефективніше виявляти приховані загрози інформаційним системам. Тому розробка нових стегано-криптографічних методів захисту інформації є актуальною науково-практичною задачею.

 

Типи машинного навчання

Традиційно машинне навчання поділяють на навчання з учителем (su­per­vi­sed), навчання без вчителя (unsupervised) і навчання з підкріпленням (reinforce­ment learning) [3,4].

Методи навчання з учителем застосовуються тоді, коли для наявних об'єктів навчальної вибірки ми знаємо так звані відповіді, а для нових об'єктів ми хочемо їх передбачити. Відповіді також називаються залежною змінною. В цьому класі задач в свою чергу виділяється кілька типів відповідей.

У завданнях першого типу відповідями є значення деякої чисельної величини, тобто для кожного об'єкта навчальної вибірки ми знали кількість подій, а для нового об'єкта модель це значення передбачала. Цей тип завдань, коли залежна змінна є дійсним числом (тобто може приймати будь-які значення на всій числовій прямій), називається завданням регресії.

У завданнях другого типу відповіді належать обмеженого набору можливих категорій (або класів). Такий тип завдань, коли необхідно відносити об'єкти до однієї з кількох можливих категорій, тобто коли залежна змінна приймає кінцеве число значень, називається завданням класифікації. Це може бути використано для класифікації контейнерів за допомогою навчальних вибірок, які були сформовані на основі 100% ймовірності того, що конкретний контейнер заповнений чи ні [5, 6].

Методи навчання без учителя використовуються, коли ніяких правильних відповідей немає, є тільки об'єкти і їх ознаки, а завдання полягає в тому, щоб визначити структуру безлічі цих об'єктів.

До таких належить задача кластеризації: є сукупність об'єктів, і необхідно розбити їх на групи так, щоб в одній групі знаходилися об'єкти, схожі один на одного. Це може бути використано для класифікації контейнерів на два класи: заповнений та порожній, коли є певна кількість контейнерів і ми до класифікації не знаємо, які з цих контейнерів заповнені, а який ні.

Крім навчання з учителем і без вчителя, існують і більш вишукані типи завдань. Наприклад, в частковому навчанні відповіді відомі тільки для частини об'єктів вибірки, і на основі отриманих відповідей відбувається донавчання конкретних моделей, тобто це системи зі зворотнім зв’язком.

Класифікація алгоритмів машинного навчання

До методів навчання з вчителем належить:

  • Метод найменших квадратів або лінійна регресія;
  • Дерево прийняття рішення;
  • Наївна байєсівська класифікація;
  • Метод опорних векторів;

До методів навчання без вчителя належить:

  • Алгоритми кластеризації;
  • Метод головних компонент;
  • Сингулярне розкладення;
  • Метод незалежних компонент;

Для вирішення поставлених задач використаємо два типи контейнерів, їх гістограму та бітовий зріз найменш значимого біту [7].

 

 

 

     Рис. 1. Порожній контейнер

 

 

Дерево прийняття рішень — засіб підтримки прийняття рішень, яке використовує деревовидний граф або модель прийняття рішень, а також можливі наслідки їх роботи, включаючи ймовірність настання події, витрати ресурсів і корисність. З точки зору рішення, дерево класифікації є мінімальною кількістю питань «так / ні», відповівши на які, можна зробити вірний вибір. Якщо розглядати дерево як метод, то воно дозволяє підійти до вирішення проблеми зі структурованою і систематичної боку, щоб в результаті прийти до логічного висновку.

Перевагою даного методу є простота реалізацій, але основним недоліком для застосування в стеганоаналізі є бінарність вибору, що не притаманне контейнерам через їх складність. Але даний метод буде працювати досить вдало для бінарних зображень такі як QR-код, тощо.

Рис. 7. Дерево прийняття рішення про заповненість контейнера

 

Лінійна регресія (Linear regression) — модель залежності змінної x від однієї або декількох інших змінних (факторів, регресорів, незалежних змінних) з лінійною функцією залежності.

Лінійна регресія відноситься до задачі визначення «лінії максимальної відповідності умовам» через набір точок даних і стала простим попередником нелінійних методів, які використовують для навчання нейронних мереж. Метод полягає в мінімізації евклідової відстані між двома векторами — вектором відновлених значень залежної змінної і вектором фактичних значень залежної змінної. В рамках стеганоаналізу дозволяє характеристики контейнеру (наприклад — частотна характеристика) розділити лінійною функцією на ті значення, які можуть мати відношення до заповненого чи порожнього контейнеру.

Лінійна регресія передбачає, що функція f залежить від параметрів Описание: \mathbf{w} лінійно (1). При цьому лінійна залежність від вільної змінної x необов’язково,

                                     

(1)

 

У разі, коли функція  лінійна регресія (2) має вигляд

                                       

(2)

тут xj компоненти вектора x.

Значення параметрів в разі лінійної регресії знаходять з допомогою методу найменших квадратів Використання цього методу обґрунтовано припущенням про гаусовский розподіл випадкової змінної величини.

Різниці yi f(xi) між фактичними значеннями залежної змінної і відновленими називаються регресійний залишками (residuals) Однією з важливих оцінок критерію якості отриманої залежності є сума квадратів залишків (3, 4)

                                       

(3)

SSE — Sum of Squared Errors.

                                                       

(4)

 

MSE — Mean Square Error, середньоквадратична помилка.

 

 

Рис. 8. Гістограма зображення

та лінійна функція класифікації

порожнього контейнера

Рис. 9. Гістограма зображення

та лінійна функція класифікації

повного контейнера

 

На рис. 8 та 9 зображено гістограму зображення та лінію по центру яка і є функцією класифікації, де над лінією знаходяться пікселі з незміненою яскравістю, а знизу під лініє — пікселі з модифікованими яскравостями. Якщо порівняти ці дві гістограми то видно що евклідова відстань для порожнього контейнера буде менша ніж для заповненого [6]. Перевагою дано методу є наочність отриманого результату, а недоліком — розкид точок параметрів може бути мінімальний і класифікація буде працювати некоректно.

Метод опорних векторів (SVM) — це набір алгоритмів, що використовуються для задач класифікації та регресійного аналізу. Основним завданням алгоритму є знайти найбільш правильну лінію, або гіперплощину, що розділяє дані на два класи. SVM це алгоритм, який отримує на вході дані, і повертає таку розділяє лінію.

Розглянемо задачу знаходження найкращого в деякому сенсі поділу безлічі векторів на два класи (5) за допомогою лінійної вирішальної функції. Нехай є без­ліч прецедентів , де

                        

(5)

Потрібно за навчальною вибіркою побудувати лінійну вирішальну функції, тобто таку лінійну функцію , яка задовольняла б умові (6)

 

                                           

(6)

 

З огляду на те, що в N-вимірному просторі кожен об'єкт належить одному з двох класів, SVM генерує (N-1) — мірну гіперплощину з метою поділу цих точок на дві групи. Це як якщо б ви на папері зобразили точки двох різних типів, які можна лінійно розділити. Крім того, що метод виконує сепарацію об'єктів, SVM підбирає гіперплощину так, щоб та характеризувалася максимальним віддаленням від найближчого елемента кожної з груп. В рамках стеганоаналізу даний метод дозволяє сегментувати вибрані точки між групами.

Наприклад на рис. 5 та 6 представлений бітовий зріз пікселів червоного кольору заповненого контейнера. На рис. 10 SVM згенерував площини в яких знаходяться модифіковані пікселі. Отриманий результат дозволяє зробити висновок про те що даний контейнер має вбудовані дані.

Описание: untitled1

Рис. 10. Сегментований бітовий зріз пікселів на групи

 

Висновок

Пошук прихованої інформації в контейнері є досить складною задачею. Тому на допомогу в аналізі даних приходять методи технології Data Mining. Результатом дослідження є можливість пристосування технологій машинного навчання для потреб захисту даних завдяки аналізу каналів зв’язку на предмет прихованої інформації. В рамках стеганоаналізу дозволяє зробити висновок про доцільність використання таких алгоритмів в даній області. Також було досліджено реакцію алгоритмів, коли статистичні характеристики порожнього та заповненого контейнерів практично однакові. Отримані експериментальні результати, що дозволяють зробити висновок про ефективність розроблених нових методів стеганоаналізу при обсязі вбудованої інформації більше 10% від максимально можливого. Крім того, запропоновані методи можуть бути застосовані для стеганоаналізу всього класу стеганографічних алгоритмів, що використовують при встановленні умов візуальної якості зображень.

 

Література

  1. Конахович Г.Ф. Защита информации в телекоммуникационных системах — К.: МК-Пресс. 2014. — 334 с.
  2. Грибунин, В. Г. Цифровая стеганография / В. Г. Грибунин, И. Н. Оков, И. В. Туринцев. — М.: Солон-Пресс, 2002
  3. Хохлова Д. (2016). Бум нейросетей: Кто делает нейронные сети, зачем они нужны и сколько денег могут приносить, 12.06.2016. Режим доступа: https://vc.ru/16843-neural-networks (дата обращения: 06.09.2018).
  4. Dong D., Wu H., He W., Yu D. and Wang H. (2015). Multi-task learning for multiple language translation // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, July 26–31. P. 1723-1732.
    1. S. Shmatok, A. B. Petrenko, A. B. Yelizarov, V. A. Tytov, E. A. Borysenko Permission of signals in the first order discrete tracing measuring devices according to the areas of capture, Science-Based Technologies, 2013. № 4 (20) P. 184–188.
  1. S. Shmatok, PhD; A. B. Petrenko, PhD; A. B. Yelizarov Simulation of geo­metric attacks against transmission systems of the hidden information, Science-Based Technologies, 2015. № 4 (28) P. 317–322.
  1. Стивен С., Цифровая обработка сигналов. Практическое руководство для инженеров и научных работников. California Technical Publishing Сан-Диего, Калифорния, США 1997.

 

References

  1. Konakhovich GF Information protection in telecommunication systems — K.: MK-Press. 2014 — 334 p.
  2. Gribunin, VG Digital steganography / VG Gribunin, IN Okov, IV Turintsev. — M.: Solon-Press, 2002
  3. Khokhlova D. (2016). Neural Network Boom: Who Makes Neural Networks, Why They Need It, and How Much Money They Can Make, 06/12/2016. Access mode: https://vc.ru/16843-neural-networks (accessed: 06/09/2018).
  4. Dong D., Wu H., He W., Yu D. and Wang H. (2015). Multi-task learning for multiple language translation // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, July 26–31. P. 1723–1732.
    1. S. Shmatok, A. B. Petrenko, A. B. Yelizarov, V. A. Tytov, E. A. Borysenko Permission of signals in the first order discrete tracing measuring devices according to the areas of capture, Science-Based Technologies, 2013. № 4 (20) P. 184–188.
  5. S. Shmatok, PhD; A. B. Petrenko, PhD; A. B. Yelizarov Simulation of geometric attacks against transmission systems of the hidden information, Science-Based Technologies, 2015. № 4 (28) P. 317–322.
  6. Steven W. Smith The Scientist and Engineer's Guide to Digital Signal Processing. California Technical Publishing San Diego, CA, USA 1997.
  7. _______________________________________

Рецензент д.т.н., проф. Писарчук О.О,

зав кафедри інженерії програмного забезпечення.

Національний авіаційний університет,

Київ, Україна



Номер сторінки у виданні: 219

Повернутися до списку новин