Назва статті

МЕТОД ВИЯВЛЕННЯ КОРЕФЕРЕНТНИХ ПАР В УКРАЇНОМОВНОМУ ТЕКСТІ З ВИКОРИСТАННЯМ ЗГОРТКОВИХ НЕЙРОННИХ МЕРЕЖ

Номер віснику

23

DOI:

10.36994/2707-4110-2019-2-23-25

Автори

Погорілий С.Д., д. т.н., проф., Київський національний університет імені Тараса Шевченка, Київ, Україна. sdp77@i.ua Крамов А.А., Київський національний університет імені Тараса Шевченка, Київ, Україна. artemkramovphd@knu.ua

Ключові слова

кореферентні пари, згорткова нейронна мережа, набір відсіювальних решіт, кластеризація, семантичний і скалярний канали, бінарний класифікатор

Анотація

Пошук кореферентних пар в тексті є однією з базових задач в галузі оброб-ки природної мови. Сучасні методи знаходження кореферентних пар основа-ні на алгоритмах машинного навчання і полягають у виявленні певних зако-номірностей між семантичними або граматичними властивостями сутно-стей тексту. В роботі проведено порівняльний аналіз існуючих методів по-шуку кореферентних пар в англомовних та україномовних текстах. Недоліком багатьох методів є трактування задачі пошуку анафор в тексті як за-дачі класифікації. Результатом виявлення кореферентних об’єктів є набір груп, елементи яких посилаються на спільну сутність, тому пошук анафор в тексті доцільно розглядати як задачу кластеризації. Пропонується метод пошуку кореферентних сутностей в текстах, використовуючи поєднання відсіювальних решіт і моделі згорткової нейронної мережі. Реалізовано набір відсіювальних решіт для пошуку кандидатів для формування кореферентної пари та здійснено навчання багатоканальної згорткової нейронної мережі на розміченому корпусі української мови. Використання багатоканальної стру-ктури дозволяє окремо аналізувати різні компоненти одиниць тексту: се-мантичні, лексичні чи граматичні властивості слів і речень. Крім того, за допомогою згорткових шарів мережі можливо здійснювати обробку вхідних даних нефіксованого розміру, наприклад, слів чи речень тексту. Результа-том роботи методу є набір кластерів. Формування кластерів передбачає врахування попередніх етапів роботи моделі, що суперечить традиційній методології машинного навчання. Таким чином, навчання мережі виконано з використанням алгоритму SEARN, що дозволяє вирішувати задачі з вихід-ною нефіксованою структурою за допомогою моделі класифікатора. Здійс-нено експериментальну перевірку методу на корпусі україномовних новин за допомогою обчислення відповідних метрик, що оцінюють точність вирішен-ня задачі пошуку кореферентних пар як задачі кластеризації. Отримані ре-зультати вказують на доцільність використання пропонованого методу для знаходження кореферентних пар в україномовних текстах. Метод може бути адаптований і застосований для інших природних мов.

  • Регистрация
  • Авторизация