ВІСНИК УНІВЕРСИТЕТУ "УКРАЇНА"

Серія "Інформатика, обчислювальна техніка та кібернетика"

МЕТОД ВИЯВЛЕННЯ КОРЕФЕРЕНТНИХ ПАР В УКРАЇНОМОВНОМУ ТЕКСТІ З ВИКОРИСТАННЯМ ЗГОРТКОВИХ НЕЙРОННИХ МЕРЕЖ





PDF version

УДК 004.85

 

МЕТОД ВИЯВЛЕННЯ КОРЕФЕРЕНТНИХ ПАР В УКРАЇНОМОВНОМУ ТЕКСТІ З ВИКОРИСТАННЯМ ЗГОРТКОВИХ НЕЙРОННИХ МЕРЕЖ

 

DOI 10.36994/2707-4110-2019-2-23-25

 

Погорілий С.Д., доктор технічних наук, професор, Київський національний університет імені Тараса Шевченка, Київ, Україна, sdp77@i.ua

Крамов А.А., Київський національний університет імені Тараса Шевченка, Київ, Україна, artemkramovphd@knu.ua

 

Анотація. Пошук кореферентних пар в тексті є однією з базових задач в галузі обробки природної мови. Сучасні методи знаходження кореферентних пар основані на алгоритмах машинного навчання і полягають у виявленні певних закономірностей між семантичними або граматичними властивостями сутностей тексту. В роботі проведено порівняльний аналіз існуючих методів пошуку кореферентних пар в англомовних та україномовних текстах. Недоліком багатьох методів є трактування задачі пошуку анафор в тексті як задачі класифікації. Результатом виявлення кореферентних об’єктів є набір груп, елементи яких посилаються на спільну сутність, тому пошук анафор в тексті доцільно розглядати як задачу кластеризації. Пропонується метод пошуку кореферентних сутностей в текстах, використовуючи поєднання відсіювальних решіт і моделі згорткової нейронної мережі. Реалізовано набір відсіювальних решіт для пошуку кандидатів для формування кореферентної пари та здійснено навчання багатоканальної згорткової нейронної мережі на розміченому корпусі української мови. Використання багатоканальної структури дозволяє окремо аналізувати різні компоненти одиниць тексту: семантичні, лексичні чи граматичні властивості слів і речень. Крім того, за допомогою згорткових шарів мережі можливо здійснювати обробку вхідних даних нефіксованого розміру, наприклад, слів чи речень тексту. Результатом роботи методу є набір кластерів. Формування кластерів передбачає врахування попередніх етапів роботи моделі, що суперечить традиційній методології машинного навчання. Таким чином, навчання мережі виконано з використанням алгоритму SEARN, що дозволяє вирішувати задачі з вихідною нефіксованою структурою за допомогою моделі‑класифікатора. Здійснено експериментальну перевірку методу на корпусі україномовних новин за допомогою обчислення відповідних метрик, що оцінюють точність вирішення задачі пошуку кореферентних пар як задачі кластеризації. Отримані результати вказують на доцільність використання пропонованого методу для знаходження кореферентних пар в україномовних текстах. Метод може бути адаптований і застосований для інших природних мов.

Ключові слова: кореферентні пари, згорткова нейронна мережа, набір відсіювальних решіт, кластеризація, семантичний і скалярний канали, бінарний класифікатор.

 

COREFERENT PAIRS DETECTION IN UKRAINIAN TEXTS USING

A CONVOLUTIONAL NEURAL NETWORK

 

Sergiy Pogorilyy, Doctor of Sciences, professor, Taras Shevchenko National University of Kyiv, Kyiv, Ukraine, sdp77@i.ua

Artem Kramov, Taras Shevchenko National University of Kyiv, Kyiv, Ukraine, artemkramovphd@knu.ua

 

Abstract. The detection of coreferent pairs within a text is one of the basic tasks in the area of natural language processing (NLP). The state‑of‑the‑art methods of coreference resolution are based on machine learning algorithms. The key idea of the methods is to detect certain regularities between the semantic or grammatical features of text entities. In the paper, the comparative analysis of current methods of coreference resolution in English and Ukrainian texts has been performed. The key disadvantage of many methods consists in the interpretation of coreference resolution as a classification problem. The result of coreferent pairs detection is the set of groups in which elements refer to a common entity. Therefore it is advisable to consider the coreference resolution as a clusterization task. The method of coreference resolution using the set of filtering sieves and a convolutional neural network has been suggested. The set of filtering sieves to find candidates for coreferent pairs formation has been implemented. The training process of a multichannel convolutional neural network on a marked Ukrainian corpus has been performed. The usage of a multichannel structure allows analyzing of the different components of text units: semantic, lexical, and grammatical features of words and sentences. Furthermore, it is possible to process input data with unfixed size (words or sentences of a text) using a convolutional layer. The output result of the method is the set of clusters. In order to form clusters, it is necessary to take into account the previous steps of the model’s workflow. Nevertheless, such an approach contradicts the traditional methodology of machine learning. Thus, the training process of the network has been performed using the SEARN algorithm that allows the solving of tasks with unfixed output structures using a classifier model. An experimental examination of the method on the corpus of Ukrainian news has been performed. In order to estimate the accuracy of the method the corresponding common metrics for clusterization tasks have been calculated. The results obtained can indicate that the suggested method can be used to find coreferent pairs within Ukrainian texts. The method can be also easily adapted and applied to other natural languages.

Keywords: coreferent pairs, convolutional neural network, set of filtering sieves, clusterization, SEARN algorithm, binary classifier.



Номер сторінки у виданні: 0

Повернутися до списку новин