ВІСНИК УНІВЕРСИТЕТУ "УКРАЇНА"

Серія "Інформатика, обчислювальна техніка та кібернетика"

ЛАТЕНТНО-СЕМАНТИЧНИЙ АНАЛІЗ, СОЦІАЛЬНІ МЕРЕЖІ ТА НЕСТРУКТУРОВАНІ ДАНІ: МЕТОДИКА ВЗАЄМОДІЇ





PDF version

УДК 123.4.567.89

 

ЛАТЕНТНО-СЕМАНТИЧНИЙ АНАЛІЗ, СОЦІАЛЬНІ МЕРЕЖІ
ТА НЕСТРУКТУРОВАНІ ДАНІ: МЕТОДИКА ВЗАЄМОДІЇ

 

DOI 10.36994/2707-4110-2019-2-23-29

 

Машковський С.С., аспірант, Відкритий міжнародний університет розвитку людини «Україна», Київ, Україна. mssss@ukr.net

 

Анотація. Цілі даної праці: опис та оцінка методу латентно-семан­тич­ного аналізу (ЛСА) в контексті досліджень з семантичного пошуку у неструктурованих мережах. Завдання дослідження: всебічна оцінка ЛСА, його переваг та недоліків і пошук на основі проведеної оцінки шляхів удосконалення методу ЛСА, реалізація алгоритму для пошуку даних, що пов'язані з наперед заданим пошуковим запитом, у великих текстових масивах, а саме соцмережах, розробка прикладних програмних засобів для роботи зі створеним алгоритмом. Предмет дослідження — метод латентно-семантичного аналізу та/або теоретичні обґрунтування оптимізації його роботи.

Ключові слова: семантичний пошук, онтологія, латентно-семантичний аналіз, інформаційний аналіз, контекстний пошук, соціальна мережа, текст.

 

LATENT-SEMANTIC ANALYSIS, SOCIAL NETWORKS AND NON-STRUCTURED DATA: INTERACTION METHOD

 

Serhiy Mashkovskyi, postgraduate student, Open University of Human Deve­lop­ment «Ukraine», Kyiv, Ukraine. mssss@ukr.net

 

Abstract. This article examines the method of latent-semantic analysis, its advantages, disadvantages, and the possibility of further transformation for use in arrays of unstructured data, which make up most of the information that Internet users deal with. To extract context-dependent word meanings through the statistical processing of large sets of textual data, an LSA method is used, based on operations with numeric matrices of the word-text type, the rows of which correspond to words, and the columns of text units to texts. The integration of words into themes and the representation of text units in the theme space is accomplished by applying one of the matrix expansions to the matrix data: singular decomposition or factorization of nonnegative matrices. The results of LSA studies have shown that the content of the similarity of words and text is obtained in such a way that the results obtained closely coincide with human thinking. Based on the methods described above, the author has developed and proposed a new way of finding semantic links between unstructured data, namely, information on social networks. The method is based on latent-semantic and frequency analyzes and involves processing the search result received, splitting each remaining text (post) into separate words, each of which takes the round in n words right and left, counting the number of occurrences of each term, working with a pre-created semantic resource (dictionary, ontology, RDF schema, ...). The developed method and algorithm have been tested on six well-known social networks, the interaction of which occurs through the ARI of the respective social networks. The average score for author's results exceeded that of their own social network search. The results obtained in the course of this dissertation can be used in the development of recommendation, search and other systems related to the search, rubrication and filtering of information.

Keywords: semantic search, ontology, latent-semantic analysis, information analysis, contextual search, social network, text.



Номер сторінки у виданні: 0

Повернутися до списку новин