The article considers a corporate taxonomy concept as a hierarchical classification of organization or administration, a form of organizing data (documents, digital assets, etc.). There is given the idea of the corporate taxonomy of seaports, branched hierarchy of concepts, objects and subjects of ports, extracted from the hidden knowledge of unstructured textual information and studied for the classification of electronic documents and other sources of information. It has been stated that one of the highest forms of human intellectual activity is understanding and extracting semantic units with their organization into a hierarchical structure. The most convenient and effective method of indirect identification is the method of comparative identification, which deductively uses the basic provisions of the theory of intelligence. There are considered processes of data processing in organizational information systems, surjective imaging, where each element of the value domain has at least one prototype. A system of logical equations showing the regularities of signal processing is given. The logical scheme of using the method of comparative identification for extracting non-obvious knowledge is illustrated. To compile the corporate taxonomy it is necessary to identify classes of conditional equivalence (in addition to classes of unconditional equivalence) that contain groups of close semantic units and have common features that will be grouped into one taxon. The descriptors of lexical units are presented. It has been inferred that the method of comparative identification used to create the corporate taxonomy allows to move from the subjective perception of meanings to the objective relationship between the documents in the automated system of seaports and the semantic units represented by keywords, headings, etc.
modeling, corporate taxonomy, comparatory identification, logistics, sea port
Введение
Основой структуры управления знаний в морской компании является корпоративная таксономия – иерархическая классификация организации или администрации, используемая с целью классифицирования документов, цифровых активов и другой информации, с помощью которой осуществляется не только накопление знаний и данных, но и координация отдельных элементов системы управления знаниями. В настоящее время исследования проводятся в направлении разработки метода компараторной идентификации, использующего основные положения теории интеллекта. Корпоративная таксономия представляет собой разветвленную иерархию понятий, объектов и субъектов интереса портов, извлекаемых из скрытых неочевидных знаний неструктурированной текстовой информации и используемых для классификации электронных документов и других источников информации. При автоматизации процесса составления корпоративной таксономии моделируется одна из высших форм интеллектуальной деятельности человека – понимание и извлечение смысловых единиц с их организацией в иерархическую структуру. Для решения задачи извлечения и иерархического структурирования смысловых единиц не представляется возможным использовать метод прямой идентификации. Как и в большинстве случаев для интеллектуальной обработки информации, эффективными становятся методы косвенной идентификации, наиболее удобным из которых является метод компараторной идентификации, дедуктивным способом использующий основные положения теории интеллекта.
Материалы и методы исследования
Сущность реализации компараторного метода состоит в следующем: на вход системы подается множество сигналов, представляющих собой условные знаки, служащие для передачи информации x1, x2, ..., xn (тексты документов, ключевые слова и словосочетания, области знаний менеджеров по логистике, выражаемые терминологическими понятиями, классы универсальной десятичной классификации (УДК), значения рубрикаторов и т. д.).
Входные сигналы берутся из конечных множеств x1, x2, ..., xn, причем x1 Î Х1, x2 Î Х2, ..., xn Î Хn. В результате работы системы обработки электронной информации на выход поступает определенное множество элементов y1, y2, ..., yn, представляющих результат интеллектуальной деятельности (смысл текста, денотат, дескриптор, таксон, рубрика и т. д.) [1]. При этом y1 Î Y1, y2 Î Y2, ..., yn Î Yn. Элементы y1, y2, ..., yn однозначно зависят от сигналов x1, x2, ..., xn, они связаны с помощью функций y1 = f1(x1), y2 = f2(x2), …, yn = fn (xn), которые ставят в соответствие каждому x1 Î Х1, x2 Î Х2, ..., xn Î Хn элемент y1 Î Y1, y2 Î Y2, ..., yn Î Yn.
Так как каждому из сигналов xi Î Xi соответствует вполне определенный элемент yi Î Yi, то каждая из функций fi представляет собой сюръекцию, отображающую множество Xi на множество Yi, I Î {1, 2, ..., n}. Отображение f: x ® y называется сюръективным (или сюръекцией), если каждый элемент множества Y является образом хотя бы одного элемента множества X, т. е. "y Î Y $ x Î X: y = f (x), а также предиката q = Q (y1, y2, ..., yn), соответствующего отношению Q.
В общем случае система получает k заданий, которые выполняет поочередно для различных наборов входных сигналов [2]. Закономерности обработки сигналов записываются в виде системы логических условий:
K1 (L1, L2, ..., Lk) = 1;
K2 (L1, L2, ..., Lk) = 1; (1)
Ki (L1, L2, ..., Lk) = 1,
связывающих между собой предикатные переменные L1, L2, ..., Lk. Здесь K1, K2, ..., Kj – предикаты от предикатов L1, L2, ..., Lk. Предикат L1(x1, x2, …, xn), I Î {1, 2, …, k} задан на декартовом произведении X1i, X2i, X3i , ..., Xni. Решение L1 = P1, L2 = P2, ..., Lk = Pk удовлетворяет системе уравнений (1).
Доказано, что возникает необходимость в косвенной идентификации. В данном случае наиболее удобный метод компараторной идентификации можно применять для идентификации физических и интеллектуальных объектов системы, которая удовлетворяет трем условиям: система имеет два входа x, y, один выход t и реализует предикат t = E (x, y) [3].
Цель настоящего исследования – разработка методологии применения компараторной идентификации, использующей основные положения теории интеллекта автоматизированных систем управления морскими портами.
Для решения задачи извлечения и иерархического структурирования смысловых единиц не представляется возможным использовать классический метод прямой идентификации, состоящий в определении закона преобразования y = F(x) сигнала по входному x и выходному y сигналам, при непосредственном доступе к выходным сигналам объекта.
Результаты исследований
Реализация метода компараторной идентификации для извлечения скрытых неочевидных знаний из неструктурированной текстовой информации автоматизированной системы управления может быть представлена логической схемой (рис.).
Функция понимания информации |
Функция понимания смысловой единицы f (t) |
Смысловая |
Документ d Î D |
e Î {0,1} |
Смысл w w Î Â |
Понятие r |
Реализация метода компараторной идентификации для извлечения неочевидных знаний
Документ, значением текста которого является d, определяет и понимает менеджер по логистике порта, формирует в своем сознании представление о нем [4]. Возьмем определение – смысл однозначно определяется породившим его текстом документа – и примем его равным w.
Функцию w = g(d) зависимости смысла документа от материального носителя (т. е. от документа) с зафиксированной на нем в электронной форме информацией в виде текста, имеющего реквизиты, позволяющие его идентифицировать, назовем функцией понимания текста документа [5]. Множество значений функции g, т. е. совокупность всех смыслов, отображаемых документами из множества D, будем обозначать Â. Функция g отображает множество D на множество Â. Один и тот же смысл может быть заложен в текстах различных документов. Считаем, что тексты d1 и d2 тождественны по смыслу, если в результате осмысленного решения проблемы понимания [6] менеджером по логистике порта однозначно решается некоторая проблема, посредством осмысления существенных отношений и структуры ситуации.
Воспринимая смысловую единицу t, определяемую множеством ключевых слов или словосочетаний, значений УДК и рубрикатора T, и определяя диапазон лексических единиц, специалист по логистике порта сопоставляет эти данные с определенным последовательным изложением r. Под этим изложением следует понимать обобщенное суждение о объекте, которое несет t о всевозможных константах, выражая его сущность, и по общим и специальным признакам относит его к предметам определенного класса.
Функцию r = f (t) соответствия смысловой единицы t множества T концепту r назовем функцией понимания смысловой единицы. Эта функция описывает процесс преобразования ключевого слова, значения УДК или рубрикатора в совокупность суждений о каком-либо объекте, т. е. в преобразование его в концепт или понятие. Если менеджер порта рассмотрел множество смысловых единиц T, то множество всех значений функции f, т. е. совокупность всех понятий, порождаемых элементами из множества T, будем обозначать q. Функция f отображает множество T на множество q. При этом множество q £ T. Может оказаться, что разнообразие понятий меньше разнообразия знаков значений УДК и рубрикатора, т. е. возможны такие элементы t множества T, которые соответствуют одному понятию.
Ключевые слова или словосочетания, классы УДК и рубрики, относимые менеджером к одному концепту, будем называть безусловно эквивалентными.
Для составления корпоративной таксономии необходимо, кроме классов безусловной эквивалентности, выделить классы условной эквивалентности, включающие группы близких смысловых единиц, имеющие общие признаки, которые и будут собираться в один таксон.
Обсуждение результатов исследований
Таксон включает множество объектов, имеющих один или несколько общих содержательных признаков. Смысловые единицы, входящие в класс условной эквивалентности, соответствуют близким по смыслу концептам, относящимся к одному дескриптору. Под дескриптором понимается обозначение точки заданного пространства данной предметной области, выражаемое вербально или кодом и определяющее класс близких по смыслу смысловых единиц множества T. Дескрипторы лексических единиц, соответствующих близким по смыслу концептам, как подтверждают исследования [7], часто рассматриваются в одном связном тексте, который, особенно в деловых документах порта, характеризуется единой тематикой. Таким образом, метод компараторной идентификации позволяет автоматически разделять тексты документов полнотекстовых баз данных на тождественные (по отношению к областям знаний менеджера) и разбивать информационные смысловые единицы, выражаемые ключевыми словами, рубриками и классами УДК, на классы эквивалентностей, определяющие таксоны верхнего ранга, позволяя автоматизировать процесс разработки корпоративной таксономии.
Заключение
Представлена реализация метода компарации при работе с информационными объектами корпоративной системы, в том числе для извлечения скрытых неочевидных знаний из неструктурированной текстовой информации.
Метод компаративной идентификации использован для создания корпоративной таксономии, что в дальнейшей работе позволит перейти от субъективного восприятия смыслов к объективному отношению между документами в автоматизированной системе морских портов и смысловыми единицами, представленными ключевыми словами, тэгами, словосочетаниями и рубриками документов.
1. Dorovskoi V. A. Identifikatsiia professional'nykh znanii operatorov avtomatizirovannykh sistem upravleniia: dis. … d-ra tekhn. nauk [Identification of professional knowledge of operators of automated control systems: diss. … dr. tech. sci.]. Kherson, 2004. 412 p.
2. Logistika: prakticheskaia entsiklopediia [Logistics: a practical encyclopedia]. Pod redaktsiei V. I. Sergeeva. Moscow, Izd-vo MTsFER, 2007. 200 p.
3. Sergeeva V. I. Korporativnaia logistika. 300 otvetov na voprosy professionalov [Corporate logistics. 300 answers to questions from professionals]. Moscow, Infra-M Publ., 2004. 967 p.
4. Zhelezniak A. A., Bordiug A. S., Zhukov V. A. Sozdanie lingvisticheskikh pravil upravleniia sudnom dlia povysheniia nadezhnosti raboty SEU [Developing linguistic rules of ship management to increase reliability of ship power plants]. Sbornik nauchnykh trudov professorsko-prepodavatel'skogo sostava Gosudarstvennogo universiteta morskogo i rechnogo flota imeni admirala S. O. Makarova. Saint-Petersburg, Izd-vo GUMRF im. adm. S. O. Makarova, 2016. Pp. 36-44.
5. Zhelezniak A. A., Bordiug A. S., Titov I. L. Modelirovanie elementov identifikatsii i kontrolia parametrov sistemy dlia intellektual'noi podderzhki priniatiia reshenii [Modeling elements of identification and control of system parameters for intelligent decision support]. Vestnik Astrakhanskogo gosudarstvennogo tekhnicheskogo universiteta. Seriia: Morskaia tekhnika i tekhnologiia, 2016, no. 3, pp. 75-85.
6. Bondarenko M. F., Shabanov-Kushnarenko S. Iu., Shabanov-Kushnarenko Iu. P. Ob obshchei teorii komparatornoi identifikatsii [On general theory of comparative identification]. Bionika intellekta, 2008, no. 2 (69), pp. 13-22.
7. Balashov E. P. Evoliutsionnyi sintez sistem: monografiia [Evolutionary synthesis of systems: monograph]. Moscow, Radio i Sviaz' Publ., 1985. 328 p.