Abstract and keywords
Abstract (English):
The task of developing tools to combat spam is currently focused on creating such techniques for detecting spam, which are endowed with the skills and qualities inherent in a person whose work is not limited to patterns and therefore highly effective. Man has the ability to detect spam signs, which is based on his own knowledge, experience and preferences. There has been substantiated the need to develop a new approach to solving the problem of detecting spam messages, which is based on heuristic methods of optimization, is effective at the initial stage of training and has a low frequency of false operations. This formulation of the problem fully corresponds to modeling mechanisms of the immune systems of living organisms that ensure their survival, these mechanisms being represented, investigated and used by software. There have been identified and described main mechanisms of artificial immune systems intended for solving the problem of spam detection, as well as software and system interacting. The basic concepts of constructing an artificial immune system for the purpose formulated above are determined: class of detectors, presentation of receptors and pathogens. A model of the relationships between them has been worked out. A technique for detecting spam based on the work of an artificial immune system is proposed, an algorithm for its implementation is developed, and the specifics of its members to identify spam messages are described. A software package with advanced research capabilities has been created. Testing and analysis of the results to determine the optimum values of the system operation parameters have been conducted.

Keywords:
antispam, affinity, detector, artificial immune system, spam
Text
Введение В современном обществе электронная почта стала незаменимым средством практически моментального обмена информацией в деловой и личной сферах. Однако при таком большом преимуществе в этом процессе есть и ряд негативных моментов, решению одного из которых и посвящена данная статья. Речь идет о спаме - массовой неперсонифицированной рассылке коммерческой, политической и иной рекламы или иного вида сообщений лицам, не выражавшим желания их получать, которая не только вызывает раздражение и недовольство получателей полезной информации, потерю их личного времени, отвлекает от выполнения служебных обязанностей, но и значительно увеличивает нагрузку на коммуникации, повышает трафик, снижает эффективность работы серверов [1-6]. Для обхода антиспам-фильтров отдельные пользователи или организации, заинтересованные в увеличении, например, рекламной рассылки, пытаются использовать любую возможность. Поэтому так актуальна потребность в разработке новых подходов, позволяющих повысить эффективность выделения нежелательной и очень часто вредоносной корреспонденции и исключить ее из потоков входящих сообщений. Постановка задачи и предлагаемый метод ее решения К технологиям, позволяющим получить высокоэффективные решения, превосходящие по своей результативности прочие часто используемые подходы, относятся те, которые реализованы в рамках систем искусственного интеллекта (СИИ). Человек как средство борьбы со спамом обладает способностью обнаружения его признаков, основываясь на собственном опыте и предпочтениях, знаниях о добровольных новостных и рекламных подписках, обучаемостью, его работа не сводится к шаблонам и потому высокоэффективна. Именно поэтому задача разработки средств борьбы со спамом в настоящее время сосредоточена на наделении их навыками и качествами, присущими человеку, с одной стороны, а с другой стороны - на использовании оптимизационных механизмов. Подобный вывод основан на результатах сравнительного анализа работы ряда существующих методов обнаружения спама по различным параметрам. Исследования показали, что целесообразно разработать новый, базирующийся на эвристических методах оптимизации, подход к решению поставленной задачи обнаружения спама, который бы имел малую частоту ложных срабатываний, но к тому же обладал большой эффективностью на начальной стадии обучения. Среди разнообразных компонент СИИ, моделирующих различные процессы живой природы, одним из наиболее перспективных методов обнаружения спама является создание искусственных иммунных систем (ИИС, или Artificial Immune Systems, AIS), где программным путем представлены, исследуются и используются свойства и механизмы живых организмов, обеспечивающих их выживание. В данной постановке описанная выше задача требует обеспечения выживания в потоке электронной почты полезной информации и отсеивания нежелательной. Биологическим прототипом ИИС является иммунная система человека, а точнее обработка информации в ней молекулами белков. Эта система представляет собой сложную адаптивную структуру, использующую комбинацию различных механизмов защиты от внешних и внутренних патогенов, в том числе любых микроорганизмов, способных вызывать патологическое состояние (болезнь) человека [7-9]. Основные современные методы борьбы со спамом можно разделить на следующие категории: методы, основанные на анализе содержимого письма; «белые» и «черные» списки; детекторы массовых рассылок; методы, основанные на верификации обратного адреса отправителя и его домена и др. В то же время следует отметить, что методы борьбы со спамом, основанные на лингвистических сигнатурах, правилах фильтрации сообщений, становятся все менее эффективными, т. к. требуют значительного увеличения трудозатрат специалистов на поддержание базы сигнатур и правил в актуальном состоянии. Некоторые из перечисленных выше методов борьбы со спамом были введены в разработанный программный комплекс для проведения сравнительного анализа их результатов с результатами функционирования предлагаемого подхода на основе ИИС. Эвристический подход к определению спама Структура иммунной системы. Защитная система человека имеет иерархическую многоуровневую структуру. Первый физический барьер на пути бактерий и вирусов - это кожный покров. Второй уровень защиты - биохимический, реализуется посредством продуктов потовых, слюнных и других желез. Третий и четвертый уровни представлены врожденным и приобретенным иммунитетом [10]. Иммунитет - способность специальных клеток организма опознавать, связывать и выводить из него вещества и структуры, происходящие из клеток других организмов или потерявшие сходство с клетками собственного тела, - чужеродных агентов (патогенов). Врожденный и приобретенный иммунитет работают именно в указанной последовательности. Вначале неспецифическую реакцию на патоген осуществляет врожденная иммунная система. Если же врожденная иммунная система с патогеном не справляется, то в схватку с ним вступает приобретенная иммунная система. В иммунном ответе организма участвуют два типа клеток - фагоциты и лимфоциты. Фагоциты - это клетки иммунной системы, основной функцией которых является поглощение антител (а также мертвых или погибающих клеток организма). Основная роль фагоцитов - осуществление функции врожденной иммунной системы. В наибольшей степени для использования в интеллектуальных системах (ИС) подходит приобретенный иммунитет, реализуемый предназначенными для этой цели клетками - лимфоцитами. Человек, ИС которого является биологическим прототипом ИИС, сохраняет свое здоровье до тех пор, пока уровень активности лимфоцитов, а значит и его иммунитет, достаточно высоки. Для поддержания этой способности на желательном для организма уровне требуется также сохранение определенного уровня активности некоторых видов клеток. Поддержка же иммунитета человека на необходимом уровне, в свою очередь, достигается благодаря непрерывным воздействиям на его организм патогенов, называемых антигенами. Если человека освободить от подобных воздействий, создать ему стерильную среду обитания, его иммунитет ослабнет. Антигены - макромолекулярные соединения с жесткой структурой (белки, пептиды, полисахариды, нуклеиновые кислоты, комплексные соединения и пр.), вызывающие иммунный ответ организма - иммунные реакции, поддерживающие активность лимфоцитов. Можно сказать, что антигены - это агенты, в ответ на появление которых в организме иммунная система образует специальные реагирующие с ними антитела. По функциональным признакам различают несколько типов лимфоцитов, главными из которых являются В-лимфоциты, осуществляющие распознавание антигенов и выработку антител. Среди В-лимфоцитов выделяют клетки «памяти», живущие относительно долго и хранящие в себе информацию о встреченных ранее организмом чужеродных белках. Распознавание антигенов В-лейкоцитами основано на комплементарности между рецепторами этих клеток и активными участками антигена, образующими его область сцепления. Комплементарностью называют пространственную взаимодополняемость молекул или их частей, приводящую к образованию связей между ними. У антител может быть только один рецептор, в то время как антигены могут иметь их большое число. При распознавании В-лимфоцитами антигенов совпадение образа антигена в рецепторах и встреченного антигена может быть неполным. Весьма важной характеристикой обсуждаемых процессов взаимодействия в ИИС антигена и антитела является значение функции аффинности (лат. affinitas - родственность), количественно описывающей силу взаимодействия веществ. Значение функции аффинности можно определить по закону действующих масс как отношение концентрации комплекса «антиген - антитело» к произведению концентраций компонентов. Искусственная иммунная система. Для создания ИИС необходимо выделить ее основные компоненты и определить математическую модель их функционирования. Перед ИИС обнаружения спама стоит задача создания механизма определения принадлежности сообщения к одному из двух подмножеств: «спам» - «не спам», т. е. задача классификации. С точки зрения решаемой задачи выделим следующие свойства ИС: 1. Распознавание своего и чужого - одна из основных задач ИС. 2. Выделение особенностей. Каждая антиген-клетка служит фильтром, фокусирующим внимание лимфоцитов-рецепторов. 3. Разнообразие. Иммунная система использует комбинаторный механизм для образования множества различных рецепторов лимфоцитов, гарантируя, что хотя бы один лимфоцит из всей совокупности сможет взаимодействовать с любым известным или неизвестным антигеном. Обучение состоит в изменении концентрации лимфоцитов, которое происходит при первичном ответе и заложено в механизме пополнения клонов с учетом текущего состояния системы. Память - это небольшая часть лимфоцитов, находящихся в активированном состоянии. 1. Распределенный поиск. По своей сути ИС - это распределенная система. 2. Саморегуляция. В зависимости от свойств антигена, регуляция иммунного ответа может быть как локальной, так и системной. 3. Пороговый механизм. Иммунный ответ и клонирование клеток происходит лишь после преодоления некоторого порога, зависящего от силы химических связей. 4. Совместная стимуляция. Активация В-лимфоцитов жестко регулируется при помощи дополнительного стимулирующего сигнала от хелперных Т-лимфоцитов, что помогает проводить различие между опасными и неопасными антигенами. 5. Вероятностное обнаружение. Перекрестные реакции в ходе иммунного ответа - это процесс стохастический. Лимфоцит может взаимодействовать с несколькими структурно сходными антигенами. Наиболее известной из теорий, объясняющих механизм производства антител ИС, является клонально-селекционная теория Бернета, в соответствии с которой при распознавании В-клетками антигена они стимулируются и начинают синтезировать антитела с той же специфичностью путем клонирования. При этом число клонов, произведенных В-лимфоцитом, пропорционально уровню его стимуляции. Процесс, который вызывает клонирование только тех В-клеток, которые синтезируют нужный тип антител, называют клональным отбором. Можно сказать, что клональный отбор создает подпопуляцию В-клеток, предназначенную для борьбы с соответствующим антигеном. После подавления проникновения в организм данного антигена большая часть клонированных В-клеток разрушается. Оставшиеся клетки реализуют функцию иммунной памяти, так что последующее воздействие похожего антигена приводит к более быстрой иммунной реакции. Данный подход лег в основу предлагаемой методики детектирования спама. Следует отметить, что в настоящее время для генерации и отбора клона разработан целый ряд алгоритмов, и это направление продолжает постоянно развиваться. Движением этого процесса, естественно, управляют те подлежащие решению прикладные задачи, где необходима оптимизация, и предпочтительно с помощью оптимизационных механизмов живой природы [10, 11]. Известны, например, алгоритмы адаптивного клонирования, предлагающие некоторые изменения на основе анализа операторов для выбора количества мутаций и количества клонов; алгоритмы, интегрирующие локальный поиск с глобальным поиском и многие другие. Детектирование спама на основе ИИС Лимфоциты на своей поверхности содержат множество рецепторов, связанных с определенной частью патогена. Лимфоцит может помечать в качестве «чужого» объекта тот патоген, на который среагировал его рецептор [11, 12]. В активное состояние лимфоцит переходит после того, как определенное количество его рецепторов среагирует на патоген. После этого происходит ряд химических реакций, которые в итоге уничтожают патоген. Используемая в работе модель обнаружения спама включает только один класс детекторов. Рецептор и патоген изначально представлены в виде строк, а химическая связь между ними смоделирована на основе соответствия этих строк. Степень соответствия двух строк может вычисляться различными методами. Одним из них является метод вычисления степени соответствия строк с применением модифицированного фонетического алгоритма Soundex. Принцип данного алгоритма основан на приведении текста к нижнему регистру, исключении пробелов, знаков препинания, гласных букв, мягкого и твердого знаков и разбиении согласных букв на группы с порядковыми номерами (табл. 1). Таблица 1 Соответствие букв и цифр-замены Буквы Цифра-замена Б, П 1 В, Ф 2 Г, К 3 Д, Т 4 З, С 5 Ж, Ш, Щ 6 Х, Ц, Ч 7 Л, М, Н 8 Р, Й 9 Для определения степени соответствия двух строк целесообразно применить коэффициент Танимото: где k - коэффициент Танимото от 0 до 1; а, b - количество элементов в первом и во втором множествах; c - количество общих элементов в двух подмножествах. Основная цель эволюционных методов оптимизации вообще и генетических алгоритмов (ГА) в частности состоит в определении лучших представителей своей популяции, наиболее приспособленных к текущим условиям, и передаче генов будущим поколениям [13, 14]. Для интеллектуальной системы детектирования спама определен ряд следующих операторов: формирование начальной популяции и обучение лимфоцитов, оператор мутации (ОМ), оператор рекомбинации или кроссовера (ОК), оператор репродукции (ОР), - которые играют важную роль в работе ИИС. Такая система при своем запуске нуждается в предварительном обучении. Иммунологическое обучение клеток. Рассмотрим механизм обучения с точки зрения ИИС. В начале работы моделируется детектор, который будет реагировать на спам: определяется длина строки детектора и происходит ее генерация случайным образом на основе генератора псевдослучайных чисел. На этом этапе обучения детекторы реагируют и на «спам», и на «не спам». Активированные детекторы на этой стадии процесса обучения программа уничтожает. Для начального обучения детекторов в ИИС задается период обучения T. Во время иммунологического обучения детекторы должны взаимодействовать с «легальной» корреспонденцией. После завершения периода обучения в случае активации детектора ИИС получит сигнал о том, что была распознана чужеродная клетка - спам. Специфические особенности операторов ИИС. В повышении точности детектирования нежелательной корреспонденции незаменимую роль играет ОМ. Мутация - стойкое изменение генотипа, происходящее под влиянием внешней или внутренней среды. Оператор мутации, включая в процесс поиска хромосомы с новыми свойствами, способствует расширению области поиска, позволяя системе выйти за пределы локального экстремума. Считается, что ОМ реализует «бесполое» размножение и является основным поисковым оператором эволюционных алгоритмов. Для осуществления мутации строк могут быть применены различные виды ОМ. Простейшим ОМ является одноточечный. При его реализации случайно выбирают ген в родительской хромосоме и, обменивая его на рядом расположенный ген, получают хромосому потомка. При использовании двухточечного ОМ случайным образом выбираются две точки разреза с последующей перестановкой генов. Пример такой мутации приведен в табл. 2. Таблица 2 Пример использования двухточечного оператора мутации До мутации A B C D E F После мутации A E C D B F В многоточечном ОМ происходит последовательный обмен генов, расположенных правее точек разреза друг с другом в порядке их расположения. Ген, расположенный правее последней точки разреза, переходит на место первого. Репродукция (селекция) - это процесс, посредством которого хромосомы, имеющие более высокое значение целевой функции, получают большую возможность для воспроизводства потомков, чем «худшие» хромосомы; элементы, выбранные для репродукции, обмениваются генетическим материалом. Различают несколько видов ОР. Наиболее простой и широко используемый метод селекции - это селекция на основе рулетки, или метод пропорционального отбора (рис. 1). Рис. 1. Колесо рулетки При его реализации вероятность того, что данный детектор попадет в итоговую выборку, определяется по формуле где f(i) - значение функции аффинности для данного детектора; ∑f(i) - сумма значений функций аффинности для всех детекторов. Число копий детектора, переходящее в следующее поколение, можно определить так: Ni= fi(x)/(x), где (x) - среднее значение целевой функции анализируемого детектора. Таким образом, лучшие детекторы дают большее число копий, средние просто остаются, а плохие вымирают. При элитной селекции в итоговую выборку попадают образцы с наибольшим значением функции аффинности. Турнирная селекция также отбирает образцы с наибольшей функцией аффинности, но уже из некоторой случайной выборки. Под функцией аффинности будем понимать отношение вида где R(i) - количество различных символов в соответствующих позициях детектора и патогена; ∑R(i) - количество символов у патогена. Оператору кроссовера в ИИС, так же как и в ГА, отводится весьма важная роль. Работоспособность подобных алгоритмов существенно зависит от выбора типа ОК, где комбинируются элементы родительских решений при построении решений-потомков. Задача оптимальной рекомбинации состоит в поиске наилучшего возможного результата ОК при заданных двух родительских решениях. Оператор кроссовера способствует образованию из уже имеющегося генетического материала новых свойств у потомков. Существует ряд модификаций оператора: двухточечный ОК (ДОК), многоточечный ОК (МОК), равномерный ОК (РОК) и др. Многие исследователи предлагают использовать случайный выбор возможных вариантов реализации ОК для конкретной прикладной задачи, в результате чего улучшить показатели среднего ожидаемого результата (рис. 2). Рис. 2. Случайный выбор оператора кроссовера Функционирование детектора после обучения. Последовательность действий на данном и последующих этапах функционирования ИИС сводится к следующему. Подается возможное спам-сообщение. В том случае, если пороговое значение детектора превышено не было, сообщение определяется как «не спам». Иначе, при превышении порогового значения, сообщение помечается как «спам» и детектор начинает создавать клоны, цикл жизни которых закончится, если те не попадут в выборку детекторов с максимальной функцией аффинности. Попавшие в выборку детекторы заносятся в базу данных ИИС, которую можно рассматривать в качестве базы прецедентов. Как было показано выше, ИИС, прошедшая обучение, должна обеспечивать выполнение следующих функций: - формирование выборки детекторов для применения оператора кроссовера; - получение новой выборки детекторов для применения оператора мутации; - поддержание постоянной численности популяции детекторов путем уничтожения детекторов с низким показателем функции аффинности; - занесение эффективных детекторов в память. Для реализации и исследования разработанной методики детектирования спама был создан программный комплекс [15, 16], обладающий расширенными возможностями, в их числе: - работа с базой данных «черных» и «белых» списков; - подключение к почтовому ящику с использованием логина и пароля; - возможность подключения различных модулей оптимизации; - получение и отправка сообщений. Определение оптимальных параметров системы детектирования спама Метод репродукции. На рис. 3 представлена зависимость точности определения спама от количества используемых детекторов и выбранного метода репродукции. Рис. 3. Определение спама с использованием различных методов репродукции: на основе рулетки, элитной селекции, турнирной селекции Коэффициент соответствия детектора и патогена. При увеличении значения коэффициента соответствия строки детектора строке патогена увеличивается и процент неложных срабатываний, но, в свою очередь, уменьшается точность распознавания спама. В результате поиска точки пересечения двух графиков установлено, что оптимальное значение коэффициента соответствия строки детектора строке патогена составляет 0,723. Количество символов строки детектора. В результате использования готового списка стоп-слов сайта antispamsniper.com было выяснено, что средняя длина слов и фраз, содержащихся в нежелательной корреспонденции, составляет порядка 8-12 символов. Так как детекторы в памяти системы содержатся в приведенном программном виде, то в результате преобразования готового списка стоп-слов сайта antispamsniper.com с использованием модифицированного алгоритма Soundex была определена эффективная длина детектора, равная 6 символам. Функционирование искусственной эволюционной системы при использовании оптимальных параметров. Таким образом, оптимальными значениями параметров функционирования эволюционной системы на базе механизмов ИИС для обнаружения спама являются: - коэффициент соответствия строки детектора строке патогена 0,723; - мутация строки детектора на основе одноточечного оператора; - репродукция на основе использования рулетки; - количество символов в детекторе 6. Процент ложных срабатываний при использовании выбранных параметров представлен на рис. 4. Рис. 4. Процент ложных срабатываний Подводя итоги проведенных экспериментов, можно сделать вывод, что с целью построения интеллектуальной системы, где в качестве базиса рассматривается ИИС, могут быть использованы и другие адаптированные к решаемой задаче механизмы и операторы эволюционных интеллектуальных подходов. Особенно интересны в этом плане обоснованные модификации таких механизмов, которые точнее и полнее учитывают специфику решаемой проблемы, а следовательно, создают условия для повышения эффективности построенной системы. Заключение В данной публикации изложен новый подход к решению задачи детектирования спама в рамках создания методики, интегрирующей в себе функции искусственной иммунной системы, биологическим прототипом которой является иммунная система человека, а точнее обработка информации в ней молекулами белков, и эвристических методов оптимизации, эффективных на начальной стадии обучения ИИС и имеющих малую частоту ложных срабатываний. Для реализации и исследования разработанной методики детектирования спама был создан программный комплекс, на основе которого проведен ряд экспериментов, позволивших оценить работоспособность данной методики и определить оптимальные значения базовых параметров полученной комбинированной интеллектуальной системы.
References

1. Astahov A. Kak pobedit' spamerov i umerit' pyl «Borcov so spamom»? // Zaschita informacii. Insayd. 2010. № 1 (31). S. 71-73.

2. Namestnikova M. Ekonomicheskoe spam-zerkalo // Zaschita informacii. Insayd. 2010. № 1 (31). S. 12-14.

3. Poludina V. P. Informacionnyy shum v internete kak problema potrebleniya kommunikacii // Zhurnal sociologii i social'noy antropologii. 2011. T. XIV. № 5. S. 386-394.

4. Mironenko A. N. Metod raspoznavaniya spam-soobscheniy na osnove analiza zagolovka pis'ma // Matematicheskie struktury i modelirovanie. 2010. № 1. S. 133-140.

5. Abu-Nimeh S., Chen T. M. Proliferation and detection of blog spam // IEEE Security and Privacy. 2010. Vol. 8. No. 5. S. 42-47.

6. Adamov A. Internet Technologies in Depth. The Technique of Spam Recognition Based on Header Investigating // 5th International Conference on Application of Information and Communication Technologies (Azerbaijan, Baku, 12-14 Oktober 2011). URL: www.adamov.net.ru (data obrascheniya: 21.01.18).

7. Iskusstvennye immunnye sistemy i ih primenenie: sb. st. / pod red. D. Dasgupty. M.: Fizmatlit, 2016. 344 s.

8. Chastikova V. A., Berezov M. Yu. Metodika obnaruzheniya polimorfnyh virusov na osnove iskusstvennyh immunnyh sistem i geneticheskih algoritmov // Politemat. setevoy elektron. nauch. zhurn. Kuban. gos. agrar. un-ta. 2016. № 124. S. 744-755.

9. Koromyslov N. A. O primenenii iskusstvennyh immunnyh sistem dlya obnaruzheniya incidentov informacionnoy bezopasnosti v sistemah so mnogimi parametrami // Reshetnevskie chteniya. 2013. T. 2. № 17. S. 299-301.

10. Karpenko A. P. Sovremennye algoritmy poiskovoy optimizacii. Algoritmy, vdohnovlennye prirodoy: ucheb. posob. M.: Izd-vo MGTU im. Baumana, 2014. 448 s.

11. Chastikova V. A. Identifikaciya mehanizmov realizacii operatorov geneticheskogo algoritma v ekspertnyh sistemah produkcionnogo tipa // Politemat. setevoy elektron. nauch. zhurn. Kuban. gos. agrar. un-ta. 2012. № 75. S. 308-320.

12. Emel'yanov V. V., Kureychik V. V., Kureychik V. M. Teoriya i praktika evolyucionnogo modelirovaniya. M.: Fizmatlit, 2013. 432 s.

13. Belov D. L., Antipova O. Yu., Chastikova V. A. Metody resheniya zadach s konfliktnymi situaciyami v sistemah prinyatiya resheniy // Tr. Kuban. gos. tehnolog. un-ta. 2000. T. 7. № 1. S. 153-159.

14. Malyhina M. P., Chastikova V. A., Vlasov K. A. Issledovanie effektivnosti raboty modificirovannogo geneticheskogo algoritma v zadachah kombinatoriki // Sovremennye problemy nauki i obrazovaniya. 2013. № 3. S. 32.

15. Malyhina M. P., Chastikova V. A. Programmirovanie na yazyke vysokogo urovnya C#: ucheb. posob. Krasnodar: Izd-vo KubGTU, 2011. 250 s.

16. Chastikova V. A., Berezov M. Yu. Opredelenie optimal'nyh parametrov funkcionirovaniya iskusstvennoy immunnoy sistemy dlya resheniya zadachi obnaruzheniya polimorfnyh virusov // Politemat. setevoy elektron. nauch. zhurn. Kuban. gos. agrar. un-ta. 2017. № 128. S. 430-440.


Login or Create
* Forgot password?