Введение Классификация наблюдений (или задача принятия решения) находит своё применение при решении задач в профессиональной деятельности. Класс таких задач представляет собой множество постановок, когда исследователь имеет некоторый объект (это может быть товар, услуга и др.) и набор характеризующих его признаков (например, цена, качество и др.), взвесив которые он принимает некоторое решение относительно имеющегося объекта (купить, продать и др.). В настоящее время для решения задач подобного класса применяются математические модели дискретного выбора: logit- и probit-модели, частным случаем которых выступает модель дискриминантного анализа [1-11]. Требование по выполнению основных предположений дискриминантного анализа, таких как непрерывность, независимость и нормальное распределение входных факторов в реальных условиях, сильно ограничивает круг задач, для решения которых может применяться эта модель [12, 13]. Logit- и probit-модели менее требовательны к входным данным, а следовательно, являются более гибкими [12, 13]. Для того чтобы сделать выбор в пользу какой-либо модели, необходимо исследовать каждую из них в отдельности на заданных наборах данных с точки зрения качества классификации. Кроме того, зная, что в основе logit- и probit-моделей лежат логистическое и нормальное распределения соответственно, разумно предположить, что можно построить модель с каким-либо другим распределением в её основе. Таких распределений существует великое множество, и в идеале хотелось бы иметь качественную универсальную модель для решения широкого спектра задач. Для достижения желаемого результата предлагается строить новую модель на основе некоторого универсального семейства распределений. Следует отметить, что ранее универсальные семейства распределений уже использовались при построении регрессионных зависимостей (см., например, [14, 15]). Это решение разумно ввиду того, что универсальные семейства имеют большое варьирование форм, среди которых существуют и хорошо известные законы распределений. В качестве такого «оптимального» закона мы, в рамках нашего исследования, предлагаем выбрать семейство обобщённого нормального распределения. При варьировании собственных параметров это распределение описывает такие известные частные законы, как нормальный и логистический. Исследование новой модели проводится с точки зрения качества классификации и сравнения полученных результатов с работой logit-модели. Постановка задачи Пусть зависимая переменная принимает одно из двух значений: 0 или 1 в зависимости от наступления или ненаступления некоторого события. В качестве вектора значений входных признаков для каждого -го наблюдения будем рассматривать вектор , - значение -го фактора для -го наблюдения, , . Для описания зависимости вероятности наступления события от входных факторов построим модель, основное уравнение которой записывается в виде , где - некоторая функция. Обычно в качестве используют одну из функций распределения, величина определяется как линейная комбинация входных факторов: , где - вектор неизвестных параметров. Методы решения Оценивание проводится по набору значений независимых переменных и соответствующих им значений зависимой переменной . Обычно для этого используется метод максимального правдоподобия, согласно которому необходимо максимизировать значение функции правдоподобия. Однако на практике удобнее использовать логарифмированное выражение для функции правдоподобия: . (1) Традиционно в качестве выбирается логистическая или нормальная функция распределения, в этом случае мы получим logit- и probit-модель соответственно. Однако, если вероятность наступления некоторого события описывается законом, отличным от логистического и нормального, качество классификации будет ухудшаться в зависимости от характера различия эмпирического и модельного законов распределения. Именно поэтому предлагается строить модель, основанную на семействе одного из универсальных распределений. Преимуществом этого выбора является то, что такие семейства распределений при варьировании собственных параметров имеют частными случаями некоторые уже известные законы распределения. Из формулы (1) видно, что в качестве необходимо выбирать распределения, определённые на всей действительной оси, т. е. . В связи с этим было принято решение использовать обобщённое нормальное распределение с неизвестными параметрами : . Обобщённое нормальное распределение представляет собой параметрическое семейство распределений. Оно включает в себя нормальное распределение, распределение Лапласа, а также равномерное распределение на ограниченных интервалах действительной прямой. Распределение из данного семейства является нормальным при (с математическим ожиданием µ и дисперсией ) и является распределением Лапласа при . Данное семейство демонстрирует наличие хвостов распределения, которые тяжелее нормальных при и легче нормальных при [16]. Для оценки качества классификации была использована доля неверно классифицированных наблюдений, которая, с учетом специфики постановки, может быть вычислена следующим образом: , где - прогнозное значение зависимой переменной. Так как обобщенное нормальное распределение зависит от параметров, то вместо следует использовать . Выбирая значения неизвестных параметров специальным образом, можно проводить процедуру классификации на качественно более высоком уровне. Очевидно, что при варьировании значений параметров будет изменяться значение величины . Таким образом, возникает ещё одна задача: минимизировать данную ошибку классификации: . (2) Следует отметить: возможны случаи, когда рассмотренные модели не будут работать совсем в связи с тем, что при определённых значениях факторов и коэффициентов (значения параметров ) аргумент функции может оказаться «слишком большим» или наоборот. Функция примет свои экстремальные значения, которые несовместимы с корректной обработкой функции правдоподобия при подборе неизвестных параметров методом максимального правдоподобия. В этом случае рекомендуется провести предварительную нормировку входных факторов. Далее рассмотрим точность классификации новой модели и традиционной модели логистической регрессии. Результаты экспериментов Исследование работоспособности logit-модели и модели, построенной на основе обобщённого нормального распределения с дополнительной процедурой оптимизации (2), проводилось на основе вычислительных экспериментов. С целью исследования качества классификации при различных зависимостях в исходных данных независимые переменные представлялись как выборки из следующих непрерывных законов распределения: нормальный - N, экспоненциальный - Exp, обобщённое нормальное распределение с тяжёлыми и лёгкими хвостами (GN(1), GN(10)). Выходная переменная - бинарная случайная величина с вероятностью успеха, моделируемой на основе нормального закона распределения. Количество наблюдений, соответствующих значению , равно , а наблюдений, соответствующих значению , - соответственно . В рамках нашего исследования полагалось . Общее количество наблюдений , при этом очевидно, что . В табл. 1-3 приведены значения показателя Err при решении задач классификации по оценённым значениям параметров уравнения (1) и параметров обобщённого нормального закона распределения. Обозначения, принятые в таблицах: F_Logit - при построении модели использована logit-функция; F_GN1 - при построении модели использована функция обобщённого нормального закона распределения при фиксированных значениях параметров (, , ); F_GN2 - при построении модели использована функция обобщённого нормального закона распределения с решением дополнительной задачи оптимизации (2). Probit-модель была исключена из рассмотрения в связи с тем, что на более ранних этапах исследования при решении задач классификации с её применением был получен результат, эквивалентный (или ещё менее точный) результату, полученному при решении задач с применением logit-модели. Таблица 1 Значения показателя Err для модели с одной переменной Закон m F_Logit F_GN1 F_GN2 F_GN2 -F_Logit F_Logit/ F_GN2 N 50 0.00E+00 0.00E+00 0.00E+00 0.00E+00 - 100 0.00E+00 0.00E+00 0.00E+00 0.00E+00 - 200 0.00E+00 0.00E+00 0.00E+00 0.00E+00 - 500 0.00E+00 4.00E-06 0.00E+00 0.00E+00 - Exp 50 0.00E+00 4.00E-05 4.00E-05 4.00E-05 0.000 100 2.00E-05 4.00E-05 0.00E+00 -2.00E-05 - 200 2.00E-05 2.00E-05 2.00E-05 0.00E+00 1.000 500 4.00E-05 6.80E-05 4.00E-06 -3.60E-05 10.000 GN (1) 50 0.00E+00 2.00E-04 4.00E-05 4.00E-05 0.000 100 1.00E-04 1.80E-04 2.00E-05 -8.00E-05 5.000 200 9.00E-05 2.60E-04 3.00E-05 -6.00E-05 3.000 500 1.88E-04 3.16E-04 2.00E-05 -1.68E-04 9.400 GN (10) 50 8.00E-04 9.20E-04 0.00E+00 -8.00E-04 - 100 7.20E-04 7.80E-04 0.00E+00 -7.20E-04 - 200 8.80E-04 8.80E-04 8.80E-04 0.00E+00 1.000 500 9.68E-04 9.76E-04 3.60E-05 -9.32E-04 26.889 Таблица 2 Значения показателя Err для модели с тремя переменными Закон m F_Logit F_GN1 F_GN2 F_GN2 -F_Logit F_Logit/ F_GN2 N 50 4.00E-05 4.00E-05 8.00E-05 4.00E-05 0.500 100 0.00E+00 4.00E-05 0.00E+00 0.00E+00 - 200 0.00E+00 0.00E+00 5.00E-05 5.00E-05 0.000 500 0.00E+00 6.40E-05 4.00E-06 4.00E-06 0.000 Exp 50 0.00E+00 0.00E+00 0.00E+00 0.00E+00 - 100 2.00E-05 4.00E-05 2.00E-05 0.00E+00 1.000 200 3.00E-05 1.40E-04 4.00E-05 1.00E-05 0.750 500 2.40E-05 2.80E-05 1.20E-05 -1.20E-05 2.000 GN (1) 50 0.00E+00 1.60E-04 8.00E-05 8.00E-05 0.000 100 6.00E-05 3.40E-04 8.00E-05 2.00E-05 0.750 200 4.00E-05 1.80E-04 1.00E-05 -3.00E-05 4.000 500 1.64E-04 3.04E-04 4.00E-06 -1.60E-04 41.000 GN (10) 50 4.80E-04 6.40E-04 1.20E-04 -3.60E-04 4.000 100 6.00E-04 7.20E-04 2.00E-04 -4.00E-04 3.000 200 6.70E-04 8.20E-04 1.00E-05 -6.60E-04 67.000 500 8.88E-04 9.20E-04 1.20E-04 -7.68E-04 7.400 Таблица 3 Значения показателя Err для модели с пятью переменными Закон m F_Logit F_GN1 F_GN2 F_GN2 -F_Logit F_Logit/ F_GN2 N 50 4.00E-05 8.00E-05 0.00E+00 -4.00E-05 - 100 0.00E+00 6.00E-05 0.00E+00 0.00E+00 - 200 6.00E-05 1.30E-04 0.00E+00 -6.00E-05 - 500 1.52E-04 5.20E-05 1.60E-05 -1.36E-04 9.500 Exp 50 1.20E-04 8.00E-05 8.00E-05 -4.00E-05 1.500 100 2.00E-04 1.00E-04 2.00E-05 -1.80E-04 10.000 200 8.00E-05 7.00E-05 3.00E-05 -5.00E-05 2.667 500 1.00E-04 2.24E-04 6.40E-05 -3.60E-05 1.563 GN (1) 50 2.00E-04 2.00E-04 2.00E-04 0.00E+00 1.000 100 1.40E-04 2.80E-04 1.40E-04 0.00E+00 1.000 200 3.70E-04 3.30E-04 1.50E-04 -2.20E-04 2.467 500 3.44E-04 3.40E-04 2.40E-04 -1.04E-04 1.433 GN (10) 50 6.80E-04 7.20E-04 6.00E-04 -8.00E-05 1.133 100 8.20E-04 8.40E-04 5.00E-04 -3.20E-04 1.640 200 8.50E-04 9.40E-04 6.60E-04 -1.90E-04 1.288 500 8.88E-04 8.88E-04 8.84E-04 -4.00E-06 1.005 Из приведённых выше таблиц видно, что с точки зрения качества классификации при больших объёмах выборки (m = 500) решение задачи (2) оказывается стабильно лучше решения с применением logit-модели (в среднем в 9,2 раза). Исключение составляет случай, когда входные факторы распределены по нормальному закону (количество факторов менее пяти) - результат решения задачи (2) эквивалентен решению задачи классификации с применением logit-модели. При увеличении количества переменных с одной до трёх и пяти, модель, построенная на основе обобщённого нормального закона распределения, показывает лучшее решение на большем наборе тестов. Дополнительная процедура подбора параметров семейства распределения позволила улучшить решение задачи классификации с применением logit-модели до 10 раз при расширенном наборе факторов (количество факторов - 5). В целом усовершенствованный метод классификации показывает лучшее решение в сравнении со стандартной logit-моделью на большинстве рассмотренных наборов данных. В среднем это лучше в 4,7 раза. Как уже было сказано выше, значение параметра формы β обобщенного нормального закона распределения позволяет получить информацию о характере отклонения итогового распределения от нормального в сторону тяжёлых или лёгких хвостов. Рассмотрим подробнее вид распределений оценённых значений параметра формы, полученных в ходе вычислительных экспериментов при различных условиях. В случае, когда признаки распределены по нормальному закону при больших объёмах выборок () и количестве переменных менее пяти, хвосты закона распределения, наилучшим образом описывающего вероятностную модель, становятся тяжёлыми. Это явление продемонстрировано на рис. 1, 2. На горизонтальной и вертикальной осях отображены сгруппированные значения параметра β и частота их появления соответственно. Чем выше столбцы гистограммы, расположенные левее , тем тяжелее хвосты итогового распределения, и наоборот, чем больше количество столбцов и их высота на промежутке , тем легче хвосты эмпирического распределения, наилучшим образом описывающего вероятностную модель. а б Рис. 1. Параметр β для моделей: а - с тремя; б - с пятью переменными (m = 200) а б Риc. 2. Параметр β для моделей: а - с тремя; б - с пятью переменными (m = 500) Если входные факторы - выборка из закона распределения с тяжёлыми хвостами, итоговая модель содержит распределения с тяжёлыми хвостами, независимо от количества факторов и объёмов выборок (рис. 3, а, б). а б Рис. 3. Параметр β для моделей: а - с одной переменной (m = 500); б - с пятью переменными (m = 500) При распределении независимых переменных по закону с лёгкими хвостами, характер закона распределения в основе вероятностной модели сохраняется аналогично случаю, описанному ранее: наилучшую модель образуют распределения с лёгкими хвостами. Исключение составляют выборки больших объёмов () для расширенной модели с пятью факторами, когда отклонение от нормального закона распределения, образующего модель, симметрично в сторону лёгких и тяжёлых хвостов. Такой же симметричный характер отклонения наблюдается и в случае распределения независимых переменных согласно несимметричному закону. Исключением является лишь модель с одной переменной, когда отклонение от нормального закона для распределения, образующего модель, несимметрично и смещено в сторону распределения с лёгкими хвостами (рис. 4, а, б). а б Рис. 4. Параметр β для модели с одной переменной: а - m = 50; б - m = 500 Подводя итог, можно сделать следующий вывод: особенности распределения входных факторов приводят к тому, что наилучшее распределение, описывающее эмпирические данные, получается при различных значениях параметра формы β, а это далеко не всегда соответствует logit- и probit-моделям. Таким образом, использование для построения вероятностной модели обобщённого нормального семейства распределений повышает качество классификации. Заключение Таким образом, в работе предложена новая модель дискретного выбора, построенная на основе универсального семейства распределений. В качестве такого семейства было выбрано обобщённое нормальное распределение. Данная модель является обобщением существующих частных моделей бинарного выбора: logit- и probit-моделей. Соответственно, в дальнейшем возможен поиск других универсальных семейств распределения для построения обобщённых моделей и исследование их с точки зрения качества классификации для решения рассмотренной задачи. При варьировании параметра формы β семейство обобщённого нормального распределения описывает частные случаи других законов распределения с лёгкими и тяжёлыми хвостами, обеспечивая тем самым более точный результат при решении задачи классификации. Учитывая всё сказанное ранее, новую модель и усовершенствованный алгоритм классификации можно рекомендовать для применения на практике.