VAC 14.01.2016 Фтизиатрия
UDK 61 Медицина. Охрана здоровья
GRNTI 76.29 Клиническая медицина
OKSO 09.02.04 Информационные системы (по отраслям)
OKSO 31.08.51 Фтизиатрия
BBK 534 Общая диагностика
TBK 57 Медицина. Фармакология
BISAC MED014000 Clinical Medicine
Using the RStudio program, a neural network model has been developed that predicts positive dynamics in the treatment of tuberculosis patients in a tuberculosis dispensary hospital. The accuracy of the presented model on the test sample is 99.4%, the mean square error (MSE) is 0.013.
statistical data analysis; artificial neural network; tuberculosis
Введение. Применение современных методов статистического моделирования и машинного обучения дает возможность разрабатывать и модифицировать прогностические модели, способные существенно помочь при решении сложных задач в здравоохранении и медицине [1]. Для прогнозирования распространенности туберкулеза и моделирования лечения больных туберкулезом эффективны такие традиционные методы, как регрессионный анализ [2, 3] и современные методы интеллектуального анализа - искусственные нейронные сети (ИНС) [4-6]. Основное преимущество ИНС является их способность извлекать скрытые линейные и нелинейные связи даже в больших и сложных наборах данных, что позволяет использовать ИНС в качестве диагностического инструмента для прогнозирования заболеваний и поддержки в расширении роли компьютерных технологий для диагностики и оперативного лечения.
В данной работе представлена разработанная с помощью искусственных нейронных сетей модель, позволяющая предсказать наличие положительной динамики процесса выздоровления больных туберкулезом при стационарном лечении в диспансере.
Статистическая обработка и анализ данных. Исходная выборка данных по лечению больных туберкулезом в Приморском краевом противотуберкулезном диспансере (ГЗУБ «ПКТД») состояла из 507 наблюдений и 78 показателей, характеризующих образ жизни людей (вредные привычки), диагноз, сопутствующие заболевания, дополнительное обследование, медикаментозное лечение, приобретенные заболевания, динамику лечения. Результаты первичной обработки и анализа данных, выполненные в программе RStudio, представлены в работе [7]. Для анализа данных использовали непараметрические методы, так как, согласно критерию Шапиро-Уилка, имеющиеся данные не подчиняются нормальному закону распределения. Применение критерия Манна-Уитни показало отсутствие существенных различий в значениях показателя «положительная динамика» по категории пол. Расчёт матрицы корреляций по методу Тау Кендалла позволил выделить из 69 показателей 20 наиболее значимых, которые рассматривались в качестве предикторов при построении нейросетевой модели.
Построение нейросетевой модели
Искусственные нейронные сети – это мощный метод моделирования, позволяющий воспроизводить чрезвычайно сложные зависимости. Cогласно модели математического нейрона Мак-Каллока-Питтса главным строительным блоком нейросети является искусственный нейрон, основная функция которого сформировать выходной сигнал y в зависимости от входных сигналов x1…xn. Значения входных сигналов могут усиливаться или ослабляться в зависимости от знака синаптических весов w1…wn [8].
, (1)
где S - линейная комбинация входных сигналов (адаптивный сумматор).
Выходной сигнал сумматора поступает в нелинейный преобразователь F с функцией активизации. В нашем случае функция активизации имеет логистический вид (сигмоид), так как, зависимая переменная, отражающая эффективность лечения больных туберкулезом, является бинарной переменной:
. (2)
После преобразования результат подается на выход.
Для обучения искусственной нейронной сети в программе RStudio использовали функцию neuralnet() из пакета neuralnet, позволяющую создавать множество внутренних слоев в сети. В качестве входных сигналов (предикторов модели) рассматривали 20 показателей, выделенных на основе корреляционного анализа. Предварительно исследуемая выборка была поделена на обучающую и тестовую в стандартном соотношении: 3/4 наблюдений - для обучающей выборки и 1/4 - для тестовой.
Настройка искусственной нейронной сети осуществлялась экспериментально. Рассматривали одно и двухуровневые структуры с числом нейронов на каждом слое от 2 до 12. Коэффициенты матрицы весов на первом шаге обучения сети инициализировались случайным образом. Поиск оптимальной сети осуществлялся в цикле с изменением случайного числа (seed.current) в диапазоне от 1 до 50000. Обучение сводилось к оптимальному подбору коэффициентов матрицы весов для минимизации функции ошибок (функции потерь). Функция ошибок используется для расчета ошибки между реальными и полученными данными. Основная цель - минимизировать эту ошибку.
В качестве функции ошибок рассчитывали среднеквадратическую ошибку (MSE):
(3)
Наблюдаемые значения |
Прогноз |
|
0 |
1 |
|
0 |
25 |
0 |
1 |
1 |
114 |
где yi– наблюдаемые значения, ŷi– предсказанные значения.
В итоге получили наилучшую нейросетевую модель с минимальной среднеквадратической ошибкой (MSE=0.013) на тестовой выборке, состоящую из пяти нейронов в одном слое при случайном числе seed.min=13.
Для построения матрицы неточностей (ConfusionMatrix) на тестовой выборке использовали функцию table(y,ŷ). Результат представлен в таблице.
Один объект тестовой выборки неверно предсказан.
Точность модели (accuracy) рассчитывалась как доля правильно классифицированных объектов (количество правильно классифицированных объектов к общему числу объектов):
. (4)
На тестовой выборке значение точности модели (accuracy) составляет 99.4%. При этом, чувствительность модели (Sensitivity) равна проценту верно предсказанных позитивных исходов: (114/(114+1))*100%=99.1%. Специфичность модели (Specificity) показывает процент верно предсказанных негативных исходов: (25/(25+0))*100%= 100%.
Построенная нейросетевая модель адекватно описывает процесс выздоровления больных туберкулезом. Высокое качество модели говорит о правильности выбора структуры сети и значимых предикторов.
Заключение. Применение алгоритма искусственных нейронных сетей позволило разработать прогностическую модель, состоящую из пяти нейронов в одном слое с двадцатью предикторами на входе, предсказывающую наличие положительной динамики процесса выздоровления больных туберкулезом при стационарном лечении в диспансере. Для определения качества модели рассчитывались следующие оценки: среднеквадратическая ошибка (MSE=0.013) и точность предсказания (accuracy=99.4%). Поскольку ошибки прогнозирования ничтожно малы и лишь один объект тестовой выборки неверно предсказан, можно считать полученную модель эффективной и пригодной для использования в качестве вспомогательного инструмента для оперативного лечения больных туберкулезом в условиях стационара.
Существуют разные подходы к прогнозированию инфекционных заболеваний, их применение зависит от количества и качества исходных данных. Универсального подхода не существует. Поэтому, поиск подходящей модели, как правило, сводится к построению нескольких отдельных моделей и выбору из них наиболее оптимальной, либо созданию на их основе комбинаторной модели. В нашем случае, на основе имеющихся данных было разработано две модели (регрессионная и нейросетевая). Наилучший прогноз получен с помощью нейросетевой модели.
1. Sidey-Gibbons J.A.M., Sidey-Gibbons C.J. Machine learning in medicine: a practical introduction // BMC Medical Research Methodology. 2019. Vol. 19(1). P.1-18.
2. Wang J., Wang C., Zhang W. Data analysis and forecasting of tuberculosis prevalence rates for smart healthcare based on a novel combination model // Applied sciences. 2018. V. 8(9). URL: https://doi.org/10.3390/app8091693 (data obrascheniya 12.08.2020).
3. Regressionnyy analiz v mediko-biologicheskih issledovaniyah / S.A.Mun, A.N.Glushov, T.A.Shternis, S.A.Larin, S.A.Maksimov. Kemerovo: KemGMA, 2012. 119 s.
4. Smith L. An Introduction to Neural Networks. Unpublished draft, University of Stirling. 2001. URL: http://www.cs.stir.ac.uk/~lss/NNIntro/InvSlides.html (data obrascheniya 12.08.2020)
5. Fojnica A., Osmanovice A., Badnjevice A. Dynamical model of tuberculosis-multiple strain prediction based on artificial neural network // 5th Mediterranean Conference on Embedded Computing (MECO), (Piscataway, NJ: IEEE). 2016. P. 290–293.
6. Khan M.T., Kaushik A.Ch., Ji L., Malik S.I., Ali S., Wei D. Artificial neural networks for prediction of tuberculosis disease // Front. Microbiol. 2019. URL: https://doi.org/10.3389/fmicb.2019.00395 (accessed 12.08.2020).
7. Ermolickaya M.Z. Perspektivy vylechit'sya ot tuberkuleza. Analiz dannyh sredstvami programmy RStudio // Informatika i sistemy upravleniya. 2020. №1(63). S. 50-58.
8. Shitikov V.K., Mastickiy S.E. Klassifikaciya, regressiya i drugie algoritmy DataMining s ispol'zovaniem R. 2017. URL: https://github.com/ranalytics/data-mining. (data obrascheniya 12.08.2020)/