ВАК 14.01.2016 Фтизиатрия
УДК 61 Медицина. Охрана здоровья
ГРНТИ 76.29 Клиническая медицина
ОКСО 09.02.04 Информационные системы (по отраслям)
ОКСО 31.08.51 Фтизиатрия
ББК 534 Общая диагностика
ТБК 57 Медицина. Фармакология
BISAC MED014000 Clinical Medicine
C использованием программы RStudio разработана нейросетевая модель, прогнозирующая положительную динамику при лечении больных туберкулезом в стационаре туберкулезного диспансера. Точность (accuracy) представленной модели на тестовой выборке составляет 99.4%, значение среднеквадратической ошибки - 0.013.
статистический анализ данных; искусственная нейронная сеть; больные туберкулезом
Введение. Применение современных методов статистического моделирования и машинного обучения дает возможность разрабатывать и модифицировать прогностические модели, способные существенно помочь при решении сложных задач в здравоохранении и медицине [1]. Для прогнозирования распространенности туберкулеза и моделирования лечения больных туберкулезом эффективны такие традиционные методы, как регрессионный анализ [2, 3] и современные методы интеллектуального анализа - искусственные нейронные сети (ИНС) [4-6]. Основное преимущество ИНС является их способность извлекать скрытые линейные и нелинейные связи даже в больших и сложных наборах данных, что позволяет использовать ИНС в качестве диагностического инструмента для прогнозирования заболеваний и поддержки в расширении роли компьютерных технологий для диагностики и оперативного лечения.
В данной работе представлена разработанная с помощью искусственных нейронных сетей модель, позволяющая предсказать наличие положительной динамики процесса выздоровления больных туберкулезом при стационарном лечении в диспансере.
Статистическая обработка и анализ данных. Исходная выборка данных по лечению больных туберкулезом в Приморском краевом противотуберкулезном диспансере (ГЗУБ «ПКТД») состояла из 507 наблюдений и 78 показателей, характеризующих образ жизни людей (вредные привычки), диагноз, сопутствующие заболевания, дополнительное обследование, медикаментозное лечение, приобретенные заболевания, динамику лечения. Результаты первичной обработки и анализа данных, выполненные в программе RStudio, представлены в работе [7]. Для анализа данных использовали непараметрические методы, так как, согласно критерию Шапиро-Уилка, имеющиеся данные не подчиняются нормальному закону распределения. Применение критерия Манна-Уитни показало отсутствие существенных различий в значениях показателя «положительная динамика» по категории пол. Расчёт матрицы корреляций по методу Тау Кендалла позволил выделить из 69 показателей 20 наиболее значимых, которые рассматривались в качестве предикторов при построении нейросетевой модели.
Построение нейросетевой модели
Искусственные нейронные сети – это мощный метод моделирования, позволяющий воспроизводить чрезвычайно сложные зависимости. Cогласно модели математического нейрона Мак-Каллока-Питтса главным строительным блоком нейросети является искусственный нейрон, основная функция которого сформировать выходной сигнал y в зависимости от входных сигналов x1…xn. Значения входных сигналов могут усиливаться или ослабляться в зависимости от знака синаптических весов w1…wn [8].
, (1)
где S - линейная комбинация входных сигналов (адаптивный сумматор).
Выходной сигнал сумматора поступает в нелинейный преобразователь F с функцией активизации. В нашем случае функция активизации имеет логистический вид (сигмоид), так как, зависимая переменная, отражающая эффективность лечения больных туберкулезом, является бинарной переменной:
. (2)
После преобразования результат подается на выход.
Для обучения искусственной нейронной сети в программе RStudio использовали функцию neuralnet() из пакета neuralnet, позволяющую создавать множество внутренних слоев в сети. В качестве входных сигналов (предикторов модели) рассматривали 20 показателей, выделенных на основе корреляционного анализа. Предварительно исследуемая выборка была поделена на обучающую и тестовую в стандартном соотношении: 3/4 наблюдений - для обучающей выборки и 1/4 - для тестовой.
Настройка искусственной нейронной сети осуществлялась экспериментально. Рассматривали одно и двухуровневые структуры с числом нейронов на каждом слое от 2 до 12. Коэффициенты матрицы весов на первом шаге обучения сети инициализировались случайным образом. Поиск оптимальной сети осуществлялся в цикле с изменением случайного числа (seed.current) в диапазоне от 1 до 50000. Обучение сводилось к оптимальному подбору коэффициентов матрицы весов для минимизации функции ошибок (функции потерь). Функция ошибок используется для расчета ошибки между реальными и полученными данными. Основная цель - минимизировать эту ошибку.
В качестве функции ошибок рассчитывали среднеквадратическую ошибку (MSE):
(3)
Наблюдаемые значения |
Прогноз |
|
0 |
1 |
|
0 |
25 |
0 |
1 |
1 |
114 |
где yi– наблюдаемые значения, ŷi– предсказанные значения.
В итоге получили наилучшую нейросетевую модель с минимальной среднеквадратической ошибкой (MSE=0.013) на тестовой выборке, состоящую из пяти нейронов в одном слое при случайном числе seed.min=13.
Для построения матрицы неточностей (ConfusionMatrix) на тестовой выборке использовали функцию table(y,ŷ). Результат представлен в таблице.
Один объект тестовой выборки неверно предсказан.
Точность модели (accuracy) рассчитывалась как доля правильно классифицированных объектов (количество правильно классифицированных объектов к общему числу объектов):
. (4)
На тестовой выборке значение точности модели (accuracy) составляет 99.4%. При этом, чувствительность модели (Sensitivity) равна проценту верно предсказанных позитивных исходов: (114/(114+1))*100%=99.1%. Специфичность модели (Specificity) показывает процент верно предсказанных негативных исходов: (25/(25+0))*100%= 100%.
Построенная нейросетевая модель адекватно описывает процесс выздоровления больных туберкулезом. Высокое качество модели говорит о правильности выбора структуры сети и значимых предикторов.
Заключение. Применение алгоритма искусственных нейронных сетей позволило разработать прогностическую модель, состоящую из пяти нейронов в одном слое с двадцатью предикторами на входе, предсказывающую наличие положительной динамики процесса выздоровления больных туберкулезом при стационарном лечении в диспансере. Для определения качества модели рассчитывались следующие оценки: среднеквадратическая ошибка (MSE=0.013) и точность предсказания (accuracy=99.4%). Поскольку ошибки прогнозирования ничтожно малы и лишь один объект тестовой выборки неверно предсказан, можно считать полученную модель эффективной и пригодной для использования в качестве вспомогательного инструмента для оперативного лечения больных туберкулезом в условиях стационара.
Существуют разные подходы к прогнозированию инфекционных заболеваний, их применение зависит от количества и качества исходных данных. Универсального подхода не существует. Поэтому, поиск подходящей модели, как правило, сводится к построению нескольких отдельных моделей и выбору из них наиболее оптимальной, либо созданию на их основе комбинаторной модели. В нашем случае, на основе имеющихся данных было разработано две модели (регрессионная и нейросетевая). Наилучший прогноз получен с помощью нейросетевой модели.
1. Sidey-Gibbons J.A.M., Sidey-Gibbons C.J. Machine learning in medicine: a practical introduction // BMC Medical Research Methodology. 2019. Vol. 19(1). P.1-18.
2. Wang J., Wang C., Zhang W. Data analysis and forecasting of tuberculosis prevalence rates for smart healthcare based on a novel combination model // Applied sciences. 2018. V. 8(9). URL: https://doi.org/10.3390/app8091693 (дата обращения 12.08.2020).
3. Регрессионный анализ в медико-биологических исследованиях / С.А.Мун, А.Н.Глушов, Т.А.Штернис, С.А.Ларин, С.А.Максимов. Кемерово: КемГМА, 2012. 119 с.
4. Smith L. An Introduction to Neural Networks. Unpublished draft, University of Stirling. 2001. URL: http://www.cs.stir.ac.uk/~lss/NNIntro/InvSlides.html (дата обращения 12.08.2020)
5. Fojnica A., Osmanovice A., Badnjevice A. Dynamical model of tuberculosis-multiple strain prediction based on artificial neural network // 5th Mediterranean Conference on Embedded Computing (MECO), (Piscataway, NJ: IEEE). 2016. P. 290–293.
6. Khan M.T., Kaushik A.Ch., Ji L., Malik S.I., Ali S., Wei D. Artificial neural networks for prediction of tuberculosis disease // Front. Microbiol. 2019. URL: https://doi.org/10.3389/fmicb.2019.00395 (accessed 12.08.2020).
7. Ермолицкая М.З. Перспективы вылечиться от туберкулеза. Анализ данных средствами программы RStudio // Информатика и системы управления. 2020. №1(63). С. 50-58.
8. Шитиков В.К., Мастицкий С.Э. Классификация, регрессия и другие алгоритмы DataMining с использованием R. 2017. URL: https://github.com/ranalytics/data-mining. (дата обращения 12.08.2020)/