Брянская область, Россия
ГРНТИ 27.43 Теория вероятностей и математическая статистика
ББК 221 Математика
ТБК 6117 Теория вероятностей. Математическая статистика
Работа большинства информационных систем предусматривает обработку данных, их накопление в ходе эксплуатации и последующий анализ. Однако анализ такого большого объема информации человеком невозможен без их предварительной автоматической обработки. С этой целью используется Data Mining, включающий в себя описательное и предсказательное моделирование. Задача классификации является одной из наиболее понятных человеку технологий анализа данных и относится к предсказательному моделированию. Данная задача состоит в разделении множества наблюдений на классы на основе их формального описания. Одним из методов решения задачи классификации является логистическая регрессия, в то время как распространенной областью применения является скоринг. В данной статье рассматривается применение скоринга к решению задачи оценки вероятности отчисления студентов из вуза на основании данных о проявленных ими посещаемости и успеваемости. Решение данной задачи позволит кураторам групп, направлений и другим заинтересованным лицам вовремя идентифицировать тенденцию к отчислению, выделить группу риска среди студентов и принять заблаговременные меры для того, чтобы спрогнозированное построенной моделью событие не стало фактом. Построенная скоринговая модель подлежит публикации в виде веб-сервиса для дальнейшего применения в программном комплексе поддержки работы преподавателя вуза. В данном случае на вход модели поступают агрегированные характеристики, полученные на основе аккумулированных программным комплексом данных об успеваемости и посещаемости студентов, с помощью которых на выходе получается интегрированный показатель вероятности наступления события, а именно отчисления. В результате построения скоринговой модели выполняется последующая оценка её качества.
Data Mining, задача классификации, скоринг, анализ успеваемости и посещаемости студентов, аналитическая платформа
1. Калевко В.В., Лагерев Д.Г., Подвесовский А.Г. Программный комплекс «Автоматизированное рабочее место преподавателя» // Сборник науч. трудов II Международной науч. конференции и XII Международной науч.-практ. конф. «Современные информационные технологии и ИТ-образование» 24-26 ноября 2017 г. М.: Лаборатория открытых информационных технологий факультета ВМК МГУ им. М. В. Ломоносова, 2017. С. 197-205. [Электронный ресурс]. – Режим доступа: https://www.elibrary.ru/item.asp?id=32661960.
2. Паклин Н.Б. Оптимальное квантование для повышения качества бинарных классификаторов // Искусственный интеллект. – 2013. – В 4. – С. 392-399.
3. Hosmer D. W., Lemeshow S. Applied Logistic Regression (2nd Edition) // Wiley Publishing, Inc., 2000.
4. Кочеткова В.В., Ефремова К.Д. Обзор методов кредитного скоринга // Juvenis Scientia. – 2017. – № 6. – С.22-25.
5. Аналитическая платформа «Loginom» [Электронный ресурс]. – Режим доступа: https://loginom.ru/.