Анализ выживаемости является важным инструментом для прогнозирования времени наступления события во многих сферах. Например, в области здравоохранения такие модели используются для предсказания летального исхода или ожидаемого времени госпитализации, в страховании — наступления страховых случаев, в производстве — нештатных ситуаций.
Традиционно для анализа выживаемости чаще всего используются методы, основанные на регрессионных моделях пропорциональных рисков. Они имеют ряд ограничений, включая сложности при работе с пропущенными данными и категориальными признаками, линейность непрерывных переменных, предположение о пропорциональности рисков и независимости влияния предикторов от времени, плохую интерпретируемость получаемых моделей и невозможность учитывать важность различных событий в зависимости от времени.
Для преодоления этих недостатков был предложен алгоритм деревьев решений для цензурированных данных, основанный на идее разбиения наблюдений на группы с максимально различными функциями выживаемости между группами.
«В плане оценок качества предложенный подход показывал результаты, сопоставимые с традиционными методами, но не обладая их недостатками. Также в ходе исследования реализованы бутстреп ансамбли предложенных деревьев выживаемости, позволяющие достичь показателей точности значительно выше, чем у традиционных моделей», — рассказал доцент кафедры интеллектуальных и информационных технологий факультета ВМК МГУ Михаил Петровский.
Предложенные модели успешно применялись для анализа реальных данных пациентов с COVID-19 и с онкологическими заболеваниями.
«Эти модели позволили в том числе решать задачи для выбора оптимальной схемы лечения пациентов и могут быть использованы в качестве инструмента для систем поддержки врачебных решений», — добавил заведующий кафедры интеллектуальных и информационных технологий факультета ВМК МГУ Игорь Машечкин.