Перевод серьезной научной статьи о простом и дешевом прогнозировании ретеншена с помощью эвристических моделей. 

Андерс Дракен (Ольборгский университет, Копенгаген, Дания), Эрик Т. Лундквист, Юнжэнь Кун, Пранав Рао (Северо-Западный университет, Чикаго, США), Рафет Сифа (Институт анализа с элементами ИИ и информационных систем общества Фраунхофера, Санкт-Августин, Германия), Юлиан Рунге (WoogaGmbh и Университет Гумбольдта, Берлин, Германия), Диего Клабьян (Северо-Западный университет, Чикаго, США)

© 2016, Ассоциация развития искусственного интеллекта (www.aaai.org). Все права защищены.

Аннотация

Предсказание и повышение параметра удержания игроков критически важно для успеха бесплатных (Free-to-Play) мобильных игр. Настоящая статья посвящена вопросу быстрого предсказания удержания в данном контексте. Мы предлагаем подходы, основанные на эвристическом моделировании, как способ вывести простые правила для предсказания удержания в краткосрочной перспективе. По сравнению с обычными алгоритмами классификации, наш эвристический подход позволяет добиться достаточно хороших и сравнимых результатов на основании данных о первой сессии, первом дне и первой неделе игровой активности пользователя.

Введение

Прогностическое моделирование бесплатных (Free-to-Play, F2P) игр стало обычным делом как для индустрии мобильных приложений, так и для связанных с нею академических дисциплин, изучающих поведение игроков в крупных масштабах. Ранее было разработано множество разнообразных моделей на основе машинного обучения[1]Rungeetal. 2014; Sifa et al. 2015; Hadiji et al. 2014;El-Nasr et al. 2013; Pittman & GauthierDickey 2010; Thawonmas et al. 2011; Mahlmann et al. 2010; Yang & Roberts 2014; Xie et al. 2015, при этом в фокусе внимания находились случаи, когда были доступны данные о поведении игроков на протяжении недели или даже более [2]Hadiji et al. 2014; Sifa et al. 2015; Runge 2014. Однако в рыночном контексте существует непосредственный запрос на возможность предсказывать удержание игроков как можно раньше. Этому есть много причин, но одной из основных является то, что игры F2P обычно теряют большинство игроков в течение первых нескольких дней после установки [3]Nozhnin 2013; Rungeetal. 2014; Rothenbuehler et al. 2015.Предсказания также важны для того, чтобы адекватно мотивировать игроков не бросать игру[4]Runge et al. 2014. В сущности, решение проблемы оттока игроков состоит из двух шагов: 1) Предсказание того, уйдет ли игрок, и если да, то когда; 2) Определение мер, которые позволят этого избежать или, если это не представляется возможным, рекомендация игроку другой, более подходящей ему игры. Чем раньше получится сделать точный прогноз после того как игрок начал играть в новую игру, тем более ценным будет полученное знание. Быстрое предсказание позволяет компаниям адекватно управлять взаимодействием с клиентами и с опережением реагировать на действия и пожелания пользователей[5]Runge 2014; Sifaetal. 2015; Rothenbuehler et al. 2015; Xieetal. 2015.

Поскольку многие участники индустрии игр для мобильных устройств — сравнительно небольшие компании, им не по карману держать собственных штатных аналитиков. Поэтому крайне важно определить простые, экономные, но эффективные предсказательные модели, которые открыли бы им доступ к преимуществам прогностического анализа. Однако эвристические модели имеют свои достоинства для всех компаний, независимо от размеров и оборота. Когда игрока только запущена и существует длинная очередь «фич», которые предстоит внедрить, возможность свести сложную методику прогнозирования к простому и легко применимому правилу принятия решений равно полезна большим и малым компаниям. Для ответа на этот вызов мы выдвигаем идею эвристического моделирования и прогнозирования[6]Goldstein & Gigerenzer 2009; Gigerenzer & Brighton 2009; Artinger et al. 2015. Эвристические модели представляют собой простые, быстрые в обработке и надежные системы правил, которые часто восходят к человеческой  интуиции, либо к соединению интуиции с моделированием на основе данных.

Хотя традиционные алгоритмы машинного обучения хорошо справляются с задачами прогностического моделирования в мобильных играх, эвристические модели дают новые преимущества сразу по нескольким направлениям: a) они просты для внедрения, поскольку их часто можно реализовать в виде простой системы правил на устройстве клиента; b) обычно они требуют меньших вычислительных затрат, нежели модели на основе машинного обучения; c) их бывает проще объяснить людям, принимающим решения, которые не являются профессионалами в аналитике, тем самым упрощается получение организационной поддержки. В то же время, однако, эвристические модели отказываются от детальных предсказаний на индивидуальном уровне. Это часто делает их более надёжными для прогнозирования в крайне разнообразных средах, но ведёт к потере детальной предсказательной силы в более стабильных условиях[7]Chintagunta & Nair 2011; Goldstein & Gigerenzer 2009. В настоящей работе мы проводим сопоставление простой эвристической модели и моделей, основанных на машинном обучении, на предмет их способности быстро предсказывать удержание игроков в стабильной среде. Мы применяем подход, основанный на данных, для генерации простых эвристических моделей с использованием сильно упрощённых деревьев принятия решений. Во многих контекстах аналогичные логические правила можно было бы вывести из комбинации статистического анализа с компетенцией в предметной области. Хотя мы ни в коем случае не имеем в виду, что  продвинутые модели на основе машинного обучения нельзя задействовать масштабируемым образом, мы хотели бы подчеркнуть эффективность эвристических предсказательных методов, основанных на правилах, а также лёгкость и скорость их создания и внедрения.

Наш вклад

В настоящей работе оценивается возможность предсказания удержания вF2P-играх для мобильных устройств на основании краткосрочного поведения пользователя (т.е., как можно быстрее после скачивания игры). Разработаны модели предсказания удержания, основанные на ряде моделей машинного обучения с использованием различных интервалов наблюдения. Мы сравниваем их с разработанной нами эвристической моделью, использующей упрощённые деревья принятия решений. Модели строятся на основании данных о 130.000 игроков в крупную мобильную F2P-игру Jelly Splash. Массив данных охватывает более 15 миллионов сессий за первые 90 дней активности среди одной когорты пользователей, установивших игру в течение одной недели. Точность предсказания варьирует в зависимости от интервала наблюдения: данные о геймплее с одной игровой сессии обладают минимальной предсказательной силой. Расширение интервала наблюдения до первого дня игры незначительно увеличивает точность предсказания, а использование недельного интервала значительно улучшает предсказательную способность моделей (точность 0,785-792). Все выбранные модели показывают схожие результаты в точности предсказания на одном и том же интервале наблюдения. Рассматриваемые модели превосходят по точности эвристическую модель, основанную на деревьях принятия решений, однако незначительно. Это указывает на наличие потенциала для использования эвристических моделей для быстрого, малозатратного и надёжного предсказания на стороне клиента в бесплатных играх. Насколько нам известно, наше исследование представляет собой первый сравнительный тест эвристических моделей— широко используемых в практике игровой разработки и аналитики — по отношению к моделям машинного обучения; возможно, это также первое исследование эффективности быстрых и экономных деревьев для предсказаний и в менеджменте вообще[8]Artinger et al. 2015.

Смежные работы

По причине ограничений объёма в настоящий раздел в основном ограничивается обзором работ, непосредственно связанных с используемыми подходами: модели оттока пользователей были построены для целого ряда областей ИКТ, таких как беспроводная коммуникация, банковские услуги и страхование. Что касается игр, существующие работы по предсказанию поведения игроков в основном посвящены многопользовательским интерактивным играм (MMOG), «песочницам» или бесплатным (F2P) играм для мобильных устройств. Большинство исследований фокусируются на одной игре, среди весьма  немногочисленных исключений можно встретить те[9]Pittman & GauthierDickey 2010, где рассматриваются две MMOG, и те[10]Sifa, Bauckhage & Drachen 2014, где исследованы профили игрового времени для более чем 3000 продуктов. Используемые методы варьируются от исторического анализа, простых прогностических методов и  множественной регрессии до техник, основанных на машинном обучении. Среди последних следует назвать деревья принятия решений, случайный лес, метод опорных векторов, нейронные сети и скрытые марковские модели[11]Sifa et al. 2015; Runge et al. 2014; Hadiji et al. 2014; Thawonmas et al. 2011; Yang & Roberts 2014; Xie et al. 2015. В контексте последних предшествующие работы в основном концентрировались на предсказании оттока игроков[12]Runge et al. 2014; Hadiji et al. 2014 или решений о приобретении[13]Sifa et al. 2015; Xie et al. 2015. В некоторых работах[14]Hadiji et al. 2014 был предложены различные взгляды на понятие оттока пользователей, а также обучение классификаторов для определения оттока, которое определялось как задача бинарной классификации. Авторы определили понятия «жёсткого» и «мягкого» оттока, предложили два различных метода генерации данных, подходящих для обучения любой классификационной модели, и продемонстрировали факторы, оказывающие значительное влияние на отток пользователей, на примере пяти разных бесплатных мобильных игр. Аналогичным образом был предсказан [15]Runge et al. 2014 уход высокоплатежеспособных игроков из двух казуальных социальных F2P игр, сравнив поведение различных классификаторов и наборов характеристик. В других работах[16]Sifa et al. 2016 была предложена тензорная модель, учитывающая пространственно-временные характеристики для предсказания удержания в трёхмерной игре-«песочнице». Вдобавок к контролируемой модели поведения игрока, исследователи[17]Xie et al. 2015 фокусируются на предсказании первой покупки в двух социальных играх, используя различные классификаторы. Наконец, другие[18]Sifa et al. 2015 специально концентрируются на предсказании совершения игроками покупок в будущем, представляя данный процесс в виде комбинации классификационной задачи и задачи регрессии. Авторы также подчеркивают фактор единичности при анализе поведения премиум-игроков и предлагают синтетическое решение с использованием избыточной выборки для предсказания редких решений о совершении покупки. В аналогичных исследованиях, посвящённых предсказанию оттока из F2P-игр, отмечалась важность временных характеристик, т.е. таких, которые связаны с количеством игровых сессий за период времени, промежутком между сессиями и средней продолжительностью одной сессии. Характеристики, связанные с конкретикой гейм-дизайна, по мнению многих исследователей, оказываются менее важными.

В отличие от большинства предшествующих аналитических работ, посвященных поведению игроков в бесплатных играх, настоящее исследование в первую очередь фокусируется на задаче быстро предсказывать удержание игроков за счёт применения эвристических подходов, лёгких в реализации и интерпретации. Эвристические техники представляют собой стратегии, основанные на опыте решения схожих задач и использующие легко доступную информацию для управления принятием решений. Их можно сравнить с «правилом буравчика». Также их часто связывают с концепцией «разумной достаточности» в принятии экономических решений. Когда найти оптимальное решение представляется невозможным или слишком затратным, можно использовать эвристические методы, которые укажут путь к удовлетворительному решению. Аналогичным образом эвристические методы используются в информатике, когда применение сложных методов оказывается связано с чрезмерной нагрузкой на вычислительные мощности. В (Goldstein & Gigerenzer 2009) приводится всеохватывающий обзор использования эвристик в предсказании и прогнозировании. (Wubben and Wangenheim 2008) провели эмпирическое исследование целесообразности их использования в маркетинге баз данных. (Artinger et al. 2015) рассматривают их применение в менеджменте более широко. Настоящая работа может рассматриваться как частный кейс и продолжение исследований перечисленных авторов.

Определения: удержание и связанные понятия

В настоящей работе краткосрочное предсказание удержания формализуется как задача бинарной классификации: каждый игрок классифицируется как «удерживаемый» (1) или «уходящий» (0), как в рамках наших эвристических правил принятия решений, так и в моделях на основе машинного обучения, привлекаемых для сравнения. Мы определяем удержание как наличие любой игровой активности в течение второй недели знакомства с игрой. Конкретнее, игрок помечается как удерживаемый, если для него/неё регистрируется хотя бы один раунд игры в период 7-14 дней после установки. Рассмотрение второй недели знакомства с игрой имеет несколько преимуществ: это помогает выявить заинтересованных игроков, в то же время учитывая сезонные колебания игровой активности (например, будни vs. выходные); сводит к минимуму «шум» от незаинтересованных игроков, регистрирующих единичный раунд, но давно переставших играть регулярно; позволяет обучать модели и формулировать начальные предсказания вскоре после запуска игры, когда количество новых игроков наиболее велико, а предсказания удержания наиболее полезны.

В отношении определённого выше единичного показания мы рассматриваем несколько различных периодов прогнозирования и стратегий классификации. Каждый из используемых нами классификаторов выдаёт предсказания удержания на основании данных о действиях пользователя начиная с даты установки им/ею игры и до конца одного из трёх функциональных окон. «Функциональное окно» определяется как промежуток времени между датой установки игры пользователем и одной из трёх точек отсчёта: 1) концом первой игровой сессии пользователя; 2) концом первого дня пользователя; 3) концом первой недели пользователя. Данные функциональные окна представляют собой периоды всё большего знакомства с игрой и информационного контента.

Рис. 1: Функциональные окна (и интервалы оценки), использованные при построении модели

Для каждого из трёх функциональных окон изучаются три стратегии классификации: 1) эвристические правила принятия решений; 2) несколько классификаторов, ранее применявшихся для предсказания оттока; 3)  интегральная стратегия, объединяющая результаты нескольких классификаторов. Наша цель состоит в исследовании соотношения между точностью и практической применимостью: чем более продолжительная игровая активность принимается в расчёт, тем точнее предсказания, но тем ниже их итоговая коммерческая ценность, т.к. игроки, которых можно было мотивировать остаться в игре, к этому моменту уже её покинули[19]Runge et al. 2014; Sifa et al. 2015; Hadiji et al. 2014; Rothenbuehler et al. 2015. Кроме того, для обучения дополнительных классификаторов требуется персонал со специальными знаниями/компетенциями, передача данных пользователей в центр обработки и обратно, а также начальный период сбора данных. Простые эвристические методы, напротив, можно запустить сразу после запуска игры непосредственно на устройствах пользователей, после чего они практически не будут требовать затрат на поддержание и мониторинг. Однако они практически целесообразны только в том случае, если обеспечивают достаточную точность[20]Wubben & Wangenheim 2008.

Метод и подходы

Данные и их первичная обработка

Данные для анализа были предоставлены компанией Wooga в полностью анонимизированном формате. Они включают в себя информацию об установке, количестве игровых сессий и раундов для единой когорты пользователей, установивших игру в течение одной недели в 2014 г. Данные относятся к игре Jelly Splash для платформы iOS от Apple. Для данной когорты пользователей мы рассматриваем все игровые сессии в течение первого года знакомства с игрой, а также все раунды игры в течение первых 90 дней. Важно пояснить, что под сессией понимается конкретный запуск приложения пользователем на своём устройстве, а реальный геймплей состоит из раундов. Игрок может зарегистрировать сессию, не содержащую ни одного раунда, но всякий раунд происходит в рамках какой-то сессии. В массиве данных насчитывается 137.397 пользователей, установивших игру, при этом 137.244 (или 99,9%) в какой-то момент зарегистрировали сессию (т.е. запустили игру на своём устройстве). Из этих игроков только 94,5% зарегистрировали хотя бы один раунд (т.е., действительно играли в игру). Мы ограничиваемся анализом только тех пользователей, которые зарегистрировали игровую сессию в течение семи дней после установки и сыграли в течение этой первой сессии хотя бы один раунд. Перечисленные ограничения устраняют искажения, вносимые в общую картину пользователями, которые установили игру, но так и не стали в неё играть, при этом обеспечивают общую выборку для трёх используемых нами функциональных окон. С учётом данных ограничений наша выборка сокращается до примерно 112.000 человек. В дальнейшем небольшое количество записей, содержащих противоречивые отметки времени или значения параметров, также было исключено до определения признаков и анализа.

Рис. 2: Количество активных игроков в зависимости от времени, прошедшего с момента установки

Определение и конструирование признаков

Выработка признаков, адекватно отражающих характеристики и поведение пользователей, является одной из наиболее важных сторон любой классификационной задачи. У нас не было доступа к данным о совершённых игроками покупках внутри приложения, так что сформулированные нами 18 признаков относятся к информации об установке приложения и моделям геймплея. Представлены многие показатели, традиционно используемые в литературе по предсказанию оттока пользователей, а также несколько игро-специфичных показателей, релевантных для нашего массива данных. К показателям установки относятся тип клиентского устройства (телефон, планшет и т.п.), географическое положение, а также то, был ли пользователь привлечён в результате маркетинговой активности («приобретен»). Показатели, связанные с игровой активностью, фокусируются на времени игры (всего дней, всего сессий, всего раундов, средняя продолжительность сессии, средняя продолжительность раунда, общее прошедшее время игры), характеристикам промежутков между сессиями (среднее время отсутствия в зависимости от правой границы функционального окна, среднее время между сессиями), социальных взаимодействиях (зарегистрированные друзья, взаимодействие игроков), а также статистике по раундам (среднее количество ходов, среднее количество звёздочек, максимальный уровень). Показатели, связанные с установкой, одни и те же для всех трёх функциональных окон, тогда все показатели игровой активности рассчитывались отдельно для каждого функционального окна, с учётом только тех сессий и раундов, которые попали в данное окно.

Рис. 3: Среднее количество сыгранных за день раундов на одного игрока в зависимости от времени, прошедшего с момента установки


Рис. 4: Однодневная эвристическая модель на основе дерева принятия решений

Разработка эвристической модели

Мы применяем подход, основанный на данных, для быстрого получения простой эвристической модели с использованием сильно упрощённых деревьев принятия решений. (Подчеркнём для ясности, что мы не утверждаем ни того, что эвристические модели порождаются деревьями принятия решений, ни, напротив, что такие деревья являются эвристической техникой). Подобные деревья принятия решений оказываются полезны для кодирования набора правил, достаточно простого для разворачивания на устройстве клиента и достаточно интуитивного для быстрого объяснения лицам, принимающим решения, которые не являются профессиональными аналитиками.

Мы используем 10-кратную перекрёстную проверку на достоверность для изучения эффективности деревьев принятия решений, основанных на данных об игровой активности за первую сессию, первый день и первую неделю. Мы ограничили размер деревьев так, чтобы каждая эвристическая модель содержала только 3 или 4 правила. Результаты показывают, что данные об активности игроков за первый день позволяют достаточно точно предсказать дальнейшую активность в течение недели или более. Зависимость между периодом сбора данных и эффективностью суммирована в Таблице 1, где используются различные комбинации функциональных окон и интервалов оценки.

1-дневная эвристика формализуется в виде простых правил, охватывающих количество раундов, текущее время отсутствия и наивысший достигнутый уровень. Ответвления соответствующего дерева наглядно показывают, что время отсутствия более 20 часов после установки является надёжным предсказателем ухода игрока.

Мы исследуем надёжность каждой эвристики путём изучения того, насколько предсказательная точность соответствующего дерева принятия решений чувствительна к различным обучающим и тестовым данным. Поскольку для разработки эвристических моделей мы использовали подход, основанный на данных, мы должны убедиться, что их эффективность не объясняется зависимостями внутри нашего массива данных. (Такие зависимости не позволили бы вывести те же правила в наших эвристиках на основании знания предметной области или описательного анализа).

Для начала мы разбиваем массив данных на десять отдельных совокупностей (непересекающихся случайных выборок), одна из которых резервируется в качестве тестового массива, а остальные девять используются как обучающие выборки. После этого обучение деревьев принятия решений осуществляется отдельно на каждой из девяти совокупностей и тестируется на зарезервированном массиве. Затем мы проверяем для каждой из эвристических моделей, может ли она правильно классифицировать пользователей аналогичных по своему игровому поведению тем, что попали в зарезервированный массив. Для этого мы сопоставляем каждому пользователю из выборки ближайшего соседа в пространстве признаков, попавшего в тот же класс, но не входящего в тестовую выборку. (Мы избрали данный метод, чтобы не делать заранее никаких предположений по поводу гладкости распределений вероятности в обоих классах, «удерживаемых» и «уходящих»).

Дополнительно мы проверяем, способны ли наши деревья принятия решений правильно классифицировать пользователей, всё более отличных по своему игровому поведению от попавших в зарезервированную выборку. Для этого, мы сопоставляем каждому игроку не только его/её ближайшего, но и i-того (проверяются только 0<i <10) ближайшего соседа в пространстве признаков.

Сравнение результатов, полученных для разных обучающих совокупностей, показало, что наши эвристические модели не чувствительны ни к выбору обучающего массива данных, ни к «малым» изменениям в тестовых данных. Диапазон варьирования, среднее значение и стандартное отклонение доли ошибок классификации для тестовой обработки приведены в Таблице 2 ниже.

Разработка модели для краткосрочного предсказания

В данном разделе мы представляем результаты экспериментальной проверки нашей методики для предсказания оттока игроков с использованием трёх популярных классификаторов на основе машинного обучения для каждого из рассматриваемых функциональных окон. Характеристики, релевантные для каждого из вышеуказанных временных интервалов, используются для обучения классификаторов и предсказания того, удастся ли удержать игрока на второй неделе после установки им/ею игры. Мы сравниваем результаты логистической регрессии (LR), метода опорных векторов (SVM) и случайного леса (RF) для оценки относительных преимуществ и недостатков различных алгоритмов применительно к нашему массиву данных, трём функциональным окнам и задаче прогнозирования. Мы приводим лишь основные методологические шаги и результаты, так как подробное обсуждение самих классификаторов выходит за рамки настоящей работы.

Использованные первичные прогностические факторы, парные взаимодействия и функциональные формы для всех LR-моделей изначально были выведены путём пошаговой процедуры поиска на основе информационного критерия Акаике (AIC), после чего откалиброваны вручную с использованием погрешности десятикратной перекрёстной проверки для сравнения конкурирующих моделей. Гиперпараметры для SVM-моделей (kernel, cost, gamma) и RF-моделей (количество переменных при разбиении, количество деревьев) были определены методом поиска по сетке параметров с погрешностью десятикратной перекрёстной проверки. Из массива данных была случайным образом сгенерирована субвыборка из 10.000 наблюдений, которая затем использовалась для корректировки, чтобы можно было учесть сетки больших размеров и дополнительные сравнения кандидатов при целесообразных затратах времени и ресурсов. Мы оценили относительную и абсолютную эффективность каждого классификатора, используя десятикратную перекрёстную проверку по всему массиву данных. Для всех трёх моделей использовалось одно и то же разбиение данных, чтобы обеспечить корректное сравнение различных классификаторов. Кроме того, мы исследовали эффективность ансамбля моделей, «голосующих» по простой мажоритарной системе, чтобы оценить, насколько недостатки одной модели могут быть уравновешены преимуществами двух других. Так как общее распределение класса составляет 40,5% удержанных, первичная наивная оценка точности случайных прогнозов, взвешенных по классу, равна 59,5%. Учитывая эту величину, мы видим, что модели, основанные на данных только с одной сессии игры, обладают низкой предсказательной силой. Точность предсказания незначительно увеличивается при добавлении данных с первого дня игровой активности и значительно возрастает, если учитывается вся первая неделя. Сравниваемые модели демонстрируют различия в соотношении точности и чувствительности, которые могут оказаться важными. Так, LR-модели в целом показывают более низкую точность, но более высокую чувствительность по сравнению с SVM-моделями. Мажоритарный ансамбль деревьев показывает наилучшие показатели в целом, однако по причине сходства всех трёх моделей, имеет мало преимуществ по сравнению с любой из них, взятой отдельно.

Функциональное окно Окно оценки Точность Прецизионность Чувствительность F1
1 сессия 8 — 14 дней 0,613 0,555 0,228 0,323
1 день 8 — 14 дней 0,686 0,639 0,509 0,567
1 день 2 — 8 дней 0,703 0,756 0,738 0,747
1-3 дня 4 — 10 дней 0,747 0,787 0,681 0,730
1-7 дней 8 — 14 дней 0,786 0,785 0,651 0,712

Таб. 1: Функциональные окна и окна оценки с результатами предсказания для каждого

  Контрольная 1-NN 2-NN 3-NN 4-NN 5-NN 6-NN 7-NN 8-NN 9-NN
Мин 0,317 0,31 0,308 0,312 0,31 0,308 0,307 0,309 0,31 0,308
Макс 0,324 0,316 0,314 0,318 0,314 0,314 0,315 0,316 0,315 0,315
Срд 0,32 0,313 0,312 0,314 0,312 0,311 0,31 0,312 0,312 0,312
Ст. Откл. 0,002 0,002 0,002 0,002 0,001 0,002 0,002 0,003 0,002 0,002

Таб. 2: Сводные данные анализа чувствительности: минимум, максимум, среднее и стандартное отклонение доли ошибок классификации для 1-дневной эвристики (окно оценки 8-14 дней)

Анализ и обсуждение

Сравнение моделей

Хотя три рассмотренных алгоритма машинного обучения в целом превосходят по точности простые эвристические деревья принятия решений, разница в эффективности двух подходов не является значительной. При функциональном окне в одну сессию лучший из алгоритмов машинного обучения превзошёл простую эвристическую модель по точности только на 1,2%, а его показатель F-1 оказался выше всего на 0,009. Для окна в один день разница оказывается ещё меньше: 0,3 процентных пункта точности и разница F-1 в 0,001. Наконец, при использовании данных за целую неделю лучший алгоритм машинного обучения позволил улучшить точность на 0,6% и F-1 на 0,002 по сравнению с эвристикой. Полученные результаты указывают на возможность использования более простых правил принятия решений, развёрнутых на стороне клиента, для краткосрочного прогнозирования удержания в мобильных играх.

Предсказательная сила наших моделей в целом находится в рамках диапазона, указываемого в релевантной литературе. Используя определение удержания и функциональные окна, максимально близкие к нашим, (Hadiji et al. 2014) получили показатели F-1 для удержания в диапазоне от 0,682 до 0,880 для пяти различных F2P-игр. Указанные авторы использовали схожие алгоритмы машинного обучения, однако, что немаловажно, в отличие от нас они имели доступ к информации о совершении игроками покупок, которую использовали для более точной разработки характеристик. (Rothenbuehler et al. 2015) рассмотрели 7‑дневное подвижное среднее функциональное окно со схожим определением удержания и получили значения площади под кривой (AUC) в диапазоне от 79,1 до 79,6 для моделей на основе нейронных сетей и метода опорных векторов. Эти авторы ограничивались рассмотрением генерических данных с игровой сессии (т.е., не использовали игроспецифичные характеристики). Вычисление площади под кривой для нашей ансамблевой модели контролируемого машинного обучения при 7-дневном функциональном окне дало значение 77,4, очень незначительно уступающее вышеприведённым результатам. К сравнениям данных результатов напрямую следует относиться с некоторой долей осторожности: в каждой статье используется своё определение оттока/удержания, применяются различные функциональные окна и анализируются различные наборы мобильных игр.

Значимость характеристик

Понимание взаимоотношений между отдельными прогностическими факторами и вероятностями удержания помогает выстроить адресный подход к аудитории. С этой целью мы исследовали, какие характеристики игроков в наибольшей степени связаны с удержанием, как в целом, так и в рамках каждого из функциональных окон. Мы оценили данные отношения, используя попарные корреляции между прогностическим фактором и результатом, значения коэффициента логистической регрессии и стандартного отклонения, а также графики значимости переменных «случайного леса» для определения силы, масштаба и направленности каждой из связей.

Для функционального окна в одну сессию общее количество раундов и общее количество времени, проведённого за игрой оказывают наиболее сильное влияние на удержание игрока. При этом, что неожиданно, среднее количество полученных звёзд обнаруживает значительную отрицательную корреляцию с удержанием. Положительная связь наблюдается для средней продолжительности и среднего количества сделанных ходов; кроме того, процент удержания варьируется в зависимости от типа устройства: пользователи планшетов в целом удерживаются хуже, нежели те, кто устанавливает игру на телефонах. Несмотря на то, что данные, относящиеся к одной только первой сессии, имеют незначительную предсказательную силу, отмеченные выше закономерности представляются интуитивными: те, кто сразу после установки больше времени провёл за игрой, с меньшей вероятностью забросят её.

В случае функциональных окон протяжённостью в день и в неделю решающими факторами для удержания оказываются общее время, проведённое за игрой, и непрерывное время, проведённое за игрой. Общее количество раундов, общее количество сессий и средняя продолжительность являются наиболее сильными положительными коррелятами, а текущее время отсутствия, среднее количество звёзд и средний промежуток между сессиями — наиболее сильными отрицательными. При семидневном функциональном окне текущее время отсутствия становится наиболее сильным прогностическим фактором с хорошим отрывом, доминируя как в регрессионных моделях, так и на графиках переменных случайного леса. Как представляется, эти результаты могут указывать на то, что многие игроки уходят из игры вскоре после установки, тогда как те, кто на протяжении первой недели играл больше и на более регулярной основе, с гораздо большей вероятностью окажутся удержаны и на второй неделе. Это в целом согласуется с существующими публикациями. Ещё одно интересное открытие заключается в том, что показатели, относящиеся к мастерству игрока (меньшее среднее количество ходов, большее среднее количество полученных звёзд) в действительности находятся в обратной зависимости с вероятностью удержания. Это может быть связано с тем, что некоторые игроки находят начальные уровни игры слишком лёгкими и быстро теряют интерес. Однако тот факт, что последующие уровни игры сложнее для прохождения и требуют большего количество ходов, может несколько искажать эту закономерность, поскольку игроки, которые сразу теряют интерес по какой бы то ни было причине, скорее всего, вообще не попробуют эти более высокие уровни.

Рис. 5: Образец графика относительной значимости характеристик (здесь на примере однодневной модели случайного леса). Видно, что текущее время отсутствия и количество сыгранных раундов являются наиболее значимыми характеристиками

Функциональное окно Метод моделирования Точность Прецизионность Чувствительность F1
Одна сессия Логистическая регрессия 0,623 0,580 0,21 0,308
  Метод опорных векторов 0,621 0,589 0,173 0,267
  Случайный лес 0,625 0,577 0,233 0,332
  АНСАМБЛЬ 0,625 0,596 0,197 0,296
  ЭВРИСТИКА 0,613 0,555 0,228 0,323
Первый день Логистическая регрессия 0,684 0,641 0,505 0,565
  Метод опорных векторов 0,688 0,659 0,48 0,555
  Случайный лес 0,683 0,634 0,515 0,568
  АНСАМБЛЬ 0,689 0,655 0,492 0,562
  ЭВРИСТИКА 0,686 0,639 0,509 0,567
Первый день Логистическая регрессия 0,785 0,741 0,713 0,727
  Случайный лес 0,789 0,776 0,666 0,717
  Метод опорных векторов 0,791 0,789 0,655 0,716
  АНСАМБЛЬ 0,792 0,755 0,677 0,714
  ЭВРИСТИКА 0,786 0,785 0,651 0,712

Таб. 3: Результаты оценки относительной и абсолютной эффективности каждого классификатора с использованием 10-кратной перекрёстной проверки достоверности для трёх моделей, а также для их мажоритарного ансамбля. Для сравнения приводятся показатели эвристической модели

Способность выявить долговременных пользователей

Помимо задачи выявления пользователей, которые с высокой вероятностью покинут игру вскоре после установки, данные техники моделирования также можно использовать для определения долговременных, потенциально высокоприбыльных клиентов. Выявление таких пользователей и применение к ним адресных стратегий монетизации может быть столь же или даже более важным, чем знание о том, какие игроки быстро забросят игру, так как весьма значительная доля внутриигровых покупок в F2P-приложениях приходится на крайне небольшой процент активных игроков[21]Sifa et al. 2015; Runge et al. 2014. Чтобы приблизительно выявить этих долговременных и потенциально высокоприбыльных игроков, мы рассматриваем удержание через 60 дней, т.е., выясняем, зарегистрировал ли игрок хотя бы один раунд игры в период 60-67 дней после установки. Хотя доступные нам данные не содержат непосредственной информации о совершении внутриигровых покупок, данная характеристика, основанная на долгосрочном удержании, предоставляет простой критерий выделения тех игроков, которые устойчиво увлечены игрой и с высокой вероятностью обеспечат наибольшую отдачу при любом адресном воздействии. В нашей аналитической выборке 15,2% игроков классифицируются как долгосрочно удержанные согласно вышеприведённому определению. Что касается показаний наших однодневных моделей, 27.1% пользователей, определённых как краткосрочно удержанные, продолжают регулярно играть после 60 дней знакомства с игрой. В случае семидневных моделей уже 31,2% от игроков, определённых как краткосрочно удержанные, подпадают под определение долгосрочного удержания. Хотя приведённые проценты могут показаться невысокими сами по себе, их стоит сравнить с реальной долей краткосрочно удержанных игроков, которые оказываются удержанными в долгосрочной перспективе. Из числа игроков, классифицированных как краткосрочно удержанные, только 30,9% также попали в категорию долгосрочно удержанных. Таким образом, получается, что предсказания краткосрочных моделей в действительности позволяют несколько более точно выявить долгосрочных игроков, нежели сами по себе краткосрочные классы. По существу, определение долговременных и потенциально высокоприбыльных игроков на основании данных только с первой недели игровой активности является сложной задачей.

Выводы

Предшествующие работы по предсказанию оттока игроков фокусировались на среднесрочных наблюдениях и предсказаниях, например, 3-14 дней наблюдения и прогноз на 7-14 дней в будущее[22]Sifa et al. 2015; Runge et al. 2014; Hadiji et al. 2014; Xie et al. 2015. Однако во многих F2P-играх имеет место существенный отток пользователей в самом начале игровой активности, так что чем раньше оказывается возможным построить предсказательные модели, тем больше возможностей у разработчиков (и менторов) для того, чтобы упреждающе стимулировать игроков остаться в игре. Предсказания одинаково интересны как в коммерческом контексте, так и в рамках исследований человеческого внимания и мотивации. Мы исследовали возможность быстрого предсказания удержания игроков в бесплатных мобильных играх, сопоставив показатели нескольких моделей на основе машинного обучения с разными функциональными окнами. В рамках одного функционального окна разные модели демонстрируют сравнимую точность. При этом значения точности моделей изменяются как функция от продолжительности окна, повышаясь с увеличением последнего. Ещё одной темой представленной работы является внедрение эвристических моделей для предсказания поведения игроков. Можно сделать вывод о том, что три продвинутых классификатора превосходят по точности простую эвристическую модель на основе дерева принятия решений, однако несущественно. Это показывает, что удерживаемых игроков можно успешно выявить на основании краткой истории игрового поведения с использованием эвристических подходов к прогнозированию. Наконец, наши результаты свидетельствуют в пользу того, что значительной доли полезности продвинутой игровой аналитики потенциально можно добиться, опираясь на статические эвристические модели. Их преимущества состоят в надёжности, понятности и простоте внедрения и масштабирования.

Литература

Artinger, F.; Petersen, M.; Gigerenzer, G.; and Weibler, J. 2015. Heuristics as adaptive decision strategies in management. Journal of Organizational Behavior 36:33–52.

Chintagunta, P. K., and Nair, H. S. 2011. Discrete-choice models of consumer demand in marketing. Marketing Science 25:977–996.

El-Nasr et al. 2013. Game Analytics: Maximizing the Value of Player Data. Springer.

Gigerenzer, G., and Brighton, H. 2009. Homo heuristicus: Why biased minds make better inferences. Topics in Cognitive Science 1:107–143.

Goldstein, D. G., and Gigerenzer, G. 2009. Fast and frugal forecasting. International Journal of Forecasting 25:760–772.

Hadiji, F.; Sifa, R.; Drachen, A.; Thurau, C.; Kersting, K.; and Bauckhage, C. 2014. Predicting Player Churn in the Wild. In Proc. of IEEE CIG.

Mahlmann, T.; Drachen, A.; Togelius, J.; Canossa, A.; and Yannakakis, G. N. 2010. Predicting Player Behavior in

Tomb Raider: Underworld. In Proc. of IEEE CIG.

Nozhnin, D. 2013. Predicting Churn: When Do Veterans Quit? Gamasutra.

Pittman, D., and GauthierDickey, C. 2010. Characterizing Virtual Populations in Massively Multiplayer Oline Roleplaying Games. In Proc. of MMM.

Rothenbuehler, P.; Runge, J.; Garcin, F.; and Faltings, B. 2015. Hidden markov models for churn prediction. In Proc.of SAI IntelliSys.

Runge, J.; Gao, P.; Garcin, F.; and Faltings, B. 2014. Churn Prediction for High-value Players in Casual Social Games. In Proc. of IEEE CIG.

Runge, J. 2014. Predictive analytics set to become more valuable in light of rising CPIs. http://www.gamasutra.com/blogs/.

Sifa, R.; Bauckhage, C.; and Drachen, A. 2014. The Playtime Principle: Large-scale Cross-games Interest Modeling.

In Proc. of IEEE CIG.

Sifa, R.; Hadiji, F.; Runge, J.; Drachen, A.; Kersting, K.; and Bauckhage, C. 2015. Predicting Purchase Decisions in Mobile Free-to-Play Games. In Proc. of AAAI AIIDE.

Sifa, R.; Srikanth, S.; Drachen, A.; Ojeda, C.; and Bauckhage, C. 2016. Predicting Retention in Sandbox Games with Tensor Factorization-based Representation Learning. In Proc. of IEEE CIG.

Thawonmas, R.; Yoshida, K.; Lou, J.-K.; and Chen, K.-T. 2011. Analysis of revisitations in online games. Entertainment Computing 2(4):215–221.

Wubben, M., and Wangenheim, F. 2008. Instant customer base analysis: Managerial heuristics often ”get it right”.

Journal of Marketing 72:82–93.

Xie, H.; Devlin, S.; Kudenko, D.; and Cowling, P. 2015. Predicting Player Disengagement and First Purchase with Event-frequency Based Data Representation. In Proc. of CIG.

Yang, P. Harrison, B., and Roberts, D. L. 2014. Identifying patterns in combat that are predictive of success in moba games. In Proc. of FDG.

Перевод — Дмитрий Герасимов, оригинал здесь

Сноски

Сноски
1 Rungeetal. 2014; Sifa et al. 2015; Hadiji et al. 2014;El-Nasr et al. 2013; Pittman & GauthierDickey 2010; Thawonmas et al. 2011; Mahlmann et al. 2010; Yang & Roberts 2014; Xie et al. 2015
2 Hadiji et al. 2014; Sifa et al. 2015; Runge 2014
3 Nozhnin 2013; Rungeetal. 2014; Rothenbuehler et al. 2015
4, 15 Runge et al. 2014
5 Runge 2014; Sifaetal. 2015; Rothenbuehler et al. 2015; Xieetal. 2015
6 Goldstein & Gigerenzer 2009; Gigerenzer & Brighton 2009; Artinger et al. 2015
7 Chintagunta & Nair 2011; Goldstein & Gigerenzer 2009
8 Artinger et al. 2015
9 Pittman & GauthierDickey 2010
10 Sifa, Bauckhage & Drachen 2014
11 Sifa et al. 2015; Runge et al. 2014; Hadiji et al. 2014; Thawonmas et al. 2011; Yang & Roberts 2014; Xie et al. 2015
12 Runge et al. 2014; Hadiji et al. 2014
13 Sifa et al. 2015; Xie et al. 2015
14 Hadiji et al. 2014
16 Sifa et al. 2016
17 Xie et al. 2015
18 Sifa et al. 2015
19 Runge et al. 2014; Sifa et al. 2015; Hadiji et al. 2014; Rothenbuehler et al. 2015
20 Wubben & Wangenheim 2008
21 Sifa et al. 2015; Runge et al. 2014
22 Sifa et al. 2015; Runge et al. 2014; Hadiji et al. 2014; Xie et al. 2015