Это только некоторые области, в которых можно использовать многоруких бандитов. Мы в MyTracker специализируемся на задачах персонализации и, в рамках этого гайда, рассмотрим применение многоруких бандитов в рекомендательных системах. Для MAB я дам краткое описание и не буду долго на них останавливаться, так как про многоруких бандитов в их классическом варианте написано слишком много. Большая часть этого раздела будет посвящена устройству CMAB.
Оптимизм Перед Неизвестностью — Алгоритм Ucb1
- Слияние делали, чтобы не было кластеров, в которых ни один клиент не принял ни одну руку бандита.
- Если мы хотим получить большую скорость сходимости и больше исследований на первых шагах работы алгоритма, то мы можем использовать другую эвристику, взяв не -4, а большее число.
- Иначе обучить классификатор принятия руки было бы невозможно.
- Для каждого алгоритма итеративно генерируются 5000 пользователей, через каждые 500 пользователей происходит обучение модели на батче этих пользователей (кроме Random и UCB).
Конверсия в тестовой среде выросла более чем в три раза, а объем привлеченных средств увеличился на 42% по сравнению с другими методами, так что мы обязательно попробуем метод в реальных условиях. Первымрешением дилеммы исследования и использования является так называемаяэпсилон-жадная стратегия. Она очень важна, поскольку мы будем ею пользоватьсяна протяжении всего курса. Предположим, вы выиграли два раза из трёху одного бандита и ноль раз из трёх у другого.
Как видно из графика, и эпсилон-жадная стратегия, и Томпсоновское сэмплирование работают сильно лучше случайного сэмплировани. Вас может удивить то, что эпсилон-жадная стратегия и Томпсоновское сэмплирование на самом деле сравнимы в том, что касается их показателей. Эпсилон-жадная стратегия может быть очень эффективной, но она более рискована, потому что может застрять на субоптимальном варианте – это можно видеть на провалах вна графике. А Томпсоновское сэмплирование не может, т.к оно делает выбор в пространстве вариантов более сложным образом. Это довольно круто — мы написали всего несколько строчек кода, и вот у нас уже есть довольно мощный алгоритм, который может исследовать пространство вариантов и делать в нем близкие к оптимальному решения. С другой стороны, алгоритм не обнаружил самый лучший вариант.
Если учесть все перечисленные нюансы, А/Б-тестирование поможет получить максимум пользы от текущей версии сайта или рекламы. А/Б-тестирование — мощный инструмент улучшения рекламной стратегии, сайта и других параметров. После сохранения варианта в настройках теста отобразится количество внесенных изменений. Как и Clickthroo, Unbounce — решение для А/Б-тестирования лендингов.
В зависимости от постановки задачи может так случиться, что вариант фичи вдруг или со временем начинает нравиться пользователям больше, чем раньше. В таком случае алгоритм должен будет плавно переключиться на использование этого варианта фичи. У каждого https://deveducation.com/ варианта перед запуском бандита есть априорное распределение его награды, которое по мере поступления новых данных становится апостериорным.
Знакомство С Бандитами
Явного победителя по всем рассмотренным вариантам количества ручек нет. Для 5 и 7 ручек лучшими по доле верно угаданных оказались TS и Greedy, для eleven и 13 ручек – UcbQbc, TS и Greedy. Как и в предыдущих экспериментах Greedy очень дорого обходится по метрике Remorse. После получения фактического отклика производится обновление параметров распределения, как правило, с помощью применения методов байесовского вывода. Зачастую алгоритмы бандита позволяют извлекать ценность из данных быстрее и эффективнее — особенно если учесть множество ограничений, с которыми связаны классические тесты. Важноеправило А/В-тестирования заключается в том, что нельзя прекращать тестированиедосрочно.
Для сравнения различных вариантов лендингов или креативов маркетологи используют A/B-тестирование, или сплит-тест. В материале расскажем, как проводить такое тестирование и какие сервисы помогут упростить этот процесс. Так мы можем оценить надежду по улучшению t-й ручки бандита.
Томпсоновское сэмплирование не означает, что вам не надо делать A/B тесты. Обычно сначала с его помощью находят лучшие варианты, и потом делают A/B тесты уже над ними. Он вызывает агента, чтобы агент решил, какое выбрать действие, дальше контекст запускает это действие и возвращает полученные за него очки обратно агенту (который как-то обновляет свое состояние).
Чтобы выделить 15 кластеров, взяли модель K-Means из модуля pyspark.ml.clustering для кластеризатора. Мерой расстояния выбрали квадрат евклидова расстояния (squaredEuclidean). Качество классификатора проводили через оценку silhouette score и размер выделенных кластеров в выборке на основе того же июльского портфеля. Каждый из исследуемых далее алгоритмов имеет Юзабилити-тестирование графики для четырёх метрик (горизонт установлен в 250 испытаний). Все алгоритмы отличаются в основном только способом, как выбрать руку, и параметрами. В книге «Bandit Algorithms for WebsiteOptimization» («Бандитские алгоритмы для оптимизации веб-сайтов») рассказывается история White-13, 1—4 о некой Деборе Нал (Deborah Knull), которая владеет сайтом.
Частая проблема новичков — непонимание, когда закончить A/B-тест. Короткий период тестирования не даст достаточной статистики — достоверность результатов может быть весьма условной. Конечно, это не относится к случаям, когда тестирование должно выявить наиболее удачный рекламный креатив или визуальный контент. В таком случае основной целевой аудиторией исследования как раз являются пользователи, увидевшие ваши разные объявления. Он не является приемлемой альтернативой платному тарифу, так как с его помощью практически невозможно достичь статистически значительных результатов с таким объемом трафика. 1) для Гугл Optimize требуется плагин браузера Chrome;2) Optimize 360 предоставляет платную услугу, которая может тестировать до 10 вариантов страницы, визуального или другого контента, а также проводить до one hundred многорукий бандит аб тестирование тестов одновременно.
Сэмплирование Томпсона берет рандомные значения из этих распределений, сравнивает их и выбирает вариант с максимальным значением. Пока мы ещё не запускали многоруких бандитов в полноценный пилот. Однако результат экспериментов показывает, что они помогут снизить потери на неэффективных предложениях. Алгоритм ускорит выявление перспективных предложений — вместо месяцев нужны будут недели.