论文笔记——Contextual Multi-armed Bandit Algorithm for Semiparametric(半参数) Reward Model

丶灬走出姿态 提交于 2020-01-31 05:35:16

Contextual Multi-armed Bandit Algorithm for Semiparametric(半参数) Reward Model

摘要:

事实证明,上下文多臂匪徒(MAB)算法有望在顺序决策任务(例如新闻推荐系统,网页广告放置算法和移动健康)中最大化累积reward。但是,大多数提出的上下文MAB算法都假定奖励和行为上下文之间存在线性关系。本文针对支持非平稳性的松弛,半参数奖励模型提出了一种新的上下文MAB算法。与考虑相同模型的两个替代算法相比,所提出的方法具有更少的限制,更易于实现且速度更快,同时实现了严格的后悔上限。

即提出一种新型MAB算法(宽松、半参数的reward模型)——支持非平稳态

一、introduction

MAB问题会公式化顺序决策问题——选择action(arm),最后最大化积累的rewards

不断选择一个arm,同时收到对应的rewards,学习者会学习和收集信息,然后积累信息,最后根据现有的信息去选择最优的arm

之前的算法都是假设reward的期望和上下文具有是不变线性关系———会严格限制现实中reward的定义

本文中,

提出新型的上下文MAB算法——对rewards的分布会有宽松的假设

该假设可以针对不稳定性的reward包含加法截距项+原来的时不变线性项);该截距项随时间变化,但不取决于action

#### 本文贡献:
  • 为非平稳半参数奖励模型提出了一种新的MAB算法。与先前的工作相比,所提出的方法具有更少的限制,更易于实现并且计算速度更快。
  • 证明了所提方法的regret的高概率上限与线性奖励模型的汤普森采样算法的阶数相同。
  • 为回归参数提出了一个新的估计量,而无需额外的调整参数,并证明了它比现有估计量更快地收敛到真实参数。
  • 仿真研究表明,在大多数情况下,该方法的累积奖励比假定相同非平稳奖励模型的现有方法的增长快。

二、Preliminaries

1.MAB setting

learner会在每个t重复地面临N个可选择的actions(N个arms),第i个arm(i=1,…,N)会获得随机的rewardri(t)r_i(t)(对应未知均值θi(t)\theta_i(t)

上下文MAB中:
  • 每个arm i对应有限维上下文向量bi(t)b_i(t)
  • reward的均值θi(t)\theta_i(t)依赖于bi(t)b_i(t):即θi(t)=θt(bi(t))\theta_i(t)=\theta_t(b_i(t)),其中θt(.)\theta_t(.)是一个任意函数
  • 选择一个arm:a(t)a(t),对应reward:ra(t)(t)r_{a(t)}(t)
  • 最优的arm:a(t):=argmax1<i<N{θi(t)}=argmax1<i<N{θt(bi(t))}a^{*}(t):=\underset{1<i<N}{\operatorname{argmax}}\left\{\theta_i(t)\right\}=\underset{1<i<N}{\operatorname{argmax}}\left\{\theta_{t}\left(b_{i}(t)\right)\right\}
  • regrets(t)

2.线性上下文MAB问题

假设reward的均值θt(bi(t))\theta_t(b_i(t))bi(t)b_i(t)成线性关系:

θt(bi(t))=bi(t)Tμ,i=1,...,N\theta_t(b_i(t))=b_i(t)^T\mu,i=1,...,N
其中μ\mu是未知的。

1)上置信界算法UCB
  • 选择reward中具有最高UCB的arm。
  • 由于UCB反映了当前对reward及其不确定性的估计,因此该算法在开发和探索之间取得平衡。
  • UCB算法的成功取决于第i个arm对应的reward(=bi(t)Tμb_i(t)^T\mu(这个一般指reward的均值))的有效置信上限Ui(t)U_i(t)
2)Thompson sampling
  • 基于贝叶斯思想的简单启发式方法
  • 最优arm:a(t)=argmax1<i<Nbi(t)Tμ~(t)a^*(t)=\underset{1<i<N}{\operatorname{argmax}}{b_i(t)^T\tilde\mu(t)};μ~(t)\tilde\mu(t)μ\mu后验分布的采样值。
3)对抗性(adversarial)上下文MAB
  • 没有对θ(.)\theta(.)函数形式有任何假设
  • ri(t)r_i(t)的分布允许随时间变化,并且它也可以根据历史记录自适应地变化
  • 但是很难获得低的regret
4)EXP4.P算法

三、Semiparametric(半参数) contextual MAB

  • 简单线性上下文MAB和复杂对抗MAB之间的中间方案

1.半参数加成reward模型

  • 历史信息Ht1={a(τ),ra(τ)(τ),bi(τ),i=1,,N,τ=1,,t1}\mathcal{H}_{t-1}=\left\{a(\tau), r_{a(\tau)}(\tau), b_{i}(\tau), i=1, \ldots, N, \tau=1, \ldots, t-1\right\}
  • Ft1\mathcal{F}_{t-1}是历史信息Ht1\mathcal{H}_{t-1}和t时刻上下文bi(t)b_i(t)的并集,Ft1={Ht1,bi(t),i=1,,N}\mathcal{F}_{t-1}=\left\{\mathcal{H}_{t-1}, b_{i}(t), i=1, \ldots, N\right\}
  • 给定Ft1\mathcal{F}_{t-1},假设reward的期望ri(t)r_i(t)可以=不随时间变化的线性分量bi(t)Tμb_i(t)^T\mu,取决于于action)+ 随时间变化的非参数分量v(t)v(t),可能取决于Ft1\mathcal{F}_{t-1},但不取决于action),即:

E[ri(t)Ft1]=bi(t)Tμ+v(t)\mathbb{E}\left[r_{i}(t) | \mathcal{F}_{t-1}\right]=b_{i}(t)^{T} \mu+v(t)

  • v(t)v(t)的分布没有做任何假设,除了v(t)1|v(t)|\leq 1:1)如果v(t)=0v(t)=0,线性上下文MAB;2)否则,v(t)v(t)也取决于action,对抗上下文MAB。在新闻推荐实例中,v(t)v(t)可以代表用户单击任务文章的基线趋势,不是所有用户都会去点击。
  • 最优的actiona(t)a^*(t)不依赖于v(t)v(t)
  • regret也不会依赖v(t)v(t)

regret(t)=ba(t)(t)Tμba(t)(t)Tμregret(t)=b_{a^*(t)}(t)^{T} \mu-b_{a(t)}(t)^{T} \mu

  • 注意:v(t)v(t)混淆了μ\mu的估计。bandit问题的性质使得v(t)v(t)和线性部分的区分变得特别困难,因为每个时间t只能进行一次观察。因此属于部分对抗性模型,而确定性算法(UCB算法等)对于这种模型被证明是无效的;因为a(t)Ft1a(t)\in\mathcal{F}_{t-1},如果v(t)Ft1v(t)\in\mathcal{F}_{t-1}v(t)=ba(t)(t)Tμv(t)=-b_{a(t)}(t)^{T} \mu,那么观察到的reward在所有t=1,,Tt=1, \ldots, T时刻均为ra(t)(t)=ηa(t)(t)r_{a(t)}(t)=\eta_{a(t)}(t),算法无法学习μ\mu.
  • 所有还是应该利用action选择的随机性

2.相关工作

1)action-centered TS algorithm

  • 假设第一个action为base action,对于这个基本action,对于所有t其上下文向量为b1(t)=0db_1(t)=0_d;其reward为v(t)v(t)(随时间变化,以一定方式取决于过去信息)
  • 遵循随机TS算法的基本框架
  • 但是有两个阶段(stage):1)第一阶段以TS算法相同的方式在non-base action中选择一个action,设为aˉ(t)\bar{a}(t);2)第二阶段,使用μ~(t)\tilde\mu(t)的分布在aˉ(t)\bar{a}(t)和base action中再一次选择。
  • 最后两个阶段结束后选择的action记为:a(t)a(t)
  • 在第二阶段中,a(t)=aˉ(t)a(t)=\bar{a}(t)的概率可以由μ~(t)\tilde\mu(t)的高斯分布计算:

P(a(t)=aˉ(t)Ft1,aˉ(t))=1ψ(baˉ(t)(t)Tμ^(t)vst,aˉ(t)(t))\mathbb{P}\left(a(t)=\bar{a}(t) | \mathcal{F}_{t-1}, \bar{a}(t)\right)=1-\psi\left(\frac{-b_{\bar{a}(t)}(t)^{T} \hat{\mu}(t)}{v s_{t, \bar{a}(t)}(t)}\right)
ψ(.)\psi(.)是标准高斯分布的概率密度函数。

3.提出的算法

提出一个新型的具有半参数reward模型的算法:
在这里插入图片描述

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!