Contextual Multi-armed Bandit Algorithm for Semiparametric(半参数) Reward Model
摘要:
事实证明,上下文多臂匪徒(MAB)算法有望在顺序决策任务(例如新闻推荐系统,网页广告放置算法和移动健康)中最大化累积reward。但是,大多数提出的上下文MAB算法都假定奖励和行为上下文之间存在线性关系。本文针对支持非平稳性的松弛,半参数奖励模型提出了一种新的上下文MAB算法。与考虑相同模型的两个替代算法相比,所提出的方法具有更少的限制,更易于实现且速度更快,同时实现了严格的后悔上限。
即提出一种新型MAB算法(宽松、半参数的reward模型)——支持非平稳态
一、introduction
MAB问题会公式化顺序决策问题——选择action(arm),最后最大化积累的rewards
不断选择一个arm,同时收到对应的rewards,学习者会学习和收集信息,然后积累信息,最后根据现有的信息去选择最优的arm
之前的算法都是假设reward的期望和上下文具有是不变线性关系———会严格限制现实中reward的定义
本文中,
提出新型的上下文MAB算法——对rewards的分布会有宽松的假设
该假设可以针对不稳定性的reward包含加法截距项+原来的时不变线性项);该截距项随时间变化,但不取决于action
#### 本文贡献:
- 为非平稳半参数奖励模型提出了一种新的MAB算法。与先前的工作相比,所提出的方法具有更少的限制,更易于实现并且计算速度更快。
- 证明了所提方法的regret的高概率上限与线性奖励模型的汤普森采样算法的阶数相同。
- 为回归参数提出了一个新的估计量,而无需额外的调整参数,并证明了它比现有估计量更快地收敛到真实参数。
- 仿真研究表明,在大多数情况下,该方法的累积奖励比假定相同非平稳奖励模型的现有方法的增长快。
二、Preliminaries
1.MAB setting
learner会在每个t重复地面临N个可选择的actions(N个arms),第i个arm(i=1,…,N)会获得随机的rewardri(t)(对应未知均值θi(t))
上下文MAB中:
- 每个arm i对应有限维上下文向量bi(t)
- reward的均值θi(t)依赖于bi(t):即θi(t)=θt(bi(t)),其中θt(.)是一个任意函数
- 选择一个arm:a(t),对应reward:ra(t)(t)
- 最优的arm:a∗(t):=1<i<Nargmax{θi(t)}=1<i<Nargmax{θt(bi(t))}
- regrets(t)
2.线性上下文MAB问题
假设reward的均值θt(bi(t))和bi(t)成线性关系:
θt(bi(t))=bi(t)Tμ,i=1,...,N
其中μ是未知的。
1)上置信界算法UCB
- 选择reward中具有最高UCB的arm。
- 由于UCB反映了当前对reward及其不确定性的估计,因此该算法在开发和探索之间取得平衡。
- UCB算法的成功取决于第i个arm对应的reward(=bi(t)Tμ(这个一般指reward的均值))的有效置信上限Ui(t)
2)Thompson sampling
- 基于贝叶斯思想的简单启发式方法
- 最优arm:a∗(t)=1<i<Nargmaxbi(t)Tμ~(t);μ~(t)是μ后验分布的采样值。
3)对抗性(adversarial)上下文MAB
- 没有对θ(.)函数形式有任何假设
- ri(t)的分布允许随时间变化,并且它也可以根据历史记录自适应地变化
- 但是很难获得低的regret
4)EXP4.P算法
三、Semiparametric(半参数) contextual MAB
- 简单线性上下文MAB和复杂对抗MAB之间的中间方案
1.半参数加成reward模型
- 历史信息Ht−1={a(τ),ra(τ)(τ),bi(τ),i=1,…,N,τ=1,…,t−1}
- Ft−1是历史信息Ht−1和t时刻上下文bi(t)的并集,Ft−1={Ht−1,bi(t),i=1,…,N}
- 给定Ft−1,假设reward的期望ri(t)可以=不随时间变化的线性分量(bi(t)Tμ,取决于于action)+ 随时间变化的非参数分量(v(t),可能取决于Ft−1,但不取决于action),即:
E[ri(t)∣Ft−1]=bi(t)Tμ+v(t)
- v(t)的分布没有做任何假设,除了∣v(t)∣≤1:1)如果v(t)=0,线性上下文MAB;2)否则,v(t)也取决于action,对抗上下文MAB。在新闻推荐实例中,v(t)可以代表用户单击任务文章的基线趋势,不是所有用户都会去点击。
- 最优的actiona∗(t)不依赖于v(t)
- regret也不会依赖v(t):
regret(t)=ba∗(t)(t)Tμ−ba(t)(t)Tμ
- 注意:v(t)混淆了μ的估计。bandit问题的性质使得v(t)和线性部分的区分变得特别困难,因为每个时间t只能进行一次观察。因此属于部分对抗性模型,而确定性算法(UCB算法等)对于这种模型被证明是无效的;因为a(t)∈Ft−1,如果v(t)∈Ft−1且v(t)=−ba(t)(t)Tμ,那么观察到的reward在所有t=1,…,T时刻均为ra(t)(t)=ηa(t)(t),算法无法学习μ.
- 所有还是应该利用action选择的随机性
2.相关工作
1)action-centered TS algorithm
- 假设第一个action为base action,对于这个基本action,对于所有t其上下文向量为b1(t)=0d;其reward为v(t)(随时间变化,以一定方式取决于过去信息)
- 遵循随机TS算法的基本框架
- 但是有两个阶段(stage):1)第一阶段以TS算法相同的方式在non-base action中选择一个action,设为aˉ(t);2)第二阶段,使用μ~(t)的分布在aˉ(t)和base action中再一次选择。
- 最后两个阶段结束后选择的action记为:a(t)
- 在第二阶段中,a(t)=aˉ(t)的概率可以由μ~(t)的高斯分布计算:
P(a(t)=aˉ(t)∣Ft−1,aˉ(t))=1−ψ(vst,aˉ(t)(t)−baˉ(t)(t)Tμ^(t))
ψ(.)是标准高斯分布的概率密度函数。
3.提出的算法
提出一个新型的具有半参数reward模型的算法: