统计小站 | Kausiujik

「欢迎来到我的统计世界」

RL-Lec5 时序差分学习

Temporal-Difference Learning

时序差分学习 时序差分学习(Temporal-Difference Learning)融合了蒙特卡洛(MC)和动态规划(DP)的思想: TD像MC那样直接从回合(episode)学习,不需要了解模型本身,是无模型方法; TD像DP那样基于已经学习过的状态估计新的状态,即引导(bootstrapping)。 总的来说,TD方法可以学习不完整的回合,通过自身的引导猜测回合的结果...

Bayes-Lec4.3 假设检验,区间估计和Minimax准则

Hypothesis, Interval Estimation, and Minimax Criterion

在估计问题中一般有无穷多个行动可供选择,对这类问题使用贝叶斯统计决策方法是很容易解决的。例如,行动空间由 $r$ 个行动组成,即 $\mathscr{A}={a_1,\dots,a_r}$。设在采取行动 $a_i$ 下的损失为 $L(\theta,a_i),i=1,\dots,r$,则贝叶斯决策就是选择使后验风险 $R(a_i\mid\pmb x)$ 达到最小的那个行动。 假设检验问题 ...

Bayes-Lec4.2 一般损失函数下的贝叶斯解

Bayes Solution Under Different Loss Function

设 $X\sim f(x\mid\theta)$,$\pi(\theta)$ 为先验密度,$\pmb X=(X_1,\dots,X_n)$ 为总体 $X$ 中抽取的i.i.d.样本,则 $\theta$ 的后验密度为 $\pi(\theta\mid\pmb x)=\dfrac{f(\pmb x\mid\theta)\pi(\theta)}{\int_\Theta f(\pmb x\mid\...

Bayes-Lec4.1 贝叶斯统计决策的基本概念

Basic of Bayes Decision Theory

统计决策理论的三要素 样本空间和样本分布族 取值于样本空间 $\mathscr{X}$ 的随机变量 $X$ 及其分布族 $\mathcal{F}={F_\theta(x),\theta\in\Theta}$ 是构成统计决策问题的第一个要素,其中 $F_\theta(x)$ 是 $X$ 的分布函数,$\theta$ 为未知参数,$\Theta$ 为参数空间,$\pm...

RL-Lec4 蒙特卡洛方法

Monte Carlo Reinforcement Learning

无模型的强化学习方法 前面所介绍的策略迭代、值迭代的方法属于基于模型的方法,它需要通过学习 $\mathcal P$ 和 $\mathcal R$,来得到MDP问题的解。 无模型的强化学习方法在没有 $\mathcal P$ 和 $\mathcal R$ 的情况下学习策略,有蒙特卡洛方法和时序差分方法。本节主要介绍其中的蒙特卡洛方法,它分为两步: 无模型预测:利用蒙特卡洛方法对未...

小站总访问量