统计小站 | Kausiujik

「欢迎来到我的统计世界」

RL-Lec7 策略梯度

Policy Gradient

介绍 在值函数估计中,我们介绍了如何对值函数进行近似的参数化表达,进而根据这个值函数来产生策略,选择行动。而在本节中,我们将直接参数化策略本身。所谓参数化的策略,指我们用 $\theta$ 作为策略的参数向量,即 $\pi_\theta(s,a)=\mathbb P(A_t=a\mid S_t=s,\theta).$ 策略梯度直接对策略进行建模,然后进行优化,得到最优策略,具体的机制...

Bayes-Lec6.1 贝叶斯计算方法

Computing Method in Bayes Inference

从本章开始,关于贝叶斯的内容大多集中在贝叶斯推断的具体实施,这往往需要依赖于一些统计软件进行数值计算,但它们也都有良好的理论基础。 引入:贝叶斯推断例子 在3.1节贝叶斯统计推断(点估计与区间估计)中我们提到一个柯西分布总体在无信息先验下的最大后验HPD可信集的计算,如果我们关心参数的后验均值和后验方差,显然也没有显式表达。 又如,假设 $X_1,\dots,X_k$ 为独立的Pois...

Bayes-Lec5.2 共轭分布族

Conjecture Distribution Family

抛硬币问题与Beta先验 假设抛一枚硬币,其正面向上的概率为 $\theta=\mathbb P(H)$,则无论抽样机制是二项、负二项还是几何,似然函数总是有形式 $L(\theta\mid\pmb x)\propto\theta^t(1-\theta)^t,$ 其中 $h,t$ 分别为观察到的正面和反面次数。 如果我们假设 $\theta$ 的先验分布是 $Beta(\alpha...

RL-Lec6 值函数估计

Value Function Approximation

介绍 在实际应用背景下,强化学习的行动空间 $\mathcal A$ 和状态空间 $\mathcal S$ 都可能十分巨大,如果要保存值函数的所有可能值(或者说要对每个状态都进行学习),除了存储空间比较大,计算时间也比较长,因此需要寻找近似的函数——具体可以使用线性组合、神经网络以及其他方法来近似值函数。 利用监督学习里的数据拟合方法去估计值函数 $\ha...

Bayes-Lec5.1 先验分布的选取

Selection of Prior Distribution

主观先验 主观概率是人们根据经验对事件发生机会的个人信念。当感兴趣未知参数是离散取值时,常用相对似然法、专家意见方法和利用历史资料等方法确定先验概率。下面主要就专家意见方法作详细分析。 在实际问题中,存在多个独立地、具有重要信息的专家,将专家信息转化为概率十分重要。概率启发(probability elicitation)方法就是用来将专家意见转化为概率的方法。 设立并准备启发:...

小站总访问量