统计小站 | Kausiujik

「欢迎来到我的统计世界」

MS-Lec1.1 概率论(概率空间、随机元、积分和微分)

Probability (Probability Spaces, Random Elements, Integration and Differentiation)

数理统计依赖概率论,而概率论则以测度论为基础。本章是数理统计的基础。 概率空间和随机元 $\sigma$-域与测度 设 $\Omega$ 为感兴趣元素的集合,在统计学中称之为样本空间,它是随机试验所有可能发生结果的集合。在某个给定的样本空间 $\Omega$ 上,测度是针对 $\Omega$ 上特定子集所定义的集合函数。由这些子集所组成的集合类必须满足一定的性质,定义如下: 定义1...

RL-Lec12 基于策略的深度强化学习

Policy-Based Deep Reinforcement Learning

策略梯度算法与Actor-Critic算法 回顾策略梯度方法是直接对策略 $\pi_\theta$ 进行建模与优化。 定理(策略梯度定理) 对于任何可微策略 $\pi_\theta(a\mid s)$,对于任何目标策略函数 $J=J_1$,$J_{\text{avR}}$ 或 $\dfrac{1}{1-\gamma}J_{\text{avV}}$,策略梯度为 $\displaysty...

Bayes-Lec11 动态线性模型

Dynamic Linear Model

动态线性模型 一元动态线性模型(DLM)的一般形式为 $\begin{array}{rl} \pmb y_t=&\!\!\!\!\pmb F_t\pmb\theta_t+\pmb\nu_t,\quad\pmb\nu_t\sim N_m(\pmb 0,\pmb V_t),\\ \pmb\theta_t=&\!\!\!\!\pmb G_t\pmb\theta_{t-1}+\p...

Bayes-Lec10 贝叶斯线性与广义线性模型

Bayesian Linear and Generalized Linear Model

贝叶斯线性模型 考虑多元正态线性回归模型 $y_i=\beta_0+\beta_1x_{i1}+\cdots+\beta_{p-1}x_{i,p-1}+\varepsilon_i,\quad\varepsilon_i\sim N(0,\sigma^2).$ 记 $\pmb y=(y_1,\dots,y_n)’$,$\pmb X$ 为 $n\times p$ 设计矩阵,$\pmb\be...

RL-Lec11 基于Q函数的深度强化学习

Deep Reinforcement Learning with Q-Functions

Q-Learning 回顾Q-Learning算法的更新公式为 $q(s_t,a_t)\leftarrow q(s_t,a_t)+\alpha\big(R_{t+1}+\gamma\max\limits_{a'\in\mathcal A}q(s_{t+1},a')-q(s_t,a_t)\big).$ 而在行动值函数估计中,我们将Q函数进行参数化 $\hat{q}(s,a,\pmb w...

小站总访问量