条件期望¶

条件期望的唯一存在性是一个非常漂亮的结论，今天来唠一下。

初等概率论¶

在初等概率论中，我们对条件期望的定义是基于条件分布的。

例如离散的情形： $$ \mathbb{E}(X|Y=y) = \sum_x xP(X=x|Y=y) $$

这个形式和期望几乎是相同的： $$ \mathbb{E}(X) = \sum_x xP(X=x) $$

条件分布的求解则是基于Bayes公式。这里不再赘述。

Hilbert空间¶

在更一般的理论中，条件期望就不再依赖于条件分布了。并且情况恰恰相反，这时候条件分布可以用条件期望来定义： $$ P(A|B) = \mathbb{E}(I(A)|B) $$

我们考虑平方可积随机变量构成的$L^2(\Omega,\mathcal{F}, P)$空间，这个是一个Hilbert空间。

空间上的内积定义为： $$ \langle X,Y \rangle = \mathbb{E}(XY) $$

范数定义为： $$ \lVert X \rVert = \sqrt{E|X^2|} $$

在Hilbert空间上我们有：

投影定理

$\mathcal{H}$是Hilbert空间，那么$\forall x\in \mathcal{H}$，任意非空闭子集$C\subset \mathcal{H}$，都存在唯一的$m \in C$使得 $$ m = \arg\min_{y \in C} \lVert x-y \rVert $$

如果$C$还是线性子空间，那么$m$是唯一的元素使得$x-m \perp C$。

其中$m$称为$x$在$C$上的投影（$m$是我们在$C$中找到的，对$x$对平方损失下的最佳近似）。

有了这个定理，我们就可以来构造期望和条件期望了。

期望¶

所有常数构成的集合$\mathbb{R}$是$L^2$的线性闭子空间，那么存在唯一的$m\in \mathbb{R}$： $$ m = \arg\min_{y \in \mathbb{R}} \lVert X-y \rVert = \arg\min_{y \in \mathbb{R}} \mathbb{E}|X-y|^2 $$ 这个优化问题有显示解：$m = \mathbb{E}(X)$，实际上这里的投影就是期望。

如何求解？

实际上 $$ m = \arg\min_{y \in \mathbb{R}} \mathbb{E}|X-y|^2 $$ 就是 $$ m = \arg\min_{y \in \mathbb{R}} [E(X^2)+y^2-2yE(X)] $$ 这是关于$y$的二次函数，显然在 $$ m = E(X) $$ 取到最小值。

或者我们可以通过正交条件： $$ \forall z \in \mathbb{R}\quad X-m \perp z $$ 也就是 $$ \mathbb{E}(z(X-m))=0 \quad \forall z \in \mathbb{R} $$ 直接得到：$m=\mathbb{E}(X)$

条件期望¶

假设随机变量$Y\in L^2$，集合$G(Y) = { g(Y): g \text{可测} ,\quad g(Y)\in L^2 }$是$L^2$的线性闭子空间，那么对于任意$X\in L^2$，都存在（几乎处处相等的意义下）唯一的$m = e_X(Y)$： $$ m = e_X(Y)= \arg\min_{y \in G(Y)} \lVert X-y \rVert $$

这个$e_X(Y)$就是条件期望了。

一般也写作：$E(X|Y)$，可以理解为用$Y$表示的$X$的最优估计。

这时候正交条件是： $$ \mathbb{E}(g(Y)(X-e_X(Y))) = 0 \quad \forall g \text{可测} $$

证明

我们来证明，满足正交条件的$y^* = e_X(Y) = E(X|Y)$ 可以最小化： $$ \lVert X-y \rVert = E(X-y)^2 $$ 只需要做拆分： $$\begin{aligned} &\lVert X-y \rVert \\ = &E(X-y)^2 \\ = &E(X-y^*+y^*-y)^2\\ = &E(X-y^*)^2+E(y^*-y)^2 + 2E(X-y^*)(y^*-y)\\ \end{aligned}$$ 这个式子的第一项和$y$无关，并且$y^*-y \in G(Y)$，那么根据正交条件有第三项为0: $$ E(y^*-y)(X-y^*) = 0 $$ 于是 $$ \begin{aligned} &e_X(Y)\\ =& \arg\min_{y \in G(Y)} \lVert X-y \rVert \\ =& \arg\min_{y \in G(Y)} [E(y^*-y)^2]\\ =& y^* \end{aligned} $$

唯一性

我们说的唯一性是在几乎处处相等的意义下的： $$ x = y \iff E(x-y)^2=0 $$ 举例来说，如果考虑 $$ Y = (y_1,y_2)^T = (X, 2X)^T $$ 那么 $$ E(X|Y) = y_1 $$ 显然是最好的估计。同时： $$ y_2-y_1,\quad 3y_1-y_2 $$ 等等都是等价的最好的估计。

但是，我们认为他们是“相同”的： $$ E(y_1 - (y_2-y_1))^2 = E(y_1 - (3y_1-y_2))^2 = 0 $$ 满足我们叙述的唯一性。

测度论¶

在测度论中，我们也学过一个条件期望的定义：

$Z$是$(\Omega,\mathcal{F}, P)$上的可积随机变量，$\mathcal{G}是\mathcal{F}$的子sigma代数。如果$m$满足：

$m$是$(\Omega,\mathcal{F}, P)$上的可测函数
$\forall A \in \mathcal{G}$都有$\int_A mdP = \int_A zdP$

那么$m$称为$Z$关于$\mathcal{G}$的条件期望，记为$\mathbb{E}(Z|\mathcal{G})$。

另外我们也定义： $$ \mathbb{E}(Z|Y) = \mathbb{E}(Z|\sigma(Y)) $$ 其中$\sigma(Y)$是随机变量$Y$生成的最小sigma代数。

实际上，测度论的这一套语言和Hilbert空间下的语言是完全一一对应的：

一般情况下，我们定义的条件期望是从Hilbert空间投影到一个闭子空间
- 在测度论中就是一个子sigma代数
我们定义条件于随机变量的条件期望是投影到所有Borel可测函数的象集
- 在测度论中就是由随机变量生成的最小sigma代数

略有不同的是，投影定理是从最佳估计出发的。而测度论的条件期望则是从正交性出发的。

最后更新: 2024-06-16 22:21:37
创建日期: 2024-03-27 19:29:06

条件期望¶

初等概率论¶

Hilbert空间¶

期望¶

条件期望¶

测度论¶

评论