Home Tower Property
Post
Cancel

Tower Property

0) 시작 전에: 기댓값 표기의 두 축

조건부 기댓값을 정확히 이해하려면, 표기에서 두 가지가 서로 다른 역할을 한다는 걸 먼저 분리해야 한다.

1) 기대 연산자 아래첨자 $\mathbb{E_{\pi}}$는 어떤 확률분포(확률측도)로 평균을 내는지를 뜻한다. 예를 들어 $\mathbb{E}{\pi}[X]$는 정책$\pi$가 유도하는 궤적 분포$P{\pi}$에 대해 랜덤변수$X$의 평균을 낸 것이다.

2) 조건 기호(예:$\mid S_t=s$)는 같은 분포 안에서 “무엇을 알고(고정하고) 평균 내는지”를 뜻한다. 즉 $\mathbb{E}[X \mid Z]$는 $Z$에 대한 정보를 준 상태에서 $X$의 평균을 의미한다.

따라서 $\mathbb{E}_\pi$는 “조건을 추가하는 표기”라기보다는 애초에 전체 확률모형을 정하는 표기이고, $\mid \cdot$는 그 확률모형 안에서 정보(조건)를 바꾸는 표기라고 보는 것이 정확하다.


1) 조건부 기댓값(Conditional Expectation)의 핵심 직관

조건부 기댓값 $\mathbb{E}[X \mid Z]$는 “$Z$를 알 때의 $X$평균”이다. 중요한 점은 $\mathbb{E}[X \mid Z]$자체가 숫자 하나가 아니라 랜덤변수라는 것이다.

정확히는 $\mathbb{E}[X \mid Z]$는 $Z$의 값에 따라 달라지는 함수$g(Z)$형태로 표현된다. 즉 어떤 함수$g$가 존재해서 $\mathbb{E}[X \mid Z] = g(Z)$가 된다. 여기서 $g(z) = \mathbb{E}[X \mid Z=z]$로 생각하면 직관이 쉽다.


2) Law of Total Expectation = Tower Property의 기본형

가장 기본적인 탑 성질은 “조건부로 한 번 평균내고, 다시 전체 평균내면 원래 평균으로 돌아온다”는 것이다.

\[\mathbb{E}\big[\mathbb{E}[X \mid Z]\big] = \mathbb{E}[X].\]

이 식이 “중간 기댓값이 사라진다”는 말을 수학적으로 표현한 형태다. 여기서 사라지는 것은 분포가 아니라 조건부 평균 구조이며, 정확히는 $Z$에 대해 조건부로 평균낸 것을 $Z$의 분포로 다시 평균내서 접는 것이다.

이산형으로 $Z \in {a,b}$만 가능하다고 하면,

\[\mathbb{E}\big[\mathbb{E}[X \mid Z]\big] = P(Z=a)\mathbb{E}[X \mid Z=a] + P(Z=b)\mathbb{E}[X \mid Z=b] = \mathbb{E}[X].\]

3) Tower Property의 일반형(정보의 포함 관계 버전)

강화학습 증명에서 더 자주 쓰이는 형태는 “정보가 두 단계”인 버전이다. 정보(시그마 대수)$\mathcal{F} \subseteq \mathcal{G}$가 있을 때,

\[\mathbb{E}\Big[\mathbb{E}[X \mid \mathcal{G}] \mid \mathcal{F}\Big] = \mathbb{E}[X \mid \mathcal{F}].\]

이 의미는 간단하다. “더 많은 정보$\mathcal{G}$로 한 번 평균낸 뒤, 다시 더 적은 정보$\mathcal{F}$로 평균내면, 처음부터 더 적은 정보로 평균낸 것과 같다.”

강화학습에서는 보통 시간이 지나며 정보가 늘어나므로 $\sigma(S_t) \subseteq \sigma(S_t,S_{t+1}) \subseteq \cdots$같은 포함관계가 자연스럽게 성립해 Tower property를 적용하기 좋다.


4) “중간 기댓값이 사라진다”의 정확한 의미

Tower property로 “사라지는 것”은 보통 중간 조건(예:$S_{t+1}$)이다. 예를 들어,

\[\mathbb{E}\Big[\mathbb{E}[X \mid S_{t+1}]\Big] = \mathbb{E}[X]\]

처럼$\mid S_{t+1}$가 접혀서 없어지는 것이다. 이때 “밖의 기대가 따르는 분포”는 바뀌지 않는다. 밖의 기대는 애초에 특정 분포(측도) 아래에서 계산되고 있고, Tower property는 그 분포를 바꾸는 연산이 아니라 조건부 평균을 합성/접는 연산이기 때문이다.


5) RL에서 자주 보는 형태: 다음 상태로 쪼갠 뒤 접기

강화학습에서는 미래 리턴을 전개할 때$S_{t+1}$을 조건으로 쪼갠 뒤 Tower property로 정리하는 패턴이 반복된다.

예를 들어$S_t=s$가 주어졌을 때,

\[\mathbb{E}_\pi[X \mid S_t=s] = \mathbb{E}_\pi\big[\mathbb{E}_\pi[X \mid S_t=s, S_{t+1}] \mid S_t=s\big].\]

여기서 안쪽의 조건부 기대$\mathbb{E}\pi[X \mid S_t=s, S{t+1}]$는 “$S_{t+1}$를 고정한 상태에서 나머지 랜덤성(보상/전이/미래)을 평균”낸 값이고, 바깥 기대는$S_{t+1}$의 분포(정책과 환경이 만드는 분포)로 다시 평균내어 접는다.


6) 매우 중요한 조건: ‘같은 분포’에서만 Tower로 접힌다

“중간 기댓값이 사라질 때, 어떤 분포로 계산했든 밖의 분포에는 영향을 안 미치고 사라지는가?”라는 문장은 조건부로만 참이다.

Tower property는 반드시 같은 확률분포(같은 확률측도)에서 정의된 조건부 기대를 접는 성질이다. 즉 어떤 분포 $P$에 대해

\[\mathbb{E}_{P}\big[\mathbb{E}_{P}[X \mid Z]\big] = \mathbb{E}_{P}[X]\]

는 항상 성립한다.

하지만 안쪽과 바깥쪽이 서로 다른 분포면 일반적으로 성립하지 않는다. 예를 들어,

\[\mathbb{E}_{\pi'}\big[\mathbb{E}_{\pi}[X \mid Z]\big]\]

에서 안쪽은 $P_\pi$, 바깥은 $P_{\pi’}$로 평균을 내는 것이므로, 이것을 단순히 Tower property처럼 접어서 $\mathbb{E}_{\pi’}[X]$로 만들 수 없다.

요약하면, “어떤 분포든 상관없다”가 아니라 “안/밖이 동일한 분포일 때 접힌다”가 정확한 문장이다.


7) 아래첨자$\pi$와 조건$\mid$의 관계 요약

$\mathbb{E}_\pi[\cdot]$는 분포를 지정하는 표기이고,$\mid \cdot$는 정보(조건)를 지정하는 표기다. Tower property가 접어버리는 것은 보통 조건 부분(정보의 단계)이며, 아래첨자(분포)를 “없애는” 성질이 아니다.

따라서 “$\mathbb{E}\pi$가 결국 조건으로 들어가서 Tower로 사라진다”라고 이해하면 위험하다. 더 정확히는 “같은 분포$P\pi$아래에서, 더 세밀한 조건부 기대를 바깥의 더 거친 조건으로 접어 정리한다”가 맞다.


8) 시험/면접용 한 줄 결론

Tower property는 같은 확률분포에서, 더 많은 정보로 계산한 조건부 기댓값을 다시 더 적은 정보로 평균내면, 처음부터 더 적은 정보로 계산한 조건부 기댓값과 같아진다는 성질이다.


9) RL에서 바로 쓰는 템플릿 모음

9.1 조건부를 한 번 더 쪼갠 뒤 접기

\(\mathbb{E}_\pi[X \mid S_t] = \mathbb{E}_\pi\big[\mathbb{E}_\pi[X \mid S_t, S_{t+1}] \mid S_t\big].\)

9.2 “조건부 → 전체”로 접기

\(\mathbb{E}_\pi[X] = \mathbb{E}_\pi\big[\mathbb{E}_\pi[X \mid S_{t+1}]\big].\)

9.3 일반형(정보 포함관계) 요약

\(\mathcal{F}\subseteq\mathcal{G} \Rightarrow \mathbb{E}_\pi\big[\mathbb{E}_\pi[X\mid\mathcal{G}] \mid \mathcal{F}\big] = \mathbb{E}_\pi[X\mid\mathcal{F}].\)

This post is licensed under CC BY 4.0 by the author.