Watanabe (2009) 本におけるカラテオドリ集合

Algebraic Geometry and Statistical Learning Theory [W09] という本を輪読している。独自色の強い記法が使われていたりするので、自分の手持ちの知識にキャストする作業でそれなりに骨が折れる。

[W09] Watanabe. Algebraic Geometry and Statistical Learning Theory. Cambridge University Press, 2009.

大変だった部分を随時メモしていく。

5章における経験過程の定義はこのような感じである。たいへん複雑である。

定義: 経験過程 ([W09], Def 5.6)
下の条件が満たされるとき、$\psi_n$ を経験過程ということにする。

  1. $X_1, X_2, \ldots, X_n \in \mathbb{R}^n$ は i.i.d. 確率変数とする。
    • $X_i$ の確率密度は $q(x)$ とする。
  2. 可測関数 $f: \mathbb{R}^n \times W \to \mathbb{R}$ について、
    • $W \subset \mathbb{R}^n$ は開集合である。
    • $w \mapsto f(\cdot, w)$ は $L^p(q)$-値解析関数である ($p \geq 2$)。ただし、$L^p(q)$-値解析関数とは、各 $w^*$ について、ある近傍 $w^* \in U$ と $L^p(q)$ 値の係数 ${ a_\alpha (x) \in L^p(q) }$ が存在して、級数
      $$
      f(x, w) = \sum_{\alpha \in \mathbb{N}^d} a_\alpha (x) (w - w^*)^\alpha
      $$
      が $w \in U$ では $L^p$ 距離の意味で収束していることをいう。
    • 各 $w \in W$ に対して $\mathbb{E}_X [ f(X, w)^2] < \infty$.
  3. コンパクト集合 $K \subset W$ があって、
    $$
    \psi_n (w) = \frac{1}{\sqrt{n}} \sum_{i=1}^n [ f(X_i, w) - \mathbb{E}_X[ f(X, w)] ]
    $$
    は $C(K)$-値の確率変数となる。

1は通常の仮定だと思う。
今回は、もともと「$X$ の真の分布がモデルに入っている」という問題を考えているので、密度 $q$ もある。

2はこの本独自の仮定である。
「$L^p$-値の解析関数」というのは不思議だが、別のところで $K(w) = \mathbb{E}_X[f(X, w)]$ の解析関数としての性質をもとに議論をすすめるときに、$f$ の方の話も整合的になるようにしているらしい。

ただし、超細かいことだが、本にあるように $f(\cdot, w)$ をBanach空間としての $L^p$ の元だと思ってしまうと $f(X_i, w)$ の値の意味がなくなってしまうので、Banach spaceとかnormといった記述はここでは削除するべきだと思う。しかし、具体例を考えている限りでは自分が心配しているような変なことは起きないようにも見える。そのあたりは日本語で先に出ている本 [W06] の方が余計なことが書いてない分親切だと思う。

[W06] 渡辺. 代数幾何と学習理論.森北出版,2006.

3では、w は W ではなくて少し小さいコンパクト集合の上でだけ考えている。
おそらくこの部分が経験過程的には若干重要なのだと思われる。この本で出てくる「$\psi_n$ がGaussian processに法則収束する」という主張を示すときに、内部では
$$
\sup_{ w } \psi_n (w, X^n)
$$
をはじめとして、確率変数のあつまりを添字 w に関して sup を取るという操作がたくさん出てくるはずである。確率変数の非加算個のsupは確率変数になるとは限らないが、そういう可測性の問題はできればまとめて回避したい。$\psi_n(w, X^n)$ が添字に関して連続で、添字自体は完備可分というふうにすれば、supをとるときにcountable dense setをとってくればよいので問題が起きない。このような添字をとることができる集合を、[SC08] ではカラテオドリ集合と呼んでいる。

[SC08] Steinwart and Christmann. Support Vector Machines. Springer, 2008.

よくわかっていないが、解析性に関する性質を調べるときは $W$ が開集合の方が嬉しいのに対し、経験過程関係の性質は添字が完備可分じゃないと嬉しくないので、定義の2と3でこのようなズレが生じている気がする。

他にも、普通の有限次元の中心極限定理の主張でモーメントに関する条件が若干足りなかったりして落とし穴がある。知らないとわからない類の行間が多いので、学部生とかが輪読するのはつらそうだなという感想も少しある。一方、がんばって読んでいると稀に「これって普通に計算できたんだ」という感じの学びがあって面白い。