Minimax rates of estimation for high-dimensional linear regression over $\ell_q$-balls
概要
高次元線形回帰モデル ($n < p$) において,ノイズが分散既知の正規分布に従うとする.真の回帰係数が $\ell_q$-ボール ($0 \leq q \leq 1$) に含まれるとき,計画行列に対する適当な条件のもとで $\ell_p$-誤差および $\ell_2$-予測誤差のミニマックスレートを導出した.特に,$\ell_2$-予測誤差の最適レートは $\Omega(\frac{\log p}{n})^{1 - q/2}$ である.
文献情報
- Author: G. Raskutti, M. Wainwright and B. Yu
- Journal: IEEE Transactions on Information Theory
- Year: 2011
- URL
コメント
-
高次元統計では,真の回帰係数にスパース性が仮定されることが多い.スパース性の仮定のもとで得られた理論は,仮定が正しい範囲では良いものの,「スパースに近いが非ゼロ」というような誤特定の状況については正確な示唆を与えてくれないと考えられる.ベクトルのスパース性とは,言い換えれば $\ell_0$-ノルム制約のことである.この論文で考察されている $\ell_q$-球というのは,平たい $\ell_0$ 球よりも少しだけ膨らんだような形状をしている.よって,$\ell_q$-球でのミニマックスを考えることで,誤特定した状況でのワーストな挙動についての示唆が得られる.
-
計画行列に関する条件: (1) 列正規化条件 (2) kernel diameter (3) 制限曲率条件. kernel diameterというのは $\ell_q$-ボールと計画行列の零空間の共通部分の $\ell_p$ 直径.線形回帰モデルでは,零空間に入っているベクトルはそもそも見分けがつかないので,この直径の分はもともと諦めておく必要がある.$\ell_2$-の場合は特殊で,条件 (3) から直径をバウンドすることができる (Lemma 1).(3) の条件とRE条件などとの比較は3.3.1節にある.
-
証明はcovering numberを抑えてFano不等式