Category: Statistics

A Practical Scheme and Fast Algorithm to Tune the Lasso With Optimality Guarantees

Written by Kentaro Minami in Statistics on 金, 24 3 2017. Tags: [JMLR], lasso, 高次元, スパース推定,

概要

Lassoのハイパーパラメータをチューニングする手法である $AV_\infty$ を提案.真の回帰係数に対してsupノルムの意味での理論保証があり,計算機実験ではcross-validationより高速かつ高性能である.

文献情報

  • Author: M. Chichignoud, J. Lederer and M. Wainwright
  • Journal: Journal of Machine Learning Research
  • Year: 2016
  • URL

A unified framework for high-dimensional analysis of M-estimators with decomposable regularizers

Written by Kentaro Minami in Statistics on 金, 24 3 2017. Tags: [Statistical Science], lasso, 高次元, スパース推定,

概要

高次元統計では,観測の次元 $n$ に対してパラメータの次元 $p$ が大きいモデルを扱う.このような状況では,真の分布(真のパラメータ)の構造に関する仮定が何もなければ,適当な意味で一致性や収束性をもった推定を行うことができない.よって,高次元統計では真のパラメータに何らかの「低次元構造」を仮定する.代表的な低次元構造はスパース性,グループスパース性,行列の低ランク性などである.

現在までの高次元統計で最も発展してきた推定手法といえば,$\ell_1$-正則化(i.e. Lasso [Tibshirani 1996])をはじめとした,スパース性罰則つきのM-推定である.例えば,スパースベクトルの推定にはLasso [Tibshirani 1996],グループ構造をもったスパースベクトルの推定にはGroup lasso [Yuan and Lin 2006],低ランク行列の推定には核ノルム正則化などといった正則化手法が用いられる.高次元統計の理論では,こういったM-推定量に対して,予測誤差やリスクの収束レートやそのための条件が研究されてきた.Lassoを例にとるならば,真のベクトルが $s$-スパース(非ゼロ要素数が $s$)であって,計画行列に適当な条件があるならば,パラメータ推定のレートはおよそ $s \log p / n$ になるといった様子である.

この論文では,高次元M-推定の設定を抽象化し,収束レートとそのための条件を非常に一般的な形で与えた.とくに,(1) 正則化項が分解可能ノルム (decomposable norm) であって,(2) 損失関数が制限強凸性 (restricted strong convexity) という性質をもつときに,subspace compatibility constantと呼ばれる量で推定誤差や損失のバウンドを与えることができる.これによって,高次元のさまざまな設定での収束レートを導出することができる.Lassoについては,スパースベクトルの復元についての既知の収束レートを復元したり,弱スパース性( $\ell_q$-セミノルム($q \in [0, 1]$) の制約)のもとでの収束レートを導出することができる.

文献情報

  • Author: S. Negahban, P. Ravikumar, M. Wainwright and B. Yu
  • Journal: Statistical Science
  • Year: 2012
  • URL

コメント

  1. スパース線形回帰の研究では,計画行列 $X$ についての制限固有値条件 (restricted eigenvalue condition) やcompatibility conditionといった条件がよく用いられているが,それらを損失関数の条件として隠蔽して書いたものが制限強凸性といえる.制限強凸性は,今ではよく知られた条件と思われる.

  2. Decomposabilityとはおおよそ次のような条件である:ノルム $R(\theta)$ が線形部分空間 $M$ についてdecomposableとは,$\theta \in M$ かつ $\gamma \in M^\perp$ のときに,$R(\theta + \gamma) = R(\theta) + R(\gamma)$ となる.例えば $\ell_1$-ノルムなら,座標の添字の分割について分解可能である.

  3. Decomposabilityは,「制限強凸性が成り立つ方向に解を誘導する」という働きをもっている (Lemma 1)

  4. ハイパーパラメータの理論値は,既知のノイズ分散に依存している.他の論文でもこのような形の保証は多いが,実用上パラメータチューニングをどうするかは別途考える必要がある.また,リスクバウンドの「確率 $1 - \delta$ で成り立つ」の部分の $\delta$ がハイパーパラメータに依存してしまっている.これでは解釈上問題があると考えている研究者もいて,集中不等式の使い方を改善してこの部分の依存性をなくす証明方法もある.


Minimax rates of estimation for high-dimensional linear regression over $\ell_q$-balls

Written by Kentaro Minami in Statistics on 金, 24 3 2017. Tags: lasso, 高次元, スパース推定,

概要

高次元線形回帰モデル ($n < p$) において,ノイズが分散既知の正規分布に従うとする.真の回帰係数が $\ell_q$-ボール ($0 \leq q \leq 1$) に含まれるとき,計画行列に対する適当な条件のもとで $\ell_p$-誤差および $\ell_2$-予測誤差のミニマックスレートを導出した.特に,$\ell_2$-予測誤差の最適レートは $\Omega(\frac{\log p}{n})^{1 - q/2}$ である.

文献情報

  • Author: G. Raskutti, M. Wainwright and B. Yu
  • Journal: IEEE Transactions on Information Theory
  • Year: 2011
  • URL

コメント

  1. 高次元統計では,真の回帰係数にスパース性が仮定されることが多い.スパース性の仮定のもとで得られた理論は,仮定が正しい範囲では良いものの,「スパースに近いが非ゼロ」というような誤特定の状況については正確な示唆を与えてくれないと考えられる.ベクトルのスパース性とは,言い換えれば $\ell_0$-ノルム制約のことである.この論文で考察されている $\ell_q$-球というのは,平たい $\ell_0$ 球よりも少しだけ膨らんだような形状をしている.よって,$\ell_q$-球でのミニマックスを考えることで,誤特定した状況でのワーストな挙動についての示唆が得られる.

  2. 計画行列に関する条件: (1) 列正規化条件 (2) kernel diameter (3) 制限曲率条件. kernel diameterというのは $\ell_q$-ボールと計画行列の零空間の共通部分の $\ell_p$ 直径.線形回帰モデルでは,零空間に入っているベクトルはそもそも見分けがつかないので,この直径の分はもともと諦めておく必要がある.$\ell_2$-の場合は特殊で,条件 (3) から直径をバウンドすることができる (Lemma 1).(3) の条件とRE条件などとの比較は3.3.1節にある.

  3. 証明はcovering numberを抑えてFano不等式


Near-ideal model selection by $\ell_1$ minimization

Written by Kentaro Minami in Statistics on 金, 24 3 2017. Tags: [AS], lasso, 高次元, スパース推定, モデル選択,

概要

Lassoのサポートリカバリー性能の最適性について調べた論文.サポートリカバリーというのは,おおよそ回帰係数の非ゼロ成分の添字(と符号)を当てるという意味である.

この論文ではまず,次の3つの意味でlassoのサポートリカバリーの性能を評価する: 1. スパースな回帰係数 $\beta$ がランダムに出るモデル (generic S-sparse model) を考える.このとき,lassoは $X \beta$ の$\ell_2$ ノルムの意味でのよい近似を高確率で与える.(Theorem 1.2) 1. $\beta$ の非ゼロ要素の絶対値の下限がある制約を満たすとき,lassoは高確率で $\beta$ の非ゼロ成分の添字と符号を当てる.(= exact model recovery, Theorem 1.3) 1. Lassoは,スパースなモデルの中で,真の $X \beta$ を $\ell_2$ の意味で最もよく近似するものに対して,ある精度で自動的に追従する.(= model selection oracle inequality, Theorem 1.4)

次に,「lassoにとって難しい具体的な問題」として,三角級数展開の形で定数信号を近似する問題を考える.これによって,上記の3つの定理が本質的には改善不可能であるということを主張している.

文献情報

  • Author: E. Candès and Y. Plan
  • Journal: The Annals of Statistics
  • Year: 2009
  • URL

コメント

  1. ノイズは分散既知のガウシアンとする.計画行列にはcoherence propertyという,列どうしの内積の上界の仮定をおく.

  2. ある問題設定においてLassoが最適であるということを主張しているわけではなく,lassoにとって最適な性能保証はどういう形を調べる目的で反例を作っていると思われる.


Adapting to unknown smoothness via wavelet shrinkage

Written by Kentaro Minami in Statistics on 日, 19 3 2017. Tags: [JASA], wavelet, SURE, minimax,

概要

i.i.d.ガウス雑音が乗った信号を等間隔に観測して,平均二乗誤差の意味で雑音除去を行う問題を考える.真の信号 $f$ はSobolev空間(またはより一般にBesov空間)の球に含まれているが,微分可能性のパラメータ $m$ および球の半径 $C$ はわからないものとする.このような状況で,仮に滑らかさのパラメータを知っていた場合のミニマックス最適に近くなるような推定量を構成したい.

この論文では,SureShrinkという手法を提案している.SUREとはStein's Unbiased Risk Estimateの略であり,SUREに基づいて縮小 (shrinkage) のパラメータを決めるのでこのような名前である.

文献情報

  • Author: D. Donoho and I. Johnstone
  • Journal: Journal of The American Statistical Association
  • Year: 1995
  • URL

コメント

  1. L^2-Sobolev球で滑らかさパラメータ(mとC)を知っている場合は,Pinsker推定量という線形推定量でミニマックスが達成される.Pinsker推定量はmとCに依存した構成になっているが,これらを知らなくても,知っていた場合のミニマックスリスクに自動追従したい(=適応的ミニマックス).Efromovich and Pinsker (1984) やNussbaum and Golubev (1990) の推定量などは適応的ミニマックスであることが知られている.

  2. L^p-Sobolev球 (p < 2)の場合,そもそもmとCを知っている状況でも,線形推定量ではミニマックスが達成できないことが知られている.そこで,より広い意味の滑らかさを含みうる状況(Besov球)で適応的ミニマックスな推定量はどうやって作ればよいか,というのが本論文の理論的な背景である.