「特徴量抽出」の定番手法
主成分分析
クリックすると大きい画像を表示します.
タップすると大きい画像を表示します.
動画セミナ
2日分解説資料
390ページ再生時間
10時間5分Python
コード付き
商品コード
S-0001-00
商品コード S-0001-00
価格未定
ビッグデータから「特徴量」を抽出するアルゴリズム
本セミナでは,アメリカ50州の社会調査データを題材として「ビッグデータ」を効率的に処理する手法を学びます.このデータには,各州の人口密度やGDP,平均IQ,白人率,黒人率,高卒率,失業率などが含まれます.このようなデータは1つのグラフや図では表現できない「多次元データ」であり,データの全体像を直感的に把握するのは困難です.
本セミナで扱う「主成分分析」は,多次元のビッグデータから「特徴量」を抽出するアルゴリズムです.本来ならば多次元のグラフで表されるデータを加工し,データを「低次元化」することができます.この低次元化によって損なわれる情報は最小限に留められるため,「もっとも効率が良い特徴量抽出」が可能になります.今回は10次元の統計データを2次元に落とし込むことで,アメリカ各州の傾向を読み取ります.
主成分分析のアルゴリズムを丁寧に実装
本セミナでは,自作のPythonプログラムで主成分分析の計算を行います.できる限り外部ライブラリに頼らず,すべての計算ステップを自分でコーディングします.これにより,主成分分析に限らず様々な数値計算処理に応用できるノウハウを習得できます.
また,Python以外にも統計処理などでよく使われる “R” による計算例も示します.
「ラグランジュの未定乗数法」と「無相関化」
本セミナでは,主成分分析の核心である「ラグランジュの未定乗数法」と「無相関化」について,基本となる数学から丁寧に解説します.これらは主成分分析に限らず様々な物理学や工学の分野でも活用されている,非常に汎用性の高い手法です.
「ラグランジュの未定乗数法」は,複数のパラメータを一定の制限のもとで動かして最大値(あるいは最小値)を得られる値の組み合わせを見つける手法です.いわゆる「最適化アルゴリズム」の一種で,解析力学や統計力学,パターン認識や機械学習などの分野でよく使われます.
「無相関化」は多次元データを対象とした一種の座標変換であり,複雑なデータから特徴量を抽出する上で本質的な役割を果たします.主成分分析の場合,最適な座標変換をラグランジュの未定乗数法で求めることにより自動的に無相関化が達成されます.この「多次元データに対してラグランジュの未定乗数法を適用し,最適な座標変換を見出す」という流れは,データ処理の典型的なパターンです.これは様々なところで応用できる便利なテクニックであり,習得しておくと他のデータ処理でも大いに役立ちます.