リニア・テック

ログイン

カート

アメリカ社会統計データ(2024)を読み解く

主成分分析

クリックすると大きい画像を表示します.

タップすると大きい画像を表示します.

  • 動画セミナ
    1日分

  • 解説資料
    222ページ

  • 再生時間
    12時間

  • R,Python
    コード付き

商品コード

S-0001-00

商品コード S-0001-00

\11,000

購入数

機械学習のアルゴリズムでアメリカ社会を読み解く

「主成分分析」(Principal Component Analysis, PCA)は,複雑なデータから効率よく「特徴量」を抽出するための統計的な手法です.人工知能(いわゆる"AI")における前処理や機械学習のアルゴリズムとして,幅広い分野で応用されています.主成分分析はそれ自体が非常に有用でおもしろい技術ですが,統計解析やデータ・サイエンスを学ぶための教材としても優れています.

本セミナでは,2024年末に行われたアメリカ大統領選挙およびアメリカ国勢調査のデータを題材として「いまアメリカで何が起きているのか」をデータ分析によって解き明かします.主成分分析の結果には,アメリカ全50州の特徴が明確に反映されています.統計解析の技術を習得した上で,さらにアメリカという国に対する解像度を上げることができるため,数学的な話と社会的な話の2つを同時に楽しむことができます.

データ分析に必要な数学を網羅する

主成分分析のアルゴリズムには 微分線形代数確率統計 といった一般的なデータ分析で必要となる要素技術がすべて含まれています.本セミナでは,数学の基礎から主成分分析のアルゴリズムの導出まで一気通貫で解説します.

データ分析の分野では「最も効率の良い計算方法」や「最も多くの情報量を引き出すための処理」といったものを探すことがよくあります.こうした時に使われるのが「微分」のテクニックであり,特に「ラグランジュの未定乗数法」は制約条件のもとで最適化を行うための強力な技法です.主成分分析でも,ラグランジュの未定乗数法が重要な役割を果たします.

一般的なデータの変換や加工といった処理は,「ベクトルに対する線形写像」だと見なすことができます.そして,この線形写像に関するノウハウをまとめた体系が「線形代数」です.特に,主成分分析は線形代数における「固有値問題」と深い関係があります.固有値問題の帰結として得られる「データの無相関化」も含めて,主成分分析で行う処理の本質的な意味を解説します.

「確率・統計」の知識は,データの変換や解釈をするときに非常に大きな助けとなります.期待値分散標準偏差といった基本的な概念から不偏推定量の話題まで,はじめてデータ分析に関わる方を想定して丁寧に解説します.

上記のとおり,本セミナでは実用的な主成分分析の活用法だけではなく,その本質を担う数学についても時間を割いて解説します.これは,主成分分析にとどまらず様々な分野で活用できる汎用的なテクニックです.地に足をつけて自力でデータと向き合う方法を習得すれば,よくわからないキラキラした "AI" の幻想に惑わされたり,流行に振り回されて中身のない議論に終始したりすることもなくなります.

統計解析ツール "R" で実験する

本セミナでは,フリーの統計解析ツールである "R" (アール)を使ってたくさんの実験を行います.Rの基本的なコマンドからすべて解説するので,前知識は不要です.ぜひ,自分の手を動かして実際のデータ処理を体験してみてください.

本セミナにはRのサンプル・コード(Rスクリプト)と実験用のデータが付属します.Rのインストールについては Rの実行環境のインストール を参照してください.

Pythonで主成分分析のプログラムを書く

上記の "R" は簡単に統計解析を実行できるので便利ですが,1つのコマンドで計算処理が終わってしまうので具体的な計算の内容がわかりません.そこで,プログラミング言語 "Python"(パイソン) を使って自力ですべての処理をコーディングしてみます.

できる限り外部ライブラリ(モジュール)に頼らずにプログラムを書くことで,主成分分析のアルゴリズムの徹底的な理解を目指します.また,ここで身に着けたノウハウは他のデータ処理を実装する時にも大いに役立ちます.

本セミナにはPythonのサンプル・コードと実験用のデータが付属します.Pythonの実行環境については Pythonインタプリタのインストール を参照してください.

前提知識

「初等関数と微分・積分」のセミナで解説した以下の項目は既知とします.

  • 微分の定義
  • 導関数の意味
  • 関数の和の微分
  • 関数の積の微分

また,「線形代数」のセミナで解説した以下の項目について,簡単な確認はしますが初歩的な内容は既知だと仮定して解説を進めます.

  • ベクトルと行列の基本的な計算
  • 行列が可逆(正則)であるための条件
  • グラム・シュミットの正規直交化法
  • 線形代数の基本定理(行列による写像に関する4つの部分空間)
  • 固有値と固有ベクトル
  • 行列の対角化
  • 行列の上三角化
  • 行列の特異値分解

紙とペンをご用意ください

本セミナの一部では,「クイズ」と称して簡単な穴埋め問題を用意しています.ぜひ手元に紙とペンを用意し,動画を一時停止して考えながらご視聴ください.

本セミナの内容は,時間的な都合がある中でどうしてもカットできない項目を集めたものです.資料に書かれている数式や図は,本質的な理解を得る上で必ず通るべき「道」です.定理や命題を導出する過程を目で追うだけではなく「実際に自分の手で書き写してみる」ことを強くおすすめします.実際に現場で使う道具として「手に馴染ませる」ことが重要です.

さらにやる気があれば,定義については自分の言葉で説明できるように,定理や公式は自力で導出できるように訓練してみてください.「こんな数式が何の役に立つのだ?」という疑問には,セミナの中ですべて答えているはずです.

解説内容

Part 1(主成分分析の実例,確率,統計)

  • 「主成分分析」でアメリカ社会を読み解く
  • 記述統計の基礎
  • 確率論の基礎
  • 2次元の確率変数
  • 母数の推定

Part 2(微分,線形代数,主成分分析のアルゴリズム,R,Python)

  • 多変数関数の微分
  • ラグランジュの未定乗数法
  • 行列の対角化
  • 行列の特異値分解
  • 主成分分析のアルゴリズムの導出
  • 特異値分解による主成分分析のアルゴリズム
  • Rによる主成分分析の計算(簡単なデータで実験)
  • Rによる主成分分析の計算(アメリカ50州の社会統計データ)
  • Pythonによる主成分分析の計算