AI資格ドリル

G検定 大項目3 機械学習の概要 予想問題と解説

G検定大項目3 機械学習の概要」の予想問題を14、各問の完全解説つきで掲載しています。全問オリジナル自作・公式シラバス準拠です。

この分野で問われる主な論点
  • 機械学習の種類
  • 代表的な手法
  • モデルの評価と過学習
  • 前処理とハイパーパラメータ

間違えやすいポイント(作問者分析)

当サイトの作問時に観察した、取り違えやすい論点です(公式の統計ではありません)。

  • 教師あり・教師なし・強化学習の分類の取り違え(分類/回帰=教師あり、クラスタリング/次元削減=教師なし)。
  • L1正則化(ラッソ=係数が0になり変数選択も兼ねる)とL2正則化(リッジ=係数を小さく抑えるが0にはなりにくい)の混同。
  • 適合率(精度)と再現率の取り違え、および混同行列の読み方。
1 ・ 機械学習の種類

正解ラベルが与えられていないデータから、データに潜む構造やまとまりを自動的に見つけ出すことを目的とする学習の枠組みはどれか。

  • 教師あり学習
  • 強化学習
  • 深層強化学習
  • 教師なし学習正解
解説

正解ラベルを使わずデータ内部の構造やまとまり(クラスタなど)を抽出するのは教師なし学習。教師あり学習は入力と正解ラベルの対応を学ぶため誤り。強化学習は報酬を手がかりに方策を学ぶ枠組みで、構造抽出が目的ではない。深層強化学習も報酬最大化を目指す強化学習の一種であり該当しない。

https://www.jdla.org/certificate/general/ (大項目3 機械学習の概要)

2 ・ 機械学習の種類

エージェントが環境と試行錯誤しながら行動し、得られる報酬の総和が最大になるような方策を獲得していく学習の枠組みはどれか。

  • 教師あり学習
  • 強化学習正解
  • アンサンブル学習
  • 教師なし学習
解説

報酬を手がかりに試行錯誤して方策を学ぶのは強化学習。教師あり学習は正解ラベル付きデータから入出力関係を学ぶもので報酬の概念はない。教師なし学習はラベルなしデータの構造抽出が目的。アンサンブル学習は複数のモデルを組み合わせて精度を高める手法であり、学習の枠組みそのものではない。

https://www.jdla.org/certificate/general/ (大項目3 機械学習の概要)

3 ・ 機械学習の種類

教師あり学習のうち、住宅価格や気温のように連続した数値そのものを予測することを目的とするタスクはどれか。

  • 次元削減
  • 分類
  • 回帰正解
  • クラスタリング
解説

連続値を予測する教師ありタスクは回帰。分類は離散的なカテゴリ(クラス)を予測するタスクで、連続値の予測ではない。クラスタリングはラベルなしデータをグループに分ける教師なしの処理。次元削減は特徴量の数を減らす処理であり、いずれも数値そのものを予測する目的ではない。

https://www.jdla.org/certificate/general/ (大項目3 機械学習の概要)

4 ・ 代表的な手法

異なるクラスのデータ点との間隔(マージン)が最大になるように識別の境界を決定する、教師あり学習の代表的な分類手法はどれか。

  • ナイーブベイズ
  • k近傍法
  • 主成分分析
  • サポートベクターマシン正解
解説

マージン最大化によって識別境界を引くのはサポートベクターマシン。k近傍法は近くにある既知データ点の多数決で分類する手法でマージンの概念は用いない。ナイーブベイズは特徴量の条件付き独立を仮定した確率に基づく分類手法。主成分分析は教師なしの次元削減手法であり分類器ではない。

https://www.jdla.org/certificate/general/ (大項目3 機械学習の概要)

5 ・ 代表的な手法

ラベルのないデータを、あらかじめ指定した数のグループに分け、各グループの重心を更新しながら振り分けを繰り返す教師なし学習の手法はどれか。

  • 主成分分析
  • k-means法正解
  • k近傍法
  • ロジスティック回帰
解説

指定した個数のグループの重心を更新しながらデータを振り分けるのはk-means法。k近傍法は近くの既知ラベルを参照して分類する教師あり手法で、重心更新やグループ生成は行わない。主成分分析は次元削減手法。ロジスティック回帰はラベル付きデータで分類確率を学ぶ教師あり手法であり、いずれも該当しない。

https://www.jdla.org/certificate/general/ (大項目3 機械学習の概要)

6 ・ 代表的な手法

多数の特徴量を持つデータを、情報の損失を抑えつつ分散が最大となる新たな軸へ変換し、より少ない変数で表現する手法はどれか。

  • 線形回帰
  • 決定木
  • 主成分分析正解
  • ロジスティック回帰
解説

分散が最大となる軸へ射影して次元を圧縮するのは主成分分析。線形回帰は説明変数から連続値を予測する手法で次元圧縮が目的ではない。決定木は条件分岐でデータを分割して予測する手法。ロジスティック回帰はクラス分類の確率を出力する手法であり、いずれも変数を減らして表現し直す処理ではない。

https://www.jdla.org/certificate/general/ (大項目3 機械学習の概要)

7 ・ 代表的な手法

複数の弱い学習器を組み合わせるアンサンブル学習のうち、前の学習器が誤ったデータを重視しながら次の学習器を逐次的に作っていく手法はどれか。

  • 主成分分析
  • バギング
  • ブースティング正解
  • k近傍法
解説

誤りを重視しながら学習器を順番に追加していくのはブースティング。バギングはデータを復元抽出して並列に学習器を作り平均・多数決をとる手法で、逐次的に誤りを補正するものではない。主成分分析は次元削減手法、k近傍法は近傍データによる分類手法であり、どちらもアンサンブルの逐次学習とは無関係。

https://www.jdla.org/certificate/general/ (大項目3 機械学習の概要)

8 ・ モデルの評価と過学習

訓練データに対しては高い精度を示すのに、未知のテストデータに対する精度が大きく下がってしまい、汎化性能が低い状態を何というか。

  • 正則化
  • 過学習正解
  • 交差検証
  • 未学習
解説

訓練データに適合しすぎて未知データへの汎化性能が下がる状態は過学習。未学習は訓練データにも十分適合できず訓練・テストともに精度が低い状態で逆の現象。正則化は過学習を抑えるための手法であって状態の名称ではない。交差検証は汎化性能を見積もる評価手法であり、状態を指す語ではない。

https://www.jdla.org/certificate/general/ (大項目3 機械学習の概要)

9 ・ モデルの評価と過学習

データを複数のグループに分割し、一部を検証用・残りを訓練用として役割を入れ替えながら学習と評価を繰り返すことで、汎化性能を安定して見積もる手法はどれか。

  • ホールドアウト法
  • 交差検証正解
  • 混同行列
  • 正則化
解説

分割した各グループの役割を入れ替えて評価を繰り返すのは交差検証。ホールドアウト法はデータを訓練用とテスト用に一度だけ分ける方法で、役割を入れ替えて繰り返すことはしない。混同行列は分類結果を表にまとめた評価ツール。正則化は過学習を抑える手法であり、いずれも評価の繰り返し手順ではない。

https://www.jdla.org/certificate/general/ (大項目3 機械学習の概要)

10 ・ モデルの評価と過学習

二値分類において、適合率(精度)と再現率の調和平均をとり、両者のバランスを一つの数値で表したものはどれか。

  • ROC曲線
  • 正解率
  • F値正解
  • 混同行列
解説

適合率と再現率の調和平均で両者のバランスを表すのはF値。正解率は全体のうち正しく予測できた割合で、適合率と再現率の調和平均ではない。混同行列は予測と実際の対応を整理した表そのもの。ROC曲線は閾値を変えたときの検出性能を描いた曲線であり、調和平均を表す単一の指標ではない。

https://www.jdla.org/certificate/general/ (大項目3 機械学習の概要)

11 ・ モデルの評価と過学習

線形回帰のモデルに、各係数の絶対値の和に比例した罰則を加えて学習することで、重要でない特徴量の係数をちょうど0に近づけ、実質的に変数の取捨選択も行えるようにする手法はどれか。

  • L1正則化(ラッソ回帰)正解
  • ロジスティック回帰
  • 線形回帰
  • L2正則化(リッジ回帰)
解説

正解はL1正則化(ラッソ回帰)。係数の絶対値の和を罰則として加えるため、重要でない特徴量の係数がちょうど0になりやすく、実質的に変数選択も兼ねられる。L2正則化(リッジ回帰)は係数の二乗和を罰則とし、係数を小さく抑えるが完全な0にはなりにくいので変数選択にはならない。線形回帰・ロジスティック回帰は罰則項を持たない素のモデルで、過剰適合を抑える罰則や係数の0化は行わない。

https://www.jdla.org/certificate/general/ (大項目3 機械学習の概要)

12 ・ 前処理とハイパーパラメータ

各特徴量から平均を引いて標準偏差で割り、平均0・分散1にそろえることで、単位やスケールの異なる特徴量を対等に扱えるようにする前処理はどれか。

  • 欠損値処理
  • ワンホットエンコーディング
  • 標準化正解
  • 正規化
解説

正解は標準化。各特徴量を平均0・分散1にそろえ、単位やスケールの異なる特徴量を対等に扱えるようにする。正規化は多くの場合、最小値0・最大値1の範囲に収める変換であり、平均0・分散1にそろえる操作とは異なる。ワンホットエンコーディングはカテゴリ変数を0/1の複数列に変換する処理、欠損値処理は欠けた値を補完または除外する処理であり、いずれもスケールをそろえる変換ではない。

https://www.jdla.org/certificate/general/ (大項目3 機械学習の概要)

13 ・ 前処理とハイパーパラメータ

あらかじめ指定した複数のハイパーパラメータの候補値について、その全ての組み合わせをもれなく試し、最も性能の良い設定を選ぶ手法はどれか。

  • グリッドサーチ正解
  • ランダムサーチ
  • ホールドアウト法
  • k分割交差検証
解説

正解はグリッドサーチ。指定したハイパーパラメータの候補値の全組み合わせをもれなく試し、最良の設定を選ぶ。ランダムサーチは候補の範囲から無作為に組み合わせを選んで試すため全組み合わせを網羅しない。ホールドアウト法・k分割交差検証はモデルの汎化性能を見積もる評価の手続きであって、ハイパーパラメータの組み合わせを総当たりで探す手法ではない。

https://www.jdla.org/certificate/general/ (大項目3 機械学習の概要)

14 ・ 前処理とハイパーパラメータ

クラスタリングで適切なクラスタ数を決める際、クラスタ数を増やしながらクラスタ内のばらつき(誤差)の値を見て、その減少のしかたが急に緩やかになる変化点を、ちょうどよいクラスタ数の目安とする手法はどれか。

  • 主成分分析(PCA)
  • k-means法
  • シルエット分析
  • エルボー法正解
解説

正解はエルボー法。クラスタ数を増やしながらクラスタ内のばらつき(誤差)を見て、減少のしかたが急に緩やかになる変化点を適切なクラスタ数の目安とする。シルエット分析は各データ点のまとまり具合を指標化してクラスタ数の妥当性を測る別の手法。k-means法はクラスタリングそのものを行うアルゴリズムでクラスタ数を決める手法ではなく、主成分分析(PCA)は次元削減の手法であり、いずれも誤差の折れ曲がりからクラスタ数を選ぶものではない。

https://www.jdla.org/certificate/general/ (大項目3 機械学習の概要)