AI資格ドリル

G検定 大項目4 ディープラーニングの概要 予想問題と解説

G検定大項目4 ディープラーニングの概要」の予想問題を12、各問の完全解説つきで掲載しています。全問オリジナル自作・公式シラバス準拠です。

この分野で問われる主な論点
  • ニューラルネットワークの基礎
  • 学習の仕組み
  • 活性化関数と過学習対策
  • 計算資源

間違えやすいポイント(作問者分析)

当サイトの作問時に観察した、取り違えやすい論点です(公式の統計ではありません)。

  • 勾配消失問題と勾配爆発の混同、およびReLUなど活性化関数による緩和の役割。
  • 局所最適解・大域最適解・鞍点の区別(鞍点はある方向に極小・別方向に極大)。
  • 誤差逆伝播法(バックプロパゲーション)と勾配降下法の役割の取り違え。
1 ・ ニューラルネットワークの基礎

入力を直接出力に結びつける単純な構造では表現力が足りないため、入力層と出力層の間に中間の層を追加して複雑な対応関係を表せるようにしたニューラルネットワークはどれか。

  • オートエンコーダ
  • 多層パーセプトロン正解
  • 単純パーセプトロン
  • 畳み込みニューラルネットワーク
解説

正解は多層パーセプトロン。単純パーセプトロンは入力層と出力層だけで表現力が限られるが、間に隠れ層(中間層)を加えた多層パーセプトロンにすることで複雑な対応関係を表せる。単純パーセプトロンは改良前の構造そのもので誤り。オートエンコーダは入力を再現する別目的のネットワーク。畳み込みニューラルネットワークは画像処理向けの別構造(大項目5)。

https://www.jdla.org/certificate/general/ (大項目4 ディープラーニングの概要)

2 ・ ニューラルネットワークの基礎

ニューロンが受け取る複数の入力それぞれに掛け合わされ、その入力が出力にどれだけ影響するかを表す、学習によって調整される数値はどれか。

  • 学習率
  • バイアス
  • 重み正解
  • 活性化関数
解説

正解は重み。各入力に掛け合わされて重要度を表すのは重み。バイアスは入力に加算される定数項で発火のしやすさを調整するもので、掛け合わせる係数ではない。活性化関数は重み付き和を非線形に変換する関数。学習率は更新の歩幅を決める値で、入力ごとの係数ではない。

https://www.jdla.org/certificate/general/ (大項目4 ディープラーニングの概要)

3 ・ 学習の仕組み

出力で生じた誤差を出力側の層から入力側の層へ向かってさかのぼらせ、各重みをどれだけ修正すべきかを計算する学習手法はどれか。

  • 交差検証(クロスバリデーション)
  • 確率的勾配降下法(SGD)
  • 主成分分析(PCA)
  • 誤差逆伝播法(バックプロパゲーション)正解
解説

正解は誤差逆伝播法。出力の誤差を出力層側から入力層側へ逆向きに伝え、各重みの修正量(勾配)を求める手法。確率的勾配降下法は求めた勾配を使ってパラメータを更新する方法であり、誤差を逆向きに伝える手続きそのものではない。主成分分析は次元削減(大項目3)、交差検証はモデル評価法(大項目3)で学習手法ではない。

https://www.jdla.org/certificate/general/ (大項目4 ディープラーニングの概要)

4 ・ 学習の仕組み

ネットワークの層を深くしたとき、シグモイド関数などの微分値が1未満で小さいために、入力層に近い層ほど重みの更新がほとんど進まなくなる現象はどれか。

  • 過学習(オーバーフィッティング)
  • 勾配消失問題正解
  • 次元削減
  • 信用割当問題
解説

正解は勾配消失問題。シグモイド関数などは微分値が小さく、層が深いと入力層側へ伝わる更新量が次第に小さくなり学習が進まない。信用割当問題はどのユニットが結果に寄与したかを割り当てる別の問題。過学習は訓練データに適合しすぎる現象(大項目3)。次元削減はデータの特徴量を減らす手法(大項目3)で、いずれも更新量が伝わらない現象ではない。

https://www.jdla.org/certificate/general/ (大項目4 ディープラーニングの概要)

5 ・ 学習の仕組み

入力されたデータと同じものを出力するように学習させ、その過程で隠れ層に得られる低次元の表現を特徴抽出や事前学習に利用するネットワークはどれか。

  • オートエンコーダ正解
  • 畳み込みニューラルネットワーク
  • 多層パーセプトロン
  • 単純パーセプトロン
解説

正解はオートエンコーダ。入力と同じ出力を再現するよう学習し、隠れ層に圧縮表現を得て特徴抽出や事前学習に用いる。多層パーセプトロン・単純パーセプトロン・畳み込みニューラルネットワークはいずれも入力の再現を目的とした構造ではないため誤り。

https://www.jdla.org/certificate/general/ (大項目4 ディープラーニングの概要)

6 ・ 活性化関数と過学習対策

出力層で用いられ、各クラスに対する出力値を合計が1になるように変換することで、多クラス分類の確率分布として解釈できるようにする関数はどれか。

  • tanh関数
  • ソフトマックス関数正解
  • シグモイド関数
  • ReLU関数
解説

正解はソフトマックス関数。複数の出力を合計が1になる確率分布に変換し、多クラス分類の出力層で使う。シグモイド関数は各値を独立に0〜1へ変換するが合計は1にならない。ReLU関数は正の値をそのまま出す関数、tanh関数は-1〜1へ変換する関数で、いずれも確率分布を作る役割ではない。

https://www.jdla.org/certificate/general/ (大項目4 ディープラーニングの概要)

7 ・ 活性化関数と過学習対策

入力値が0以下のとき0を、0より大きいときはその値をそのまま出力する単純な形で、勾配消失問題を起こしにくくした活性化関数はどれか。

  • ソフトマックス関数
  • シグモイド関数
  • tanh関数
  • ReLU関数正解
解説

正解はReLU関数。入力が0以下なら0、正ならそのまま出力し、正の領域で微分が一定なので勾配消失を起こしにくい。シグモイド関数・tanh関数は飽和域で微分が小さくなり勾配消失を招きやすい。ソフトマックス関数は出力層で確率分布を作る関数で、隠れ層の活性化として使うものではない。

https://www.jdla.org/certificate/general/ (大項目4 ディープラーニングの概要)

8 ・ 活性化関数と過学習対策

学習の各ステップで一部のノードを一定の割合でランダムに使わないようにすることで、特定のノードへの依存を防ぎ過学習を抑制する手法はどれか。

  • バッチ正規化
  • 重みの初期化
  • ドロップアウト正解
  • 早期終了(early stopping)
解説

正解はドロップアウト。学習時にノードを一定割合でランダムに無効化し、特定ノードへの依存を防いで過学習を抑える。バッチ正規化は層の出力分布を正規化する手法、早期終了は検証誤差が悪化する前に学習を止める手法、重みの初期化は学習開始時の重みの与え方であり、いずれもノードのランダム無効化ではない。

https://www.jdla.org/certificate/general/ (大項目4 ディープラーニングの概要)

9 ・ 計算資源

もともと画像処理向けに開発され、多数の演算コアによる並列計算がディープラーニングの大量の行列演算に適しているとして広く転用された半導体はどれか。

  • ムーアの法則
  • TPU
  • GPU正解
  • CUDA
解説

正解はGPU。もとは画像処理用に開発され、多数のコアによる並列計算が大量の行列演算に適するためディープラーニングに転用された。TPUはGoogleがテンソル演算に特化して開発した別の半導体で画像処理由来ではない。CUDAはGPUを汎用計算に使うためのソフトウェア環境で半導体ではない。ムーアの法則は集積度に関する経験則。

https://www.jdla.org/certificate/general/ (大項目4 ディープラーニングの概要)

10 ・ 計算資源

NVIDIA社が提供する、GPUを画像処理だけでなく一般的な数値計算にも活用できるようにするための開発・実行環境はどれか。

  • CUDA正解
  • TPU
  • GPU
  • ムーアの法則
解説

正解はCUDA。NVIDIAが提供し、GPUを一般的な数値計算に活用するための開発・実行環境(プラットフォーム)。TPU・GPUはいずれも演算を行う半導体(ハードウェア)であり開発環境ではない。ムーアの法則は半導体の集積度が一定期間で倍増するという経験則で、環境でも装置でもない。

https://www.jdla.org/certificate/general/ (大項目4 ディープラーニングの概要)

11 ・ 学習の仕組み

訓練データが全部で10000件あり、これを1000件ずつのまとまりに分けて順に学習させる。この10000件すべてを1度ずつ使い終えた状態を1回と数える、学習の進み具合を表す単位はどれか。

  • エポック正解
  • バッチサイズ
  • 学習率
  • イテレーション
解説

正解はエポック。訓練データ全体を1度ずつすべて使い終えることを1回と数える単位で、学習を何巡させたかを表す。バッチサイズは1回の更新に使うデータ件数(この例では1000件)、イテレーションはパラメータを1回更新する処理の回数(この例では1エポックあたり10回)であり、どちらもデータ全体を1巡する単位ではない。学習率は更新時の歩幅を決める値で、学習の進み具合を数える単位ではない。

https://www.jdla.org/certificate/general/ (大項目4 ディープラーニングの概要)

12 ・ 学習の仕組み

深い層を持つネットワークの学習が難しかった時期に、確率的に動作する単純なネットワークを部品として複数積み重ね、下の層から順に1層ずつ教師なしで事前学習することで、深いネットワーク全体の学習を実現したモデルはどれか。

  • 多層パーセプトロン
  • オートエンコーダ
  • 制限付きボルツマンマシン
  • ディープビリーフネットワーク正解
解説

正解はディープビリーフネットワーク。制限付きボルツマンマシンを部品として積み重ね、下の層から順に1層ずつ教師なしで事前学習することで、深いネットワーク全体の学習を可能にしたモデル。制限付きボルツマンマシンは、そのために積み重ねられる部品となる単一のネットワークであって、積み重ねた全体ではない。オートエンコーダは入力を再現するように学習して特徴を抽出するネットワーク、多層パーセプトロンは隠れ層を持つ基本的な順伝播型ネットワークであり、いずれも確率的な部品の積み重ねと層ごとの事前学習で構成されたモデルそのものではない。

https://www.jdla.org/certificate/general/ (大項目4 ディープラーニングの概要)