AI・データサイエンス基礎(AIや機械学習の中身について)

2023年11月19日日曜日

AI AI・データサイエンス ディープラーニング データサイエンス 機械学習

t f B! P L

■セッション内容

  1. AIブームを見極めよう
  2. AI、機械学習、ディープラーニング
  3. ディープラーニングの構造と能力
  4. 機械学習の実行手順
  5. AI導入時に注意すべき点
  6. 今後のAIの可能性

■AIブームを見極めよう

  • 今、なぜAI(人工知能)がブームになっているのか
    • 過去のAIブームはどのような内容であったのか?
    • どのようなブレークスルーを経て今のブームに至るのか?
    • 機械学習によるAIは特有な問題設定に基づいている。それは、知りたい情報を意図的に設定することである
    • AIは、本当に人工知能というレベルにあるのだろうか
  • ダートマス会議(1956年7,8月、場所は米国ダートマス大学)で初めてAI(人工知能)という用語が使用された。
    • 提案者:John McCarthy他4人の計5名
    • AIに関する主題は7項目
      • automatic computers
      • computer programmed to use a language
      • Neuron nets 他
    • ダートマス会議を契機にAIブームが起こるが、AI能力の批判から1970年代に冬の時代に、そして近年のハードの能力向上や優秀なアルゴリズムの発見から再ブーム(1980~1990年代)
    • 誤差逆伝播法の発見等で二次ブーム再来も、マシンの計算能力不足で再び冬の時代に・・・。
    • 第三次AIブーム(2006年~)
      • 一般ユーザーでも手に入れられる高速プロセッサの登場
      • 非線形サポートベクトルマシン
      • IBMワトソンがクイズ番組で人に勝利
      • 多層ニューラルネットワークによる本格的なディープラーニングの登場
        • 8層NNが画像認識の競争で圧倒的に勝利
        • NNのアルゴリズムを公開
      • AIが、チェスや将棋、囲碁でも勝利することが発生
      • 人をだませるディープラーニングの登場(GAN)
      • 充実したDLツールと計算サイトが公開(KerasによるTensorFlowなど)
      • 機械学習、ディープラーニングとしての問題設定
        • 入手済データ(不完全情報)+知りたい情報はなにかを設定(未知情報)=完全データ(完全情報)

■AI、機械学習、ディープラーニング

  • ポイント
    • AI、機械学習、ディープラーニングの相互関係を理解しよう
    • 機械学習にはいろいろな種類がある
      (教師あり学習、教師なし学習、強化学習)
    • 学習は結果を利用するための前段階
    • 学習結果の利用(recall、想起、適用)には様々な形がある
  • AI、機械学習、ディープラーニングの相互関係を理解しよう
    • 機 械 学 習 A 日 ル ー ル ペ ー ス は 皮 の 部 分 ) 教 師 あ リ 学 習 ニ ュ ー ラ ル ネ ッ ト ワ - ク デ ィ ー プ ラ ー 教 師 な し 学 習 ニ ン グ 強 化 学 習
    • AIは最も広い概念、機械学習はその中の一種類である
    • 機械学習では、適切なデータを得て置き、それによる学習結果をその他の実例に対して正確に適用できるかが大事な問題
    • 教師あり/なし学習、強化学習がある。3種類を組合せてた高度な手法もある
    • NNは教師あり学習を主体としている
    • NNの特別な進化版がDLである
    • DLはどの手法にも適用可能
  • 教師あり学習、教師なし学習の内容
     
    • 教師あり学習:教師データyと出力y^の誤差が小さくなるように学習がすすめられる
    • 教師なし:事前に与えられた評価規範に対して出力y^が最適化するように学習がすすめられる
  • 強化学習
    • 図 強 化 学 習 強 化 学 習 は . 次 の 時 気 に ど う い う 行 動 を と れ は , そ れ に う 報 第 が 最 も よ く 増 え る の か と い う 規 に 従 っ て , 行 動 を 選 し て い く 境 ど は . と リ う る 収 進 全 て の 関 達 を 指 す る 形 を の こ と て あ る を 道 図 ) - 環 境 は 一 あ ら か じ め 決 め ら れ て い る 場 合 し 行 動 に 応 じ て 変 化 し て い く 場 合 と が あ る - 0 は 単 に 時 臠 の 洋 れ を 第 味 し て い る . そ の た め に . 行 動 も 報 物 も 再 と よ は れ る 構 造 に な る 田 m ” 方 板 式 ) .
  • 学習結果の利用(recall、想起、適用)
    • トレーニングデータに基づく学習結果は、別のデータに適用される
    • 利用のジャンル
      • 推定:この写真の食事は何キロカロリーか?
      • 分類:この音はどういう種類の音だろうか?
      • 回帰:この場所の通年の交通量はどういう曲線か
      • 認識:この動物は何という動物か
      • 創出:この写真をゴッホ風にしてほしい
      • 自己組織化:このデータにはどんな形が潜んでいるのか

■ディープラーニングの構造と能力

  • ディープラーニングは何がすごいのか、その理解のために
    • NNの人工ニューロンと生体ニューロンの違いを知る
    • NNのアルゴリズムを理解する
    • ディープラーニングの構造を理解する(横展開型と縦積み型)
    • ディープラーニングが可能にしたことを理解する
  • ニューラルネットに基本構造:誤差逆伝播法
     
    • ァ イ ー プ ラ ー ニ ン グ の 構 造 と 能 力 ニ ュ ー ラ ル ネ ッ ト の 基 本 構 造 : 誤 差 逆 伝 権 法 [ 2 帳 【 引 出 力 層 中 蘭 層 図 7. 2 層 の ニ ュ - フ ル ネ ッ ト ワ - ク : 字 習 の 対 象 と な る 層 が 2 つ . 人 力 層 も 数 え て , 3 層 と よ ぶ 人 も い る . ( 3 ) 出 力 層 : 0 と 1 の 間 の 値 に 変 換 . 全 部 の 和 が 1 と な る よ う に 正 規 化 す る 場 合 も あ る . ( 2 ) 中 間 層 : 入 出 力 変 後 に , 市 み を か け て 多 分 岐 . ( 1 ) 入 力 層 : そ の ま ま の 値 を 出 力 す る 素 子 。 出 力 に は 重 み が 掛 け ら れ る . ( 4 ) 誤 差 を 計 算 し , ま ず 上 の 層 の 重 み が 更 新 さ れ , 次 い で そ の 値 を 使 っ て 下 の 層 の 重 み が 更 新 さ れ る : 差 逆 伝 法 ( E Back 円 opag i00 )
  • ニューラルネットワークの近似能力
    • 図 ま 人 工 ニ ニ ン グ の 構 造 と 能 力 10. 生 ー を ニ ュ ー 0 ン の バ ル ニ ュ ー ラ ル ネ ッ ト ワ - ク の 近 似 能 力 - ロ ン の 活 を 化 関 数 と し て は を 図 9 の よ う な ロ シ ス テ ィ ッ ク 関 数 や R し 凵 関 数 が 物 い ら れ る - - 0 ン に 適 切 な ) 、 出 力 興 係 が あ る と き 一 物 : 0 ジ ス テ ィ ッ ク 関 ー 2 第 、 、 は 任 を の 積 度 で ) 、 士 力 関 保 を ー 0 ン の ス 土 カ 係 近 県 で き る ( 冊 橋 賢 -. ド 日 9 川 : G. C 池 en ( 0 コ 9. 旧 l) : 様 属 開 生 体 の ニ - ロ ン は 図 の よ う に パ ル ス の 第 が 情 報 を に つ て い る [91.
  • ディープラーニング:縦積みの畳み込みニューラルネットワーク
    • 畳み込みとは:情報の強調と収縮
      • 3×3の情報を1×1の情報に集約する
      • 3×3の情報を縦方向、横方向、斜め方向、局所的に強調する
      • 集約と強調を調整するのがgという関数
  • 再帰型ニューラルネットワークと長期型ニューラルネットワーク
    • ディープラーニングにおける特色ある構造としては、CNN、LSTM、GAN、Deep-Qがあげられる
    • 再帰型ニューラルネットワークは時間順序をもつ入力を扱える
  • 敵対的生成ネットワーク(GAN)
    • 二つのNNを利用する
      • 生成NN:乱数or言語情報をもとに偽画像を生成
      • 識別NN:偽画像と本物画像が混雑したデータから本物/偽物を識別
      • 識別精度50%になるように生成NNが学習していく
  • 深層強化学習(Deep-Qニューラルネットワーク
    • 強化学習にニューラルネットワークを利用することで、行動の選択が増える
  • ディープラーニングが可能にしたこと
    • 画像の物体認識が可能になった(猫なのか犬なのか)
    • 畳み込みニューラルによって人と同等以上の画像識別能力が発揮された
    • 再帰的NNによって、時間や順序をもつデータの処理能力も向上した(とくに音声認識や機械翻訳に有効
    • 人間さえもだませるGANが登場
    • DeepQによって人間を上回るゲームエージェントが登場

■機械学習の実行手順

  • 手順
    • 学習データの作成(収集と前処理
    • 機械学習の実行(モデル構築、性能検証、過学習のチェック
      1. 機械学習システムの選択(CNN、LSTM、再帰型NN等)
      2. 繰り返し学習でパラメータの更新、収束
      3. 検証用データでモデル検証と見直し、再学習
      4. テストデータで最終評価、実効性を判断
    • 学習結果の利用と再学習
  • 良いデータの準備は性能発揮のための生命線
    • データは数値化(ベクトル化/テンソル)されて学習に取り込まれる。データの質をよくするために、正規化やバラツキの平準化等の前処理が施される。
    • テキストデータのベクトル化は様々な手法がある
    • データの補完(欠損値の補完)や外れの値の除去を行う
    • データ拡張のために、画像の場合であれば回転、反転、平行移動した画像を作成する
    • 高次元ベクトルの時は、主成分分析や独立成分分析を用いて次元削減を適用する
    • 前処置の出来が機械学習の性能を大きく左右する
    • データを訓練データとテストデータに大別する。現在では、さらに訓練データの一部分を検証データセットとして分離するケースがおおい。いずれのデータもデータ間で重複があってはならない。
  • 性能検証、過学習のチェック
    • モデルの性能が訓練データでは良い結果を示すのに対して検証データで性能が十分に発揮されない状況を過学習という。
    • 過学習を防ぐ手法として、例えばドロップアウト法がある。
  • 転移学習
    • DLの効率的な学習には、パラメータ(重み)の初期値をよい値に選んでおくことが有効。
    • そうでなければ、乱数を用いてたくさんのデータをもちいて、パラメータを収束することになる。
    • 他の事例で学習したモデルを利用して、対象現象に応じたモデルを作成することで効率的な学習が可能となる
    • ただし、転移学習で望ましい能力がどうかは注意が必要

■AI導入時に注意すべきこと

  • 特有な注意点:
    • 従来型のシステム開発とは異なる点がある
    • 想定される難しさ
      • 可能性は低くてもエラーが存在する
      • なぜそうなるのかという説明をできることが必要
      • 法律と倫理がおいついてない
  • 従来型システムの開発との違い
    • ルールベースによるAI:設定したルールに従って、コンピュータで高速に判断・処理する。
      課題は、データの微妙な変化に対処しきれない(例:顔画像の角度ズレ)
    • 機械学習によるAI:データを集めて学習型情報処理を行い、結果ををルール化する
      • 企画:現実的に可能か、費用対効果はあるのか?特許にひっかからないか?
      • データの準備:質の良い大量のデータをえられるのか?
      • モデルの選択:ディープラーニング、HMM(隠れマルコフモデル)、サポートベクターマシン等
      • 試作モデルの作成
      • 実運用:重要な判断にかかわることは、全て機械まかせにしないこと
      • 定期更新、調整:最新データも含めて機械学習を再実施
  • いろいろな難しさ
    • エラーの存在:TP、FP、TN、FNの概念がある
      • 人の能力を超える部分があっても機械学習にもエラーはある
      • 機械が判断ミスをしたばあい、エラーの責任はどこに、だれにあるのか?
    • 中身が説明できない
      • DLの判断基準は、言語レベルで論理的に説明することは出来ない。(ブラックボックス)
    • 説明可能性やELSI(倫理や法的、社会的課題)が追いついていない
      • 最終的な利用者は人であるため責任も人にある。その場合、ブラックボックスはAI活用の妨げになる。
      • システムの頑健性に問題はないか、微細な故障が判定に影響を及ぼさないか、ISOが活動中
      • 説明可能な機能学習への取り組みも進んでいる。DARPAやグーグルのXAIプロジェクトが進行している
      • ELSIとAI活用がかんれんしていない。事故が起きた時の責任は?だれをどうやってさばく?保険は適用されるのか?

■今後のAIの可能性

  • ポイント
    • 「知的なAI」から「頭脳的なAI」に移りつつある。その先はどうなるのであろうか?
    • シンギュラリティ(技術的特異点)は本当に起こりうるのだろうか?
  • 「知的」から「頭脳的」へ
    • AIは、機械学習やディープラーニングによって、部分的に人を超える能力を発揮しはじめている。かなり「知的なAI」になっている
    • その先に「頭脳的AI」の登場が考えられる(二つの意味がある)
      • ハードの上でより脳構造的になる
      • できることが「頭脳的」になる
    • 「頭脳的AI」の登場で、知的労働とみなされていた職種の一部が頭脳的ましんに置き換わる。これは、動作による作業を含む部分についても同様。逆にその分だけ、人材を必要とする新たな職種が登場し、社会構造が変化していく。
  • そしてその先は?
    • ルールベースAI、機械学習、DLは、ますます生活に浸透し、高齢者もその使用を余儀なくされる
    • かつてのデジタルデバイドが、AIデバイドに置き換わる
    • 技術的には、多様な分野を学習したAI(頭脳的AI)が登場する。いわゆる、汎用人工知能
    • さらにその先には、技術的特異点を迎える予測も出ている
      • カーツワイルが2005年に出した主張
      • 2030年にAIは人の人口知能レベルを超える
      • 2045年には、AI自身がよりAIを作りあげる段階にはいる
      • この説の可能性は、業界の様々な大物から否定論と肯定論がでている

ブログ アーカイブ

Profile

自分の写真
30代、4歳と2歳の男の子のパパ。 製造メーカーに需給調整部門に所属し、ICTを活用した業務効率化や業務変革の提案や推進を担当。 このブログでは機械学習やビジネスインテリジェンスなど、データ分析に関する情報を主に取り扱う。

QooQ