AI・データサイエンス基礎

2023年11月19日日曜日

AI AI・データサイエンス ディープラーニング データサイエンス 機械学習

t f B! P L

無料で学べるオンライン講座(gacco)の期間限定講座 AI・データサイエンス基礎の受講メモを共有

■データとモデリングの基礎

  • ポイント
    • AIにはデータが必須だが、データだけでは不十分。
    • モデルも必要
    • ビックデータは集める・作る必要がある
    • データの種類と特性を理解しよう
  • ビッグデータとは何か?
    • 大量のデータと言えるが、何をもって大量のデータというのか、これはハードの機能に大きく依存しているといえる。
    • 様々な解釈あるが、一つの指標はエクセルに収まりきるかどうか、収まらないデータをビッグデータということもできる
    • ビッグデータのもっともらしい定義は、ガートナー、IBMの会社が定義したものを参考にすると、5Vがあげられる
      • 大量(volume)、多様(varaiety)、速度(velocity)
        ⇒ガートナー(garther)が定義
      • 上記に加えて、価値(value)、正確(veracity)
        ⇒ IBMが定義
  • AIにはなぜモデルが必要なのか?
    • 最近のAIの特徴
      昔は、何かの自然現象を説明する際は、専門家の知識をもとにモデル(数式)を作成してきた、つまりは専門知識に依存するやり方だった。今は、大量のデータをもとにモデル(数式)を作成する、データ依存のモデル作成が最近の特徴になっている。
    • 見方を変えると理解が変わる
    • 知識を仮定すると簡単になる

■データの収集・生成とモデル化のための整形

  • ポイント
    • ビジネスとデータの関係を知る
    • データ収集の問題点を知る
    • データ生成の方法を知る
    • データ整形の考え方を知る
  • ビジネスとデータの関係
    • ビジネス=金儲けだけが、ビジネスではない。別の見方では、ccc(charenge forchance of change)ともいう。
      工場やスーパーで発生する生データはデジタル化されて業務処理システムに統合される。最近は、そのシステムが外部システムやデータベースと連携し、分析・結果がシステムにフィードバックされ、現場の改善活動に活かされるようなフローになっている。AIが関与しているのは、分析・結果の部分。
  • データ収集の問題事例
    • ビジネスの現場:データがない、どこにあるか不明
    • 生データ:多すぎて手に負えない、処理できない
    • デジタル化:コード系の違い、収集方法の違い
    • 業務処理システム:古いシステムを使い続けていると、そのシステムのレガシー化でつかいにくく、システム保守出来る人が限られる
    • 外部システム:連携できない、セキュリティ問題
    • データベース:レガシー化、過去データと不整合、この項目が何のデータかわからない
    • 分析:担当・専門家がいない、優秀な人材が多い大企業に多いが、エクセルでの表計算が分散して存在⇒全体として整合がとれない
    • 結果:上手くまとめないと誰にも理解されない、変更が多い
  • 学習に必要なデータ量の問題
    • 深層学習の場合:~O(10 6乗)
    • 従来型学習の場合:~O(10 2乗)からO(10 4乗)
    • 知識主導型学習の場合:~O(10)
    • 人間の場合:~O(1)
  • データ生成の方法
    • システムからデータを得る(観測⇒生成)
      システムからデータを生成するために、まずは対象とするデータを詳しく観察した上で中身の解釈が必要となる。解釈のもとに、欲しいデータの生成ルールを予測し、対象の観測方法にフィードバックする。
  • データ生成の問題点データの整形プロセス
    • 機械学習システムでデータを使えるようにする手間:全作業の80~90%(データマイニング、データからの知識発見という概念 約20年前にでたチャート図)

■データとモデルをどう扱うか

  • ポイント
    • データとモデリングの考え方を知る
    • 理解指向モデルと応用指向モデルを知る
    • データとモデルの解釈方法を知る
    • 構造化データと非構造化データを知る
  • データとモデリングの基本的な考え方
    • 良いモデル:対象データとの当てはまりの良さ+解釈可能性
    • 実例:椿の例
  • 構造化データと非構造化データ
    • 時代とともに考え方が変わる
      • 構造化データ:テーブル、ネットワーク(SNS)、時系列
      • 非構造化データ:言語、音声、音響、web情報、画像、動画
  • 数理モデルの種類と使われ方(ペイジ2020)、(寺野2019)
    • 対象の観測⇒データの推測⇒モデル構築⇒対象と比較⇒モデル向上のためのデータ生成
    • モデルの構造には様々なパターンがある
      (ランダム、一定、線形、指数、二次、正規)
      ランダムは予測が難しいと言われているが、金融関係では予測するアルゴリズムがいくつかある。
      線形は人間にとって最も分かりやすいが、実際の現象は指数になりやすい
      よく使われている最適化の手法 ニュートン法が最たる例 世の中全てが2次関数で表現できることを前提にする
      今のNNや複雑問題は相手を正規分布とかていして考えることが一般的
    • 人工知能と人口知能、進化計算と機械学習(寺野2019)
  • 理解指向モデル(江崎2020)
    • データがどのような原理・仕組みで生成されるかを知るためのモデル
      • 数理構造から知る(従来のやり方)
      • 推定したパラメータ値からしる
      • 推定したパラメータと内部構造から知る
      • パラメータ値を変えてシミュレーションする(最近のAIモデルを構築方法)
  • 応用指向モデル
    • 手元データをもとに、同データに対して予測・制御、データを生成して利用するためのモデル
    • 応用指向モデルの例:
      • 回帰モデル
      • 分類モデル
        • 教師あり学習
        • 教師なし学習
      • 生成モデル
  • データとモデルの解釈
    • データから得られた知識が、モデルとの比較において
      • 事前の知識と一致していたら自明である ⇒ 役に立たない
      • 事前の知識と部分的に一致していたら興味深い ⇒ Pearl(真珠・豚)
      • 背景の知識で説明できなければゴミである
    • 主観的な判断はデータを対話的に操作している場合に重要
    • 矛盾する知識が異なるデータや異なる専門家から生じることがあるがそれでも重要
    • 確率推論ならJ.パール

■非構造化データの種類と特徴

  • ポイント(下記4点の特徴を知る)
    • 自然言語データ
    • 音声・音響
    • Web
    • 画像・映像
  • 非構造化データの特徴
    • 数値・記号・イメージなどが非定型あるいは複合化している
    • 大量かつ複雑になりやすい ⇒ 数値≒文字<<イメージ<<動画
    • 形式を整えることが難しい ⇒ いかに数値化するか
    • 定常状態になりにくい ⇒ 時間的変化の扱い
    • 統一的な手法で扱いにくい ⇒ 深層学習手法の進展で状況が一変
  • 自然言語の扱い
    • コンピュータ用の文法を作成
    • 事例ベースで学習(機械翻訳(日英翻訳ペア+プログラム))
    • 分析ツールの提供(形態素解析、wordnet、ワードクラウド、感情辞書)
    • 大量データの機械学習
      • 専用辞書の作成⇒watson
      • 日本語・英語については技術上の差異はない
      • 希少言語については無理
  • 音声・音響とセンサデータの扱い
    • 音声・音響データ
      • 元データをノイズなく取り出す
      • 時系列データとしての処理(モデルの利用)
      • 自然言語処理・音響情報処理
    • センサデータ(寺野2018)
      • プラントデータ⇒ノイズを取り除く⇒規則がわかりモデル化できる⇒モデルをもとに制御システムを設計できる
    • webデータの扱い
      • インターネット:ロバストな通信システム⇒www⇒ブラウザ
      • ビジネス・e-コマースへの利用
      • 大規模データへ
      • データがつながることで新しい価値が生まれる
    • 画像・映像データの扱い
      • 手順
        • 前処理:ノイズ除去
        • 対象の認識
        • 情報抽出
        • 事前学習
        • 事例適用
      • 応用分野
        • 顔認証
        • 自動アノテーション
        • 行動分析
        • 画像情報からの翻訳
        • 画像情報からの文章生成
        • 自動運転
        • 医療画像解析

■大きく変わるデータとモデリングの概念

  • ポイント
    • ビッグデータの課題を知る
    • データとモデリングの考え方のこれから
  • モデリング指向とデータ指向の繰り返しの歴史(寺野2019)
  • 存在するビッグデータから意思決定に利用できるスモールデータへ
    • ビッグデータのままでは人間は理解できない
    • スモールデータはエクセルでグラフ化できる程度、エクセルの一画面のテーブル
    • プライバシーとセキュリティの問題
      • フェイクニュースとエコーチェンバー現象
      • プライバシー保存型データマイニング
    • 計算速度vsメモリー規模の課題
      • 計算スピードは過去から大きく向上している
    • ビッグデータとIOTデータの関連
      • 集めないビッグデータ処理へ(ストリーミングの利用)
  • AIビジネスを成功させるためには
    • AIプロジェクト負のスパイラルを回避することが大切
    • 業務プロセスの理解、効果に時間がかかることへの経営からの理解
       

ブログ アーカイブ

Profile

自分の写真
30代、4歳と2歳の男の子のパパ。 製造メーカーに需給調整部門に所属し、ICTを活用した業務効率化や業務変革の提案や推進を担当。 このブログでは機械学習やビジネスインテリジェンスなど、データ分析に関する情報を主に取り扱う。

QooQ