無料で学べるオンライン講座(gacco)の期間限定講座 AI・データサイエンス基礎の受講メモを共有
■データとモデリングの基礎
- ポイント
- AIにはデータが必須だが、データだけでは不十分。
- モデルも必要
- ビックデータは集める・作る必要がある
- データの種類と特性を理解しよう
- ビッグデータとは何か?
- 大量のデータと言えるが、何をもって大量のデータというのか、これはハードの機能に大きく依存しているといえる。
- 様々な解釈あるが、一つの指標はエクセルに収まりきるかどうか、収まらないデータをビッグデータということもできる
- ビッグデータのもっともらしい定義は、ガートナー、IBMの会社が定義したものを参考にすると、5Vがあげられる
- 大量(volume)、多様(varaiety)、速度(velocity)
⇒ガートナー(garther)が定義 - 上記に加えて、価値(value)、正確(veracity)
⇒ IBMが定義
- 大量(volume)、多様(varaiety)、速度(velocity)
- AIにはなぜモデルが必要なのか?
- 最近のAIの特徴
昔は、何かの自然現象を説明する際は、専門家の知識をもとにモデル(数式)を作成してきた、つまりは専門知識に依存するやり方だった。今は、大量のデータをもとにモデル(数式)を作成する、データ依存のモデル作成が最近の特徴になっている。 - 見方を変えると理解が変わる
- 知識を仮定すると簡単になる
- 最近のAIの特徴
■データの収集・生成とモデル化のための整形
- ポイント
- ビジネスとデータの関係を知る
- データ収集の問題点を知る
- データ生成の方法を知る
- データ整形の考え方を知る
- ビジネスとデータの関係
- ビジネス=金儲けだけが、ビジネスではない。別の見方では、ccc(charenge forchance of change)ともいう。
工場やスーパーで発生する生データはデジタル化されて業務処理システムに統合される。最近は、そのシステムが外部システムやデータベースと連携し、分析・結果がシステムにフィードバックされ、現場の改善活動に活かされるようなフローになっている。AIが関与しているのは、分析・結果の部分。
- ビジネス=金儲けだけが、ビジネスではない。別の見方では、ccc(charenge forchance of change)ともいう。
- データ収集の問題事例
- ビジネスの現場:データがない、どこにあるか不明
- 生データ:多すぎて手に負えない、処理できない
- デジタル化:コード系の違い、収集方法の違い
- 業務処理システム:古いシステムを使い続けていると、そのシステムのレガシー化でつかいにくく、システム保守出来る人が限られる
- 外部システム:連携できない、セキュリティ問題
- データベース:レガシー化、過去データと不整合、この項目が何のデータかわからない
- 分析:担当・専門家がいない、優秀な人材が多い大企業に多いが、エクセルでの表計算が分散して存在⇒全体として整合がとれない
- 結果:上手くまとめないと誰にも理解されない、変更が多い
- 学習に必要なデータ量の問題
- 深層学習の場合:~O(10 6乗)
- 従来型学習の場合:~O(10 2乗)からO(10 4乗)
- 知識主導型学習の場合:~O(10)
- 人間の場合:~O(1)
- データ生成の方法
- システムからデータを得る(観測⇒生成)
システムからデータを生成するために、まずは対象とするデータを詳しく観察した上で中身の解釈が必要となる。解釈のもとに、欲しいデータの生成ルールを予測し、対象の観測方法にフィードバックする。
- システムからデータを得る(観測⇒生成)
- データ生成の問題点データの整形プロセス
- 機械学習システムでデータを使えるようにする手間:全作業の80~90%(データマイニング、データからの知識発見という概念 約20年前にでたチャート図)
■データとモデルをどう扱うか
- ポイント
- データとモデリングの考え方を知る
- 理解指向モデルと応用指向モデルを知る
- データとモデルの解釈方法を知る
- 構造化データと非構造化データを知る
- データとモデリングの基本的な考え方
- 良いモデル:対象データとの当てはまりの良さ+解釈可能性
- 実例:椿の例
- 構造化データと非構造化データ
- 時代とともに考え方が変わる
- 構造化データ:テーブル、ネットワーク(SNS)、時系列
- 非構造化データ:言語、音声、音響、web情報、画像、動画
- 時代とともに考え方が変わる
- 数理モデルの種類と使われ方(ペイジ2020)、(寺野2019)
- 対象の観測⇒データの推測⇒モデル構築⇒対象と比較⇒モデル向上のためのデータ生成
- モデルの構造には様々なパターンがある
(ランダム、一定、線形、指数、二次、正規)
ランダムは予測が難しいと言われているが、金融関係では予測するアルゴリズムがいくつかある。
線形は人間にとって最も分かりやすいが、実際の現象は指数になりやすい
よく使われている最適化の手法 ニュートン法が最たる例 世の中全てが2次関数で表現できることを前提にする
今のNNや複雑問題は相手を正規分布とかていして考えることが一般的 - 人工知能と人口知能、進化計算と機械学習(寺野2019)
- 理解指向モデル(江崎2020)
- データがどのような原理・仕組みで生成されるかを知るためのモデル
- 数理構造から知る(従来のやり方)
- 推定したパラメータ値からしる
- 推定したパラメータと内部構造から知る
- パラメータ値を変えてシミュレーションする(最近のAIモデルを構築方法)
- データがどのような原理・仕組みで生成されるかを知るためのモデル
- 応用指向モデル
- 手元データをもとに、同データに対して予測・制御、データを生成して利用するためのモデル
- 応用指向モデルの例:
- 回帰モデル
- 分類モデル
- 教師あり学習
- 教師なし学習
- 生成モデル
- データとモデルの解釈
- データから得られた知識が、モデルとの比較において
- 事前の知識と一致していたら自明である ⇒ 役に立たない
- 事前の知識と部分的に一致していたら興味深い ⇒ Pearl(真珠・豚)
- 背景の知識で説明できなければゴミである
- 主観的な判断はデータを対話的に操作している場合に重要
- 矛盾する知識が異なるデータや異なる専門家から生じることがあるがそれでも重要
- 確率推論ならJ.パール
- データから得られた知識が、モデルとの比較において
■非構造化データの種類と特徴
- ポイント(下記4点の特徴を知る)
- 自然言語データ
- 音声・音響
- Web
- 画像・映像
- 非構造化データの特徴
- 数値・記号・イメージなどが非定型あるいは複合化している
- 大量かつ複雑になりやすい ⇒ 数値≒文字<<イメージ<<動画
- 形式を整えることが難しい ⇒ いかに数値化するか
- 定常状態になりにくい ⇒ 時間的変化の扱い
- 統一的な手法で扱いにくい ⇒ 深層学習手法の進展で状況が一変
- 自然言語の扱い
- コンピュータ用の文法を作成
- 事例ベースで学習(機械翻訳(日英翻訳ペア+プログラム))
- 分析ツールの提供(形態素解析、wordnet、ワードクラウド、感情辞書)
- 大量データの機械学習
- 専用辞書の作成⇒watson
- 日本語・英語については技術上の差異はない
- 希少言語については無理
- 音声・音響とセンサデータの扱い
- 音声・音響データ
- 元データをノイズなく取り出す
- 時系列データとしての処理(モデルの利用)
- 自然言語処理・音響情報処理
- センサデータ(寺野2018)
- プラントデータ⇒ノイズを取り除く⇒規則がわかりモデル化できる⇒モデルをもとに制御システムを設計できる
- webデータの扱い
- インターネット:ロバストな通信システム⇒www⇒ブラウザ
- ビジネス・e-コマースへの利用
- 大規模データへ
- データがつながることで新しい価値が生まれる
- 画像・映像データの扱い
- 手順
- 前処理:ノイズ除去
- 対象の認識
- 情報抽出
- 事前学習
- 事例適用
- 応用分野
- 顔認証
- 自動アノテーション
- 行動分析
- 画像情報からの翻訳
- 画像情報からの文章生成
- 自動運転
- 医療画像解析
- 手順
- 音声・音響データ
■大きく変わるデータとモデリングの概念
- ポイント
- ビッグデータの課題を知る
- データとモデリングの考え方のこれから
- モデリング指向とデータ指向の繰り返しの歴史(寺野2019)
- 存在するビッグデータから意思決定に利用できるスモールデータへ
- ビッグデータのままでは人間は理解できない
- スモールデータはエクセルでグラフ化できる程度、エクセルの一画面のテーブル
- プライバシーとセキュリティの問題
- フェイクニュースとエコーチェンバー現象
- プライバシー保存型データマイニング
- 計算速度vsメモリー規模の課題
- 計算スピードは過去から大きく向上している
- ビッグデータとIOTデータの関連
- 集めないビッグデータ処理へ(ストリーミングの利用)
- AIビジネスを成功させるためには
- AIプロジェクト負のスパイラルを回避することが大切
- 業務プロセスの理解、効果に時間がかかることへの経営からの理解
0 件のコメント:
コメントを投稿