1.データウェアハウス
・各種データベースの中から、意思決定に必要なデータを特別に収集した大規模データベース。
・ウェアハウス(Warehouse)は倉庫の意味
・運用中のデータとは別でデータを持つ。
・普通のDBを利用することもあるし、DWH専用のDBを利用することもある。

過去問(H26年秋IP)を見てみましょう。
問16 企業経営の意思決定を支援するために,目的別に編成された,時系列データの集まりを何というか。

ア データウェアハウス
イ データセンタ
ウ データフローダイアグラム
エ データマイニング





正解は,アのデータウェアハウスです。

過去問(H24秋AP)を見てみましょう。
問29 データウェアハウスに業務データを取り込むとき,データを抽出して加工し,データベースに書き出すツールはどれか。

ア ETLツール
イ OLAPツール 
ウ データマイニングツール
エ 統計ツール





正解は,アのETLツールです。

2.データマート
・データマートはデータウェアハウスの中から、各部門で必要なデータのみを抽出したもの。
小型のデータウェアハウスと思えば良い。
・データウェアハウスのデータそのものではなく、データを加工したりして、抽出しやすくなっている。
・マート(Mart)は市場を意味するので、倉庫(Warehouse)とスーパーマーケットみたいなイメージで考えればいいであろう。商品はデータである。
・過去問では、データマートに関する記述として「利用者が情報を利用するための目的別データベースであり、あらかじめ集計処理などを施しておくことによって検索時間を短縮する(H18AM問8)」と述べられている。

3.データマイニングツール
有用な法則を導く
過去問では、データマイニングツールに関する記述として「大量に蓄積されたデータに対して統計処理などを行い、法則性の発見を支援する(H18AM問8)」「大量に蓄積されているデータから、顧客購買行動の法則などを探し出す(SM平成17年問14)」と述べられている。キーワードは「大量のデータ」「法則」です。
具体的な例として、過去問(平成18年春AU午前問5)では、データマイニングの技術に関して、「"缶ビールを購入する顧客は,スナック菓子を同時に買い求める傾向にある"というような,データベースに蓄積された大量のデータを分析して,新たな情報を得る技術」と述べられています。

過去問(平成29年春期 午前 問30)を見てみましょう。
問30 ビッグデータの利用におけるデータマイニングを説明したものはどれか。

ア 蓄積されたデータを分析し,単なる検索だけでは分からない隠れた規則や相関関係を見つけ出すこと
イ データウェアハウスに格納されたデータの一部を,特定の用途や部門用に切り出して,データベースに格納すること
ウ データ処理の対象となる情報を基に規定した,データの構造,意味及び操作の枠組みのこと
エ データを複数のサーバに複製し,性能と可用性を向上させること





正解は、アです。

過去問(H26年秋AP午前)を見てみましょう。
問29 データマイニングの説明はどれか。
ア 検索効率を高めるために,大規模データベースの一部をあらかじめ用途に合わせて抽出し,データの要約などの加工をしておくこと
イ 大規模データベースから,統計や推論の手法を使って,意味のある情報を見つけ出すこと
ウ 大規模データベースにおけるスタースキーマを実装するのに適した,索引ファイルを作成すること
エ 大規模データベースにおけるメタデータを効率よく管理すること 





正解は、イです。

過去問(H24年春FE午前)を見てみましょう。
問64 企業が保有する顧客や市場などの膨大なデータから,有用な情報や関係を見つけ出す手法はどれか。

ア データウェアハウス
イ データディクショナリ
ウ データフローダイアグラム
エ データマイニング





正解は、エのデータマイニングです。

4.OLAP(online analytical processing)
Excelのピポットテーブルを想定すれば分かりやすい。大量のデータを色々な条件で検索、集計する。
以下、マイクロソフトのサイト「Office Excel 2003 データ入力/集計テクニック」
http://www.microsoft.com/japan/office/previous/2003/experience/workstyle/tips/excel/tips12.mspx

過去問では、OLAPに関する記述として「集計データを迅速かつ容易に表示するなど、利用者に対して様々な情報分析機能を提供する(H18AM問8)」と述べられている。

■ピボットテーブル
以下にサンプルとなるEXCELファイルもあって、分かりやすい説明がある。
https://www.forguncy.com/blog/20171110_pivottable
起動は「挿入」「ピボットテーブル」
たとえば、行に「販売日」、列に「商品」、値に「金額」
を入れると、2次元の分析ができる。自分でやってみると理解が進むと思う。わりと面白い。

----ドリルダウン、スライス、ダイス
OLAPに関して、解析の用語としては以下がある。
1)ドリルダウン:情報をドリルで掘り下げる。
例えば、月別の売り上げ情報が表示されている中で、売上の多い2月を分析。さらに、2月の土日の売上が多い。というように、情報を掘り下げていくこと。
2)スライス:「レモンをスライスする」ように、情報をスライスします。横で切ります。たとえば、年齢別で切ったり、地域別で切ったり。
3)ダイス:サイコロから来ているようです。Excelのピポットテーブルを思い浮かべてください。サイコロを転がすように(?)縦軸と横軸を変えて、目的の分析をします。
過去問では、ダイスに関する記述として「商品の販売状況分析を商品軸、販売チャネル軸、時間軸、顧客タイプ
軸で行う。データ集計の観点を、商品、販売チャネルごとから、商品、顧客タイプごとに切り替える操作(H18AM問8)」と述べられている。

5.メタデータ
過去問(H20年秋SW午前問37)では、「メタデータを説明したもの」として、「データの定義情報を記述したデータ」と述べられています。

6.データクレンジング
・データを正しい情報に直す。例えば、電話番号が003-1111-XXXXとあるのを、03-1111-XXXXとする。
・名寄せ。同一ユーザでも複数の登録があれば、ひとつにまとめる。

過去問(H27秋SC午前2)を見てみましょう。(H22秋AP問28と同じ)
問21 データウェアハウスを構築するために,業務システムごとに異なっているデータ属性やコード体系を統一する処理はどれか。

ア ダイス
イ データクレンジング
ウ ドリルダウン
エ ロールアップ





正解は,イのデータクレンジングです。

7.データディクショナリ
データディクショナリは、データベースの辞書(ディクショナリ)として機能し、DBMSが管理するデータや利用者、およびその関係などを保持します。データディクショナリの配置方法は、1カ所に配置する集中管理方式と各エリアなどに分けてに配置する分散管理方式があります。

過去問(H23特別FE午前 問35 )では、データディクショナリに関して、「DBMSが管理するデータ,利用者,プログラムに関する情報,及びそれらの間の関係を保持するデータの集合体」と述べられています。

過去問(H26秋AP午前)を見てみましょう。
問28 分散データベースシステムのデータディクショナリ/ディレクトリの配置方式に関する記述のうち,適切なものはどれか。
ア 集中管理方式では,データディクショナリ/ディレクトリを保有するサイトに負荷が集中することはない。
イ 集中管理方式では,データディクショナリ/ディレクトリを保有するサイトの障害が,分散データベースシステムの重大な障害になる。
ウ 分散管理方式で,各サイトにデータディクショナリ/ディレクトリを重複保有しない形態では,表の構造の変化が発生した場合,全てのサイトで内容を変更する必要がある。
エ 分散管理方式で,各サイトにデータディクショナリ/ディレクトリを重複保有する形態では,問合せに対して,他のサイトの内容を調べることがある。





正解は、イです。

過去問(H22春DB午前2)を見てみましょう。
問20 関係データベース管理システム(RDBMS)のデータディクショナリに格納されるものはどれか。

ア OSが管理するファイルの定義情報
イ スキーマの定義情報 
ウ 表の列データの組
エ 表の列に付けられたインデックスの内容





正解は、イの「スキーマの定義情報」です。