本文へスキップ
スキルアップカレッジ

用語集

データ分析入門コースで使われる主要な用語(55語)をまとめています。

1次データ(いちじでーた)
自分で目的を持って収集したデータ。自社のPOSデータ、自社で実施したアンケートなどが該当する。目的に合わせて設計できる反面、収集にコストがかかる。
→ レッスン2
因果関係 (いんがかんけい)
「Aが原因でBが起きる」という関係。因果を主張するには、時間的前後関係・相関・ほかの説明の排除が必要。相関とは区別する。
→ レッスン6
円グラフ(えんぐらふ)
全体に対する内訳の割合を示すグラフ。項目が3〜5個程度のときに有効。多すぎると見づらく、3D表現は誤解を招くため避ける。
→ レッスン4
折れ線グラフ(おれせんぐらふ)
時間の経過に伴う変化を表すのに最適なグラフ。横軸に時間、縦軸に数値を取って点を線で結ぶ。
→ レッスン4
仮説検証 (かせつけんしょう)
「こうではないか」という仮説を立て、データを使って成り立つかを確かめるプロセス。良い仮説は具体的・測定可能・反証可能。
→ レッスン7
間隔尺度 (かんかくしゃくど)
数値の差に意味があるが、0が「何もない」を意味しない量。気温(摂氏)や西暦の年など。「差」は意味を持つが「比」は意味を持たない。
→ レッスン2
帰無仮説 (きむかせつ)
統計検定で「差はない」と設定する仮説。データから棄却できれば「差はある」と結論できる。
→ レッスン7
記述統計 (きじゅつとうけい)
データの全体像を要約する技術。代表値(平均・中央値・最頻値)とばらつき(分散・標準偏差・四分位数)の2つの観点で記述する。
→ レッスン3
欠損値 (けっそんち)
データが入力されていないセル。アンケートの未回答やシステム障害などで発生する。除外・補完・「未入力」カテゴリ化などで対処する。0で機械的に埋めるのは避ける。
→ レッスン5
構造化データ(こうぞうかでーた)
行と列で整理された表形式のデータ。Excelの表、CSVファイル、データベースのテーブルなど。
→ レッスン2
交絡因子(こうらくいんし)
2つのデータ両方に影響を与えている第三の変数。疑似相関の原因。アイスと水難事故の例における「気温」がこれにあたる。
→ レッスン6
最頻値 (さいひんち)
データの中で最も多く出現する値。質的データ(カテゴリ)の代表値としてよく使われる。
→ レッスン3
散布図 (さんぷず)
2つの量的データの関係を点で表したグラフ。点の散らばり方から相関を読み取れる。
→ レッスン4
質的データ(しつてきでーた)
カテゴリで区別するデータ。性別、職業、商品カテゴリなど。基本的に四則演算には意味がない。
→ レッスン2
重複 (じゅうふく)
同じデータが2回以上記録されている状態。クレンジング作業で取り除く対象のひとつ。判定基準を考えてから削除する。
→ レッスン5
順序尺度 (じゅんじょしゃくど)
順序に意味があるが、間隔の大きさは意味を持たない尺度。5段階満足度や学年など。
→ レッスン2
正の相関 (せいのそうかん)
片方が増えるともう片方も増える関係。広告費と認知度、勉強時間とテスト点数など。
→ レッスン6
相関 (そうかん)
2つの量的データが「一緒に動く関係」のこと。相関があっても因果関係があるとは限らない。
→ レッスン6
相関係数 (そうかんけいすう)
相関の強さを表す数値。-1から+1の範囲を取り、絶対値が大きいほど関係が強い。
→ レッスン6
第三の変数 (だいさんのへんすう)
2つのデータ両方に影響を与えている、見えていない要因。疑似相関の原因。交絡因子とも呼ぶ。
→ レッスン6
ダッシュボード
KPIや関連数値を一覧表示する画面。状況を一目で把握できるよう設計する。Tableau・Looker Studio・Power BIなどのBIツールで作る。
→ レッスン8
探索的データ分析(たんさくてきでーたぶんせき)
データの全体像を見て傾向や異常を発見する作業。略してEDA。データ分析の最初の段階で行う。
→ レッスン4
中央値 (ちゅうおうち)
データを小さい順に並べたときに真ん中に来る値。外れ値の影響を受けにくく、平均と並んでよく使われる代表値。
→ レッスン3
データクレンジング(でーたくれんじんぐ)
データに含まれる欠損・重複・外れ値・表記揺れなどを取り除き、分析できる状態に整える作業。「データクリーニング」「データ前処理」とも。
→ レッスン5
データドリブン(でーたどりぶん)
データを根拠に判断や行動を進める考え方。経験や勘を補強・修正する役割を持つ。
→ レッスン1
統計的有意性 (とうけいてきゆういせい)
観察された差が「単なる偶然」か「意味のある差」かを判定するための統計的な考え方。
→ レッスン7
棒グラフ(ぼうぐらふ)
カテゴリごとの数量を比較するのに最適なグラフ。縦軸の0は省略しないのが原則。
→ レッスン4
2次データ(にじでーた)
他者がすでに収集したデータ。政府統計、業界レポート、公開Webデータなど。手軽だが自分の問いに完全には合わない場合がある。
→ レッスン2
外れ値 (はずれち)
ほかのデータから大きく離れた値。入力ミスのこともあれば、特別なイベントのこともある。理由を確認せず削除しないのが鉄則。
→ レッスン5
反証可能 (はんしょうかのう)
仮説検証において、「結果がこうならその仮説は否定される」と明確に言える状態のこと。良い仮説の必須条件。
→ レッスン7
比率尺度 (ひりつしゃくど)
数値の差にも比にも意味がある尺度。0が「何もない」を意味する量。身長、体重、金額、来客数など。
→ レッスン2
ヒストグラム
数値データの分布を見るためのグラフ。横軸が数値の範囲、縦軸が度数。棒の間に隙間を空けないのが慣例。
→ レッスン4
標準偏差 (ひょうじゅんへんさ)
データのばらつきを元のデータと同じ単位で表した指標。値が大きいほどばらつきが大きい。
→ レッスン3
表記揺れ (ひょうきゆれ)
同じものを違う書き方で記録してしまう現象。「東京都」と「東京」と「Tokyo」の混在など。マスタ照合や置換で統一する。
→ レッスン5
負の相関 (ふのそうかん)
片方が増えるともう片方は減る関係。価格と販売数、運動時間と体重など。
→ レッスン6
分散 (ぶんさん)
データのばらつきを表す統計量で、各値と平均の差の二乗の平均。単位は元データの二乗になるため、扱いやすくするために平方根を取った標準偏差がよく使われる。
→ レッスン3
平均 (へいきん)
すべての値を足してデータの個数で割った値。最もよく使われる代表値だが、外れ値に弱い。
→ レッスン3
無相関 (むそうかん)
2つのデータの間に明確な関係が見られない状態。相関係数が0に近い。
→ レッスン6
名義尺度 (めいぎしゃくど)
ラベルや分類を表し、順序にも数値にも意味がない尺度。性別、血液型、職業名など。
→ レッスン2
有意水準 (ゆういすいじゅん)
統計検定で「これより小さければ偶然とは言えない」と判定する閾値。一般的に5%や1%が使われる。
→ レッスン7
量的データ(りょうてきでーた)
数値で測れるデータ。売上金額、来客数、年齢、気温など。四則演算(特に平均)に意味がある。
→ レッスン2
A/Bテスト
対象者をランダムに2グループに分け、それぞれに違う条件を試して効果を比較する手法。ECサイトのボタン色変更や、メール文面の比較などで広く使われる。
→ レッスン7
BIツール
Business Intelligence ツールの略。データの可視化やダッシュボード化を専門に行うツール群。Tableau、Looker Studio、Power BIなどが代表的。
→ レッスン8
EDA
Exploratory Data Analysis の略。「探索的データ分析」。
→ レッスン4
Garbage In, Garbage Out
「ゴミを入れたらゴミが出る」。略してGIGO(ガイゴ)。入力データが汚れていれば、いくら高度な分析手法でも結果はゴミ同然、というデータクレンジングの基本原則。
→ レッスン5
IQR
Interquartile Range の略。「四分位範囲」。第3四分位数から第1四分位数を引いた幅で、外れ値の影響を受けにくいばらつきの指標。
→ レッスン3
KGI
Key Goal Indicator の略。最終的に達成したいゴールを表す指標。KPIの上位にあたる。
→ レッスン8
KPI
Key Performance Indicator の略。「重要業績評価指標」。最終目標(KGI)に至る道筋を測る中間指標。
→ レッスン8
KPIツリー
KGIを頂点に、関連するKPIを枝分かれで整理した図。組織内の共通言語として使われる。
→ レッスン8
Looker Studio
Googleが提供する無料のBIツール。旧名「Googleデータポータル」。Googleサービスとの連携が強み。
→ レッスン8
p値(ぴーち)
統計検定の結果として出る数値で、「もし差がないとしたら、観察された結果以上の差が偶然出る確率」を表す。値が小さいほど「偶然では起きにくい」と言える。
→ レッスン7
pandas (ぱんだす)
Python用のデータ分析ライブラリ。表形式データを柔軟に扱える。データ分析で広く使われている。
→ レッスン8
Power BI
Microsoftが提供するBIツール。Excelとの相性が良く、企業導入が増えている。
→ レッスン8
Python
データ分析の世界で最も広く使われているプログラミング言語のひとつ。pandasと組み合わせることで効率的な分析が可能。
→ レッスン8
Tableau
データ可視化の業界標準と言われるBIツール。直感的な操作で高品質なダッシュボードが作れる。
→ レッスン8
← データ分析入門 に戻る