データの種類を見分ける——数値とカテゴリ、構造の違い
レッスン2:データの種類を見分ける——数値とカテゴリ、構造の違い
このレッスンで学ぶこと
- 量的データと質的データの違いを説明できる
- 名義・順序・間隔・比率の4つの尺度を区別できる
- 構造化データと非構造化データの違いを理解する
- 扱うデータに合った分析手法を選べるようになる
レッスン1では、データ分析の全体像と基本プロセスを学びました。このレッスンでは、データ分析の前提となる「データの種類」を整理します。データには種類があり、種類によって扱い方や使えるグラフ・分析手法が変わります。最初に種類を見分けられるようになると、その後の作業がぐっとスムーズになります。
量的データと質的データ
データはまず、大きく2種類に分けられます。
量的データは、数値で測れるデータです。売上金額、来客数、年齢、気温、商品の重さなどが該当します。足し算や平均を取ることに意味があります。
質的データは、カテゴリで区別するデータです。性別、職業、商品カテゴリ、満足度の「満足/不満」といったラベルが該当します。数字で表されることもありますが、四則演算には意味がないことが多いのが特徴です。
💡 ポイント 「数字で書かれているか」だけで区別するのは早計です。例えば「商品番号1番、2番、3番」と並んでいても、これは順序や金額を表しているのではなく、ただの識別ラベルなので質的データです。一方、「身長170cm、171cm」は数字に意味があるので量的データです。
4つの尺度——名義・順序・間隔・比率
データの種類は、もう少し細かく4つの「尺度」に分けて考えると、扱い方が見えやすくなります。これは統計学者スティーブンスが提唱した分類で、現在も実務で広く使われています。
先に全体像を図で押さえておきましょう。「質的か量的か」の2分類と、その下にある4つの尺度の対応関係です。
flowchart TD
A[データ] --> B[質的データ]
A --> C[量的データ]
B --> D[名義尺度]
B --> E[順序尺度]
C --> F[間隔尺度]
C --> G[比率尺度]
D --> D1["例:性別・血液型・職業"]
E --> E1["例:5段階満足度・学年・ランキング"]
F --> F1["例:気温・西暦・偏差値"]
G --> G1["例:身長・体重・金額・年齢"]
1. 名義尺度(質的データ)
ラベルや分類を表すデータで、順序にも数値的な意味にもならないものです。
- 例:性別(男性/女性/その他)、血液型(A/B/O/AB)、職業(営業/企画/開発)
「A型はB型より大きい」と比べることは意味を持ちません。
2. 順序尺度(質的データ)
カテゴリに順序がついているものです。順序は意味を持ちますが、間隔の大きさは意味を持ちません。
- 例:満足度(とても不満/不満/普通/満足/とても満足)、学年(1年生/2年生/3年生)、ランキング
「とても満足」が「満足」より高評価という順序は意味を持ちますが、「『とても満足』と『満足』の差」と「『満足』と『普通』の差」が同じ大きさかは保証されません。
3. 間隔尺度(量的データ)
数値の差に意味があるが、「0」が「何もない」を意味しない量です。
- 例:気温(摂氏)、西暦の年、テストの偏差値
「20℃と25℃の差は5℃」「2020年と2025年の差は5年」のように、差は意味を持ちます。ただし「0℃」は「気温がない」状態ではないので、「20℃は10℃の2倍」とは言えません。
4. 比率尺度(量的データ)
数値の差に加え、比にも意味がある量。0が「何もない」を意味する場合です。
- 例:身長、体重、金額、来客数、年齢
「100cmは50cmの2倍」「3,000円は1,000円の3倍」のように、比に意味があります。
🔰 初学者の方へ 4つの尺度を完璧に覚える必要はありません。実務でよく出るのは「数値(量的)か、カテゴリ(質的)か」の区別と、「カテゴリの中でも順序がついているか」の確認です。間隔尺度と比率尺度の細かい違いは、必要になったときに確認すれば十分です。
尺度ごとに使える計算が違う
データの尺度ごとに、意味のある計算は変わります。表にまとめると次のようになります。
| 計算 | 名義 | 順序 | 間隔 | 比率 |
|---|---|---|---|---|
| 出現回数を数える | ◯ | ◯ | ◯ | ◯ |
| 大小・順位を比べる | ✕ | ◯ | ◯ | ◯ |
| 差を計算する | ✕ | ✕ | ◯ | ◯ |
| 比を計算する | ✕ | ✕ | ✕ | ◯ |
例えば、「性別の平均」を計算することはできません(名義尺度なので)。「満足度の平均」も厳密には適切ではありませんが、実務では「便宜的に数値化して平均を取る」ことがよく行われます。これは「不適切だが伝わりやすい」例で、目安として理解するならOK、というのが多くの現場の運用です。
⚠️ 注意 順序尺度に対する平均値は、統計学者からは「使うべきでない」と批判されることもあります。とはいえ、5段階評価のアンケートで「平均満足度3.8」のように示す事例は多く、これを完全に避けるのは現実的ではありません。「厳密には目安」だと自覚しておけば、誤った重大な判断を避けられます。
構造化データと非構造化データ
データはもう一つの観点で、「構造化されているか」で分けられます。
構造化データは、表のように行と列で整理されたデータです。Excelの表、データベースのテーブル、CSVファイルなどが該当します。データ分析の入門段階で扱うのは、ほとんどがこの構造化データです。
| 日付 | 商品 | 金額 | 数量 |
|---|---|---|---|
| 2026-05-01 | カフェラテ | 480 | 1 |
| 2026-05-01 | サンドイッチ | 580 | 1 |
| 2026-05-02 | カフェラテ | 480 | 2 |
非構造化データは、表として整理されていないデータです。文章、画像、音声、動画などが該当します。
- 顧客アンケートの自由回答(文章)
- SNSの投稿(文章+画像)
- コールセンターの通話録音(音声)
- 防犯カメラの映像(動画)
非構造化データは情報量が多い一方、そのままでは分析しにくく、テキスト解析や画像認識といった専門技術が必要になります。本コースでは主に構造化データを扱います。
📝 補足 近年は、生成AIや機械学習の発展により、非構造化データの分析が一般化してきました。例えば顧客アンケートの自由回答を生成AIで要約・分類する、といった使い方が広がっています。本コースでは深く扱いませんが、興味があれば「生成AI入門」コースなども参考にしてください。
1次データと2次データ
データの「集め方」による分類もあります。
1次データは、自分で目的を持って集めたデータです。自社のPOSデータ、自社で実施したアンケート、自社の顧客から得た問い合わせなど。目的に合わせて設計できる反面、収集に手間とコストがかかります。
2次データは、他者がすでに収集したデータです。政府統計、業界レポート、公開されているWebデータなどがこれにあたります。手軽に入手できますが、自分の問いにぴったり合うとは限らない点に注意が必要です。
実務では、1次データと2次データを組み合わせて使うことが多いです。「業界全体の傾向(2次データ)と、自社の動向(1次データ)を比べる」といった分析が代表的です。
実例:レッスン1のカフェ例で確認する
レッスン1で出てきた、売上が下がっているカフェの例で、データの種類を見分けてみましょう。POSレジから取り出した売上データには、次のような項目が並んでいるとします。
| 日時 | 曜日 | 商品名 | 商品カテゴリ | 単価 | 数量 | 顧客満足度 |
|---|
それぞれの項目を分類すると:
- 日時:間隔尺度(量的データ、構造化)。差や順序に意味がある
- 曜日:名義尺度(質的データ、構造化)。月〜日は単なる識別ラベル
- 商品名:名義尺度(質的データ、構造化)
- 商品カテゴリ:名義尺度(質的データ、構造化)
- 単価:比率尺度(量的データ、構造化)
- 数量:比率尺度(量的データ、構造化)
- 顧客満足度(5段階):順序尺度(質的データ、構造化)
このように、同じ「データ」と言っても、項目ごとに種類が違います。例えば「商品名の平均」を計算することは意味を持ちませんが、「単価の平均」「数量の合計」は意味を持ちます。「曜日別の売上合計を比べる」も、データの種類を踏まえれば自然な分析だとわかります。
💡 ポイント データを扱う前に「これは何尺度のデータか」「どんな計算なら意味があるか」を見極める習慣をつけましょう。慣れてくると、項目を見ただけで頭の中で分類できるようになります。
まとめ
このレッスンでは、以下のことを学びました。
- データは大きく量的データ(数値)と質的データ(カテゴリ)に分けられる
- 4つの尺度——名義・順序・間隔・比率——で扱い方が変わる
- 尺度によって意味のある計算が異なる(名義は数えるだけ、比率はすべて可能)
- 構造化データ(表形式)と非構造化データ(文章・画像・音声・動画)の違いがある
- 1次データ(自分で集めた)と2次データ(他者が集めた)の使い分けも重要
次のレッスンでは、量的データを「読む」ための最も基本となる「記述統計」を学びます。平均・中央値・標準偏差を使って、データの全体像をつかめるようになりましょう。
確認クイズ
このレッスンの理解度をチェックしましょう。