レッスン2：データの種類を見分ける——数値とカテゴリ、構造の違い

このレッスンで学ぶこと

量的データと質的データの違いを説明できる
名義・順序・間隔・比率の4つの尺度を区別できる
構造化データと非構造化データの違いを理解する
扱うデータに合った分析手法を選べるようになる

レッスン1では、データ分析の全体像と基本プロセスを学びました。このレッスンでは、データ分析の前提となる「データの種類」を整理します。データには種類があり、種類によって扱い方や使えるグラフ・分析手法が変わります。最初に種類を見分けられるようになると、その後の作業がぐっとスムーズになります。

量的データと質的データ

データはまず、大きく2種類に分けられます。

量的データは、数値で測れるデータです。売上金額、来客数、年齢、気温、商品の重さなどが該当します。足し算や平均を取ることに意味があります。

質的データは、カテゴリで区別するデータです。性別、職業、商品カテゴリ、満足度の「満足／不満」といったラベルが該当します。数字で表されることもありますが、四則演算には意味がないことが多いのが特徴です。

💡 ポイント 「数字で書かれているか」だけで区別するのは早計です。例えば「商品番号1番、2番、3番」と並んでいても、これは順序や金額を表しているのではなく、ただの識別ラベルなので質的データです。一方、「身長170cm、171cm」は数字に意味があるので量的データです。

4つの尺度——名義・順序・間隔・比率

データの種類は、もう少し細かく4つの「尺度」に分けて考えると、扱い方が見えやすくなります。これは統計学者スティーブンスが提唱した分類で、現在も実務で広く使われています。

先に全体像を図で押さえておきましょう。「質的か量的か」の2分類と、その下にある4つの尺度の対応関係です。

flowchart TD
    A[データ] --> B[質的データ]
    A --> C[量的データ]
    B --> D[名義尺度]
    B --> E[順序尺度]
    C --> F[間隔尺度]
    C --> G[比率尺度]
    D --> D1["例：性別・血液型・職業"]
    E --> E1["例：5段階満足度・学年・ランキング"]
    F --> F1["例：気温・西暦・偏差値"]
    G --> G1["例：身長・体重・金額・年齢"]

1. 名義尺度（質的データ）

ラベルや分類を表すデータで、順序にも数値的な意味にもならないものです。

例：性別（男性／女性／その他）、血液型（A／B／O／AB）、職業（営業／企画／開発）

「A型はB型より大きい」と比べることは意味を持ちません。

2. 順序尺度（質的データ）

カテゴリに順序がついているものです。順序は意味を持ちますが、間隔の大きさは意味を持ちません。

例：満足度（とても不満／不満／普通／満足／とても満足）、学年（1年生／2年生／3年生）、ランキング

「とても満足」が「満足」より高評価という順序は意味を持ちますが、「『とても満足』と『満足』の差」と「『満足』と『普通』の差」が同じ大きさかは保証されません。

3. 間隔尺度（量的データ）

数値の差に意味があるが、「0」が「何もない」を意味しない量です。

例：気温（摂氏）、西暦の年、テストの偏差値

「20℃と25℃の差は5℃」「2020年と2025年の差は5年」のように、差は意味を持ちます。ただし「0℃」は「気温がない」状態ではないので、「20℃は10℃の2倍」とは言えません。

4. 比率尺度（量的データ）

数値の差に加え、比にも意味がある量。0が「何もない」を意味する場合です。

例：身長、体重、金額、来客数、年齢

「100cmは50cmの2倍」「3,000円は1,000円の3倍」のように、比に意味があります。

🔰 初学者の方へ 4つの尺度を完璧に覚える必要はありません。実務でよく出るのは「数値（量的）か、カテゴリ（質的）か」の区別と、「カテゴリの中でも順序がついているか」の確認です。間隔尺度と比率尺度の細かい違いは、必要になったときに確認すれば十分です。

尺度ごとに使える計算が違う

データの尺度ごとに、意味のある計算は変わります。表にまとめると次のようになります。

計算	名義	順序	間隔	比率
出現回数を数える	◯	◯	◯	◯
大小・順位を比べる	✕	◯	◯	◯
差を計算する	✕	✕	◯	◯
比を計算する	✕	✕	✕	◯

例えば、「性別の平均」を計算することはできません（名義尺度なので）。「満足度の平均」も厳密には適切ではありませんが、実務では「便宜的に数値化して平均を取る」ことがよく行われます。これは「不適切だが伝わりやすい」例で、目安として理解するならOK、というのが多くの現場の運用です。

⚠️ 注意 順序尺度に対する平均値は、統計学者からは「使うべきでない」と批判されることもあります。とはいえ、5段階評価のアンケートで「平均満足度3.8」のように示す事例は多く、これを完全に避けるのは現実的ではありません。「厳密には目安」だと自覚しておけば、誤った重大な判断を避けられます。

構造化データと非構造化データ

データはもう一つの観点で、「構造化されているか」で分けられます。

構造化データは、表のように行と列で整理されたデータです。Excelの表、データベースのテーブル、CSVファイルなどが該当します。データ分析の入門段階で扱うのは、ほとんどがこの構造化データです。

日付	商品	金額	数量
2026-05-01	カフェラテ	480	1
2026-05-01	サンドイッチ	580	1
2026-05-02	カフェラテ	480	2

非構造化データは、表として整理されていないデータです。文章、画像、音声、動画などが該当します。

顧客アンケートの自由回答（文章）
SNSの投稿（文章＋画像）
コールセンターの通話録音（音声）
防犯カメラの映像（動画）

非構造化データは情報量が多い一方、そのままでは分析しにくく、テキスト解析や画像認識といった専門技術が必要になります。本コースでは主に構造化データを扱います。

📝 補足 近年は、生成AIや機械学習の発展により、非構造化データの分析が一般化してきました。例えば顧客アンケートの自由回答を生成AIで要約・分類する、といった使い方が広がっています。本コースでは深く扱いません。

1次データと2次データ

データの「集め方」による分類もあります。

1次データは、自分で目的を持って集めたデータです。自社のPOSデータ、自社で実施したアンケート、自社の顧客から得た問い合わせなど。目的に合わせて設計できる反面、収集に手間とコストがかかります。

2次データは、他者がすでに収集したデータです。政府統計、業界レポート、公開されているWebデータなどがこれにあたります。手軽に入手できますが、自分の問いにぴったり合うとは限らない点に注意が必要です。

実務では、1次データと2次データを組み合わせて使うことが多いです。「業界全体の傾向（2次データ）と、自社の動向（1次データ）を比べる」といった分析が代表的です。

実例：レッスン1のカフェ例で確認する

レッスン1で出てきた、売上が下がっているカフェの例で、データの種類を見分けてみましょう。POSレジから取り出した売上データには、次のような項目が並んでいるとします。

日時	曜日	商品名	商品カテゴリ	単価	数量	顧客満足度

それぞれの項目を分類すると：

日時：間隔尺度（量的データ、構造化）。差や順序に意味がある
曜日：名義尺度（質的データ、構造化）。月〜日は単なる識別ラベル
商品名：名義尺度（質的データ、構造化）
商品カテゴリ：名義尺度（質的データ、構造化）
単価：比率尺度（量的データ、構造化）
数量：比率尺度（量的データ、構造化）
顧客満足度（5段階）：順序尺度（質的データ、構造化）

このように、同じ「データ」と言っても、項目ごとに種類が違います。例えば「商品名の平均」を計算することは意味を持ちませんが、「単価の平均」「数量の合計」は意味を持ちます。「曜日別の売上合計を比べる」も、データの種類を踏まえれば自然な分析だとわかります。

💡 ポイント データを扱う前に「これは何尺度のデータか」「どんな計算なら意味があるか」を見極める習慣をつけましょう。慣れてくると、項目を見ただけで頭の中で分類できるようになります。

まとめ

このレッスンでは、以下のことを学びました。

データは大きく量的データ（数値）と質的データ（カテゴリ）に分けられる
4つの尺度——名義・順序・間隔・比率——で扱い方が変わる
尺度によって意味のある計算が異なる（名義は数えるだけ、比率はすべて可能）
構造化データ（表形式）と非構造化データ（文章・画像・音声・動画）の違いがある
1次データ（自分で集めた）と2次データ（他者が集めた）の使い分けも重要

次のレッスンでは、量的データを「読む」ための最も基本となる「記述統計」を学びます。平均・中央値・標準偏差を使って、データの全体像をつかめるようになりましょう。

確認クイズ

このレッスンの理解度をチェックしましょう。