本文へスキップ
スキルアップカレッジ

データの種類を見分ける——数値とカテゴリ、構造の違い

レッスン2:データの種類を見分ける——数値とカテゴリ、構造の違い

このレッスンで学ぶこと

  • 量的データと質的データの違いを説明できる
  • 名義・順序・間隔・比率の4つの尺度を区別できる
  • 構造化データと非構造化データの違いを理解する
  • 扱うデータに合った分析手法を選べるようになる

レッスン1では、データ分析の全体像と基本プロセスを学びました。このレッスンでは、データ分析の前提となる「データの種類」を整理します。データには種類があり、種類によって扱い方や使えるグラフ・分析手法が変わります。最初に種類を見分けられるようになると、その後の作業がぐっとスムーズになります。

量的データと質的データ

データはまず、大きく2種類に分けられます。

量的データは、数値で測れるデータです。売上金額、来客数、年齢、気温、商品の重さなどが該当します。足し算や平均を取ることに意味があります。

質的データは、カテゴリで区別するデータです。性別、職業、商品カテゴリ、満足度の「満足/不満」といったラベルが該当します。数字で表されることもありますが、四則演算には意味がないことが多いのが特徴です。

💡 ポイント 「数字で書かれているか」だけで区別するのは早計です。例えば「商品番号1番、2番、3番」と並んでいても、これは順序や金額を表しているのではなく、ただの識別ラベルなので質的データです。一方、「身長170cm、171cm」は数字に意味があるので量的データです。

4つの尺度——名義・順序・間隔・比率

データの種類は、もう少し細かく4つの「尺度」に分けて考えると、扱い方が見えやすくなります。これは統計学者スティーブンスが提唱した分類で、現在も実務で広く使われています。

先に全体像を図で押さえておきましょう。「質的か量的か」の2分類と、その下にある4つの尺度の対応関係です。

flowchart TD
    A[データ] --> B[質的データ]
    A --> C[量的データ]
    B --> D[名義尺度]
    B --> E[順序尺度]
    C --> F[間隔尺度]
    C --> G[比率尺度]
    D --> D1["例:性別・血液型・職業"]
    E --> E1["例:5段階満足度・学年・ランキング"]
    F --> F1["例:気温・西暦・偏差値"]
    G --> G1["例:身長・体重・金額・年齢"]

1. 名義尺度(質的データ)

ラベルや分類を表すデータで、順序にも数値的な意味にもならないものです。

  • 例:性別(男性/女性/その他)、血液型(A/B/O/AB)、職業(営業/企画/開発)

「A型はB型より大きい」と比べることは意味を持ちません。

2. 順序尺度(質的データ)

カテゴリに順序がついているものです。順序は意味を持ちますが、間隔の大きさは意味を持ちません。

  • 例:満足度(とても不満/不満/普通/満足/とても満足)、学年(1年生/2年生/3年生)、ランキング

「とても満足」が「満足」より高評価という順序は意味を持ちますが、「『とても満足』と『満足』の差」と「『満足』と『普通』の差」が同じ大きさかは保証されません。

3. 間隔尺度(量的データ)

数値の差に意味があるが、「0」が「何もない」を意味しない量です。

  • 例:気温(摂氏)、西暦の年、テストの偏差値

「20℃と25℃の差は5℃」「2020年と2025年の差は5年」のように、差は意味を持ちます。ただし「0℃」は「気温がない」状態ではないので、「20℃は10℃の2倍」とは言えません。

4. 比率尺度(量的データ)

数値の差に加え、比にも意味がある量。0が「何もない」を意味する場合です。

  • 例:身長、体重、金額、来客数、年齢

「100cmは50cmの2倍」「3,000円は1,000円の3倍」のように、比に意味があります。

🔰 初学者の方へ 4つの尺度を完璧に覚える必要はありません。実務でよく出るのは「数値(量的)か、カテゴリ(質的)か」の区別と、「カテゴリの中でも順序がついているか」の確認です。間隔尺度と比率尺度の細かい違いは、必要になったときに確認すれば十分です。

尺度ごとに使える計算が違う

データの尺度ごとに、意味のある計算は変わります。表にまとめると次のようになります。

計算 名義 順序 間隔 比率
出現回数を数える
大小・順位を比べる
差を計算する
比を計算する

例えば、「性別の平均」を計算することはできません(名義尺度なので)。「満足度の平均」も厳密には適切ではありませんが、実務では「便宜的に数値化して平均を取る」ことがよく行われます。これは「不適切だが伝わりやすい」例で、目安として理解するならOK、というのが多くの現場の運用です。

⚠️ 注意 順序尺度に対する平均値は、統計学者からは「使うべきでない」と批判されることもあります。とはいえ、5段階評価のアンケートで「平均満足度3.8」のように示す事例は多く、これを完全に避けるのは現実的ではありません。「厳密には目安」だと自覚しておけば、誤った重大な判断を避けられます。

構造化データと非構造化データ

データはもう一つの観点で、「構造化されているか」で分けられます。

構造化データは、表のように行と列で整理されたデータです。Excelの表、データベースのテーブル、CSVファイルなどが該当します。データ分析の入門段階で扱うのは、ほとんどがこの構造化データです。

日付 商品 金額 数量
2026-05-01 カフェラテ 480 1
2026-05-01 サンドイッチ 580 1
2026-05-02 カフェラテ 480 2

非構造化データは、表として整理されていないデータです。文章、画像、音声、動画などが該当します。

  • 顧客アンケートの自由回答(文章)
  • SNSの投稿(文章+画像)
  • コールセンターの通話録音(音声)
  • 防犯カメラの映像(動画)

非構造化データは情報量が多い一方、そのままでは分析しにくく、テキスト解析や画像認識といった専門技術が必要になります。本コースでは主に構造化データを扱います。

📝 補足 近年は、生成AIや機械学習の発展により、非構造化データの分析が一般化してきました。例えば顧客アンケートの自由回答を生成AIで要約・分類する、といった使い方が広がっています。本コースでは深く扱いませんが、興味があれば「生成AI入門」コースなども参考にしてください。

1次データと2次データ

データの「集め方」による分類もあります。

1次データは、自分で目的を持って集めたデータです。自社のPOSデータ、自社で実施したアンケート、自社の顧客から得た問い合わせなど。目的に合わせて設計できる反面、収集に手間とコストがかかります。

2次データは、他者がすでに収集したデータです。政府統計、業界レポート、公開されているWebデータなどがこれにあたります。手軽に入手できますが、自分の問いにぴったり合うとは限らない点に注意が必要です。

実務では、1次データと2次データを組み合わせて使うことが多いです。「業界全体の傾向(2次データ)と、自社の動向(1次データ)を比べる」といった分析が代表的です。

実例:レッスン1のカフェ例で確認する

レッスン1で出てきた、売上が下がっているカフェの例で、データの種類を見分けてみましょう。POSレジから取り出した売上データには、次のような項目が並んでいるとします。

日時 曜日 商品名 商品カテゴリ 単価 数量 顧客満足度

それぞれの項目を分類すると:

  • 日時:間隔尺度(量的データ、構造化)。差や順序に意味がある
  • 曜日:名義尺度(質的データ、構造化)。月〜日は単なる識別ラベル
  • 商品名:名義尺度(質的データ、構造化)
  • 商品カテゴリ:名義尺度(質的データ、構造化)
  • 単価:比率尺度(量的データ、構造化)
  • 数量:比率尺度(量的データ、構造化)
  • 顧客満足度(5段階):順序尺度(質的データ、構造化)

このように、同じ「データ」と言っても、項目ごとに種類が違います。例えば「商品名の平均」を計算することは意味を持ちませんが、「単価の平均」「数量の合計」は意味を持ちます。「曜日別の売上合計を比べる」も、データの種類を踏まえれば自然な分析だとわかります。

💡 ポイント データを扱う前に「これは何尺度のデータか」「どんな計算なら意味があるか」を見極める習慣をつけましょう。慣れてくると、項目を見ただけで頭の中で分類できるようになります。

まとめ

このレッスンでは、以下のことを学びました。

  • データは大きく量的データ(数値)と質的データ(カテゴリ)に分けられる
  • 4つの尺度——名義・順序・間隔・比率——で扱い方が変わる
  • 尺度によって意味のある計算が異なる(名義は数えるだけ、比率はすべて可能)
  • 構造化データ(表形式)と非構造化データ(文章・画像・音声・動画)の違いがある
  • 1次データ(自分で集めた)と2次データ(他者が集めた)の使い分けも重要

次のレッスンでは、量的データを「読む」ための最も基本となる「記述統計」を学びます。平均・中央値標準偏差を使って、データの全体像をつかめるようになりましょう。


確認クイズ

このレッスンの理解度をチェックしましょう。