長いデータと広いデータ: 違いは何ですか?
データセットは、 WideとLongの 2 つの異なる形式で書き込むことができます。
ワイド形式には、最初の列で繰り返されない値が含まれます。
長い形式には、最初の列で繰り返される値が含まれます。
たとえば、異なる形式で表現されたまったく同じデータが含まれる次の 2 つのデータセットについて考えてみましょう。
拡張データセットでは、最初の列の各値は一意であることに注意してください。
対照的に、長いデータセットでは、最初の列の値が繰り返されます。
どちらのデータセットにもまったく同じチーム情報が含まれていますが、単に異なる形式で表現されているだけです。
幅の広いデータまたは長いデータを使用する場合
データをどのように処理したいかによっては、ワイド形式またはロング形式で表示する方が合理的である場合があります。
大きなフォーマットを使用する場合
一般に、データを分析する場合は、幅広いデータ形式を使用します。
たとえば、チームごとの平均得点、アシスト、リバウンドを知りたい場合は、多くの場合、データを大規模な形式で取得する方が簡単です。
現実世界で遭遇するほとんどのデータセットも、私たちの脳が解釈しやすいため、ワイドフォーマットで保存されます。
たとえば、上記の形式では、各チームの得点、アシスト、リバウンドの値を同一線上で読み取ることが簡単です。
ロングフォーマットを使用する場合
通常、 Rなどの統計ソフトウェアを使用してプロット内の複数の変数を表示する場合、ソフトウェアがプロットを作成できるように、データを長い形式に変換する必要があります。
実際の例については、特定の種類のプロットを作成するにはデータが長い形式である必要がある次の R チュートリアルを確認してください。
Pythonも使用している場合は、データを別の形式に再形成する必要がある場合があります。
次のチュートリアルでは、Python でデータ フレームを再形成する方法について説明します。
追加リソース
次のチュートリアルでは、その他の一般的に使用される統計用語に関する情報を提供します。