ラベルエンコーディングとワンホットエンコーディング: 違いは何ですか?

によるベンジャミン・アンダーソン博士 7月 17, 2023 ガイド 0コメント

機械学習では、カテゴリ変数をアルゴリズムで簡単に使用できる何らかの数値形式に変換することがよくあります。

カテゴリ変数を数値変数に変換するには、次の 2 つの一般的な方法があります。

1. ラベルエンコーディング:アルファベット順に基づいて、各カテゴリ値に整数値を割り当てます。

2. ワンホットエンコーディング:元のカテゴリ値を表す値 0 と 1 を取る新しい変数を作成します。

たとえば、2 つの変数を含む次のデータセットがあり、 Team変数をカテゴリ変数から数値変数に変換するとします。

次の例は、タグエンコーディングとワンホットエンコーディングの両方を使用してこれを行う方法を示しています。

例: ラベルエンコーディングの使用

ラベルエンコーディングを使用して、 Team列の一意の値をアルファベット順に基づいて整数値に変換します。

この例では、次のことがわかります。

Team列をカテゴリ変数から数値変数に正常に変換しました。

ワンホットエンコーディングを使用して、Team 列を0 と 1 の値のみを含む新しい変数に変換します。

このアプローチを使用する場合、元のカテゴリ変数の一意の値ごとに新しい列を作成します。

たとえば、カテゴリ変数Team には3 つの一意の値があったため、データセットに値 0 または 1 をすべて含む3 つの新しい列を作成しました。

新しい列の値を解釈する方法は次のとおりです。

Team列を 1 つのカテゴリ変数から 3 つの数値変数 (「ダミー」変数とも呼ばれる) に変換することに成功しました。

注: 回帰モデルまたは他の機械学習アルゴリズムでこれらの「ダミー」変数を使用する場合は、ダミー変数のトラップを避けるように注意してください。

ほとんどのシナリオでは、ラベルエンコーディングにより値間に順位があるように見えるため、カテゴリ変数を数値変数に変換するにはワンホットエンコーディングが推奨されます。

たとえば、ラベルエンコーディングを使用してチームを数値変数に変換した場合を考えてみましょう。

ラベルによってエンコードされたデータは、チーム C の数値が高いため、チーム B およびチーム A よりも何らかの形で大きいか背が高いように見えます。

元のカテゴリ変数が実際に自然な順序付けまたはランキングを持つ順序変数である場合、これは問題になりませんが、多くのシナリオではそうではありません。

ただし、ワンホットコーディングの欠点の 1 つは、元のカテゴリ変数に一意の値があるのと同じ数の新しい変数を作成する必要があることです。

これは、カテゴリ変数に 100 個の一意の値がある場合、ワンホットエンコーディングを使用するときに 100 個の新しい変数を作成する必要があることを意味します。

データセットのサイズと操作する変数のタイプに応じて、ワンホットエンコーディングまたはラベルエンコーディングが優先される場合があります。

次のチュートリアルでは、実際にラベルエンコーディングを実行する方法を説明します。

次のチュートリアルでは、実際にワンホットエンコーディングを実行する方法を説明します。

私はベンジャミンです。退職した統計教授から、専任の Statorials 教育者になりました。統計分野における豊富な経験と専門知識を活かして、私は Statorials を通じて学生に力を与えるために自分の知識を共有することに尽力しています。もっと知る