カテゴリー: ガイド
ドット プロットは、積み重ねられた点を使用してデータ セット内の値の頻度を表示するプロットの一種です。 ドット プロットを作成するときは、中心と分布を定量化したいことがよくあります。 Center : データセットの中心 […]...
ヒストグラムは、一連のデータ内の値の分布を視覚化できるグラフの一種です。 X 軸はデータセットの値を示し、Y 軸は各値の頻度を示します。 データセット内の値に応じて、ヒストグラムはさまざまな形状になります。 次の例は、さ […]...
外れ値とは、データセット内の他の値から異常に離れている観測値です。 多くの場合、観測値が第 3 四分位より上の四分位範囲の 1.5 倍、または第 1 四分位より下の四分位範囲の 1.5 倍である場合、その観測値は外れ値と […]...
信頼区間は、一定の信頼レベルで母集団パラメータが含まれる可能性が高い値の範囲です。 信頼区間を報告するときは、常に次の形式を使用します。 95% CI [LL、UL] 金 LL : 信頼区間の下限 UL : 信頼区間の上 […]...
R で発生する可能性のある警告メッセージは次のとおりです。 Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred この警告は […]...
統計や機械学習では、値の範囲が 0 から 1 の間になるように変数を正規化することがよくあります。 変数を正規化する最も一般的な理由は、ある種の多変量解析を実行しているとき (つまり、複数の予測変数と 1 つの応答変数の […]...
ANOVA (「分散分析」) は、3 つ以上の独立したグループの平均が等しいかどうかを判断するために使用されます。 ANOVA では、次の帰無仮説と対立仮説が使用されます。 H 0 :すべてのグループ平均が等しい。 H […]...
2 つのベクトルAとBの間のマンハッタン距離は次のように計算されます。 Σ|A i – B i | ここで、 iは各ベクトルの i番目の要素です。 この距離は 2 つのベクトル間の非類似性を測定するために使用され、多くの […]...
プールされた標準偏差は、 2 つ以上の独立したグループの標準偏差の加重平均です。 統計では、 2 つの母集団の平均が等しいかどうかを検定するために使用される 2 標本 t 検定で最も一般的に現れます。 2 つのグループの […]...
次の基本構文を使用して、複数の列に基づいて R の 2 つのデータ フレームをマージできます。 merge(df1, df2, by. x =c(' col1 ', ' col2 '), by. y =c(' col1 […]...