統計学者とデータサイエンティスト: 違いは何ですか?


統計学者データ サイエンティストはどちらもデータをよく扱いますが、この 2 つの職業にはいくつかの重要な違いがあります。

違い #1 (データの種類) –データ サイエンティストは不完全なデータの収集とクリーニングに多くの時間を費やす傾向がありますが、統計学者は一般的に整然としたデータを持っています。

違い #2 (最終目標) – データ サイエンティストは結果を予測するモデルの作成に重点を置く傾向があるのに対し、統計学者は変数間の関係を正確に記述するモデルの作成に重点を置く傾向があります。

違い #3 (実稼働) – データ サイエンティストはビジネスで実稼働に導入されるモデルを構築する傾向がありますが、統計学者は現象に関する洞察や説明を提供できるモデルを構築する傾向があります。

これらの違いの詳細な説明については、読み続けてください。

違い #1: データ型

一般に、データ サイエンティストは、統計学者が使用する種類のデータよりも複雑で抽出が困難で、はるかに大きいデータを扱うことがよくあります。

たとえば、不動産会社で働くデータ サイエンティストは、数百万行を含むデータ セットを複数の異なる外部サーバーからすべて異なる形式で抽出する必要がある場合があります。

データを抽出してモデリングに適した形式にパッケージ化するには、SQL と少なくとも 1 つのプログラミング言語 ( RPythonなど) に関する広範な知識が必要です。

対照的に、統計学者は、すでにきちんとした形式で提示されている小さなデータセットを扱う傾向があります。

たとえば、生物医学企業に勤める統計学者は、50 人の異なる患者の血圧、心拍数、コレステロール レベルに関する情報を含む 50 行の Excel ファイルを受け取るとします。

データの抽出とクリーニングに時間を費やすよりも、データに適合する適切な仮説テストまたはモデルを決定し、テストまたはモデルで選択した統計の仮定が尊重されていることを確認することに多くの時間を費やす可能性があります。

違い #2: 最終目標

多くの場合、データ サイエンティストの最終目標は、特定の結果を正確に予測できる何らかのモデルを作成することです。

たとえば、金融会社で働くデータ サイエンティストは、特定の人がローンを滞納するかどうかを正確に予測できるロジスティック回帰モデルの作成を試みるかもしれません。

彼らは、予測変数のさまざまな組み合わせを使用してさまざまなモデルを適合させ、最も正確な予測を生成するモデルを見つけようとします。

彼らの最終目標は、各予測変数が応答変数にどのように関連するかを正確に定量化するのではなく、正確なモデルを作成することです。

対照的に、統計学者は、予測変数と応答変数の間の関係を正確に説明できるモデルの作成に重点を置く傾向があります。

たとえば、大学で働く統計学者は、さまざまな学習習慣が試験の得点にどのような影響を与えるかを正確に定量化する研究に参加するよう 30 人の学生を募集するとします。

このシナリオでは、統計学者は、回帰モデルの係数を解釈し、対応するp 値を分析して、応答変数と統計的に有意な関係があるかどうかを理解することに重点を置きます。

違い #3: 生産

一般に、データ サイエンティストは、統計学者よりもはるかに頻繁に、ビジネスで実稼働に導入される統計モデルを作成する傾向があります。

たとえば、大規模な食料品店チェーンで働くデータ サイエンティストは、さまざまな商品の売上を正確に予測できるモデルを作成できます。

彼の最終目標は、自社の開発者と協力してモデルを毎晩稼働するサーバーに組み込んで、毎日の製品の売上を予測できるようにすることです。

一方、統計学者は、ある種の生産に統合されたモデルを作成することはほとんどありません。

たとえば、ヘルスケア会社で働く統計学者は、さまざまなライフスタイル要因 (喫煙、運動、食事など) の間の関係を記述するモデルを構築するかもしれませんが、彼らの最終目標は単にこれらの要因と応答変数の間の関係を定量化することです。 。寿命のようなもの。

最終的な目標は、運用環境に配置されるモデルではなく、情報を提供するモデルを作成することです。

結論

統計学者とデータサイエンティストはどちらも日常の役割でデータを扱いますが、その方法は異なります。

データ サイエンティストは、多くの場合乱雑で処理が必要な、より多様なデータを扱う傾向がありますが、統計学者は、より小規模で整然としたデータ セットを扱うことがよくあります。

また、データ サイエンティストは結果を正確に予測できるモデルの構築に重点を置く傾向があり、統計学者は変数間の関係を正確に説明できるモデルを構築する傾向があります。

最後に、データ サイエンティストはモデルを企業の実稼働環境に導入する傾向がありますが、統計学者は現実世界の現象についての洞察を提供するために結果を要約して報告することがよくあります。

追加リソース

次の記事では、さまざまな分野における統計の重要性について説明しています。

なぜ統計が重要なのでしょうか? (統計が重要である 10 の理由!)
ビジネスにおける統計の重要性
教育における統計の重要性
医療における統計の重要性
金融における統計の重要性

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です