サンプル分散と母集団分散の差

Anonim

に関する関連情報を得る目的で集計統計データの一部を選択することを指す。解説

全体に関する関連情報を得る目的で集計統計データの一部を選択することを指す。調査の対象となるすべてのメンバーの特定の性格に関する統計情報の総量または全体を「人口」または「宇宙」と呼びます。 (Das、N.G.、2010)。母集団の選択された部分は、母集団または宇宙の特性を得るために使用され、「サンプル」と呼ばれます。母集団は個々のユニットまたはメンバーで構成され、ユニットのいくつかはサンプルに含まれます。母集団の単位の総数は母集団サイズと呼ばれ、標本の単位数は標本サイズと呼ばれます。母集団と標本は有限または無限とすることができ、同様にそれらは存在しても仮想であってもよい。

<! - 1 - >

分散: 分散は、データセット内の個々の数値が平均に関してどれほど広く分布しているかを示す数値です。それは、それぞれの数字が平均からどれくらい離れているか、そして互いにどのくらい離れているかです。ゼロ値の分散は、すべてのデータが同一で​​あることを意味します。分散が大きいほど、平均値、つまりお互いの値がより広がります。分散が少ないほど、平均値、つまりお互いに分散した値が少なくなり、分散は負になりません。

<!母集団分散と標本分散の差

母集団分散と標本分散の主な違いは、分散の計算に関係します。差異は5段階で計算されます。最初の平均が計算され、次に平均からの偏差が計算され、3番目に偏差が2乗され、4番目に偏差が合計され、最後に、この合計が分散が計算される項目の数で除算されます。したがって、分散=Σ(xi-x - )/ n。ここでxi = ith。番号、x- =平均およびn =アイテム数…

<!ここで、母集団データから分散を計算する場合、nは項目数に等しい。したがって、全1000人の血圧データから1000人全員の血圧変動を計算すると、n = 1000となります。ただし、サンプルデータから分散を計算する場合は、nからnを差し引いてから偏差の平方和。したがって、上記の例では、サンプルデータが100個のアイテムを持つ場合、分母は100-1 = 99となります。

<!このため、サンプルデータから計算された分散の値は、母集団データを使用して検出された可能性のある値よりも高くなります。そうすることの論理は、人口データに関する情報の不足を補うことです。未来を語るのではなく、すべての生きている人間の高さについての情報が絶対に欠けていることから、人間の高さの違いを知ることは不可能です。米国のすべての生きている男性の高さに関する人口データのような適度な例をとっても、それは物理的に可能ですが、これに伴うコストと時間が計算の目的を破るでしょう。これは、ほとんどの統計目的でサンプルデータが取られた理由であり、これには大部分のデータに関する情報が欠落しています。これを補償するために、分散の平方根である分散と標準偏差の値は、母集団データからの分散よりも標本データの方が高い。

<! - 2 - >

これは、アナリストと意思決定者のための自動シールドとして機能します。このロジックは、資本予算、個人および事業金融、建設、交通管理、および多くの適用可能な分野に関する決定に適用されます。これは、ステークホルダーが決定を下している間、または他の推論のために安全な側にいるのに役立ちます。要約:

母集団分散は母集団データから計算された分散の値であり、母集団の分散は母集団のデータから計算された分散である。サンプルデータの場合の分散の式におけるこの分母の値は「n-1」であり、母集団データの場合は「n」である。結果として、サンプルデータから得られた分散と標準偏差の両方が、母集団データから見出された分散および標準偏差よりも大きい。

<! - 3 - >