回帰統計モデルの定義

回帰分析による変数間の関係

回帰は、特定のデータセットがある場合、数値の範囲( 連続値とも呼ばれる)を予測するために使用されるデータマイニング手法です。 例えば、回帰は、他の変数が与えられれば、製品またはサービスのコストを予測するために使用され得る。

回帰は、ビジネスとマーケティングの計画、財務予測、環境モデリング、傾向分析など、複数の業界で使用されています。

回帰対 分類

回帰と分類は、類似の問題を解決するために使用れるデータマイニング手法ですが、頻繁に混乱します。 両方とも予測分析に使用されますが、回帰は数値または連続値を予測するために使用され、分類はデータを離散カテゴリに割り当てます。

例えば、回帰は、その場所、平方フィート、最後に販売された時の価格、類似の家屋の価格、および他の要因に基づいて家の価値を予測するために使用される。 歩行性、ロットサイズ、犯罪率などのカテゴリに家を編成する場合は、分類が順番に行われます。

回帰テクニックの種類

回帰の最も単純で最古の形式は、2つの変数間の関係を推定するために使用される線形回帰です。 この手法では、直線(y = mx + b)の数式を使用します。 簡単に言えば、これは、YとX軸を持つグラフを考えると、XとYの関係が外れ値の少ない直線であることを意味します。 例えば、人口の増加を考慮すると、同じ割合で食糧生産が増加すると仮定することができます。これは、2つの数字の間に強い線形関係が必要です。 これを視覚化するには、Y軸が人口増加を示し、X軸が食品生産を追跡するグラフを考えてみましょう。 Y値が増加すると、X値は同じ比率で増加し、それらの関係は直線になります。

重回帰などの高度な手法では、複数の変数間の関係を予測します。たとえば、収入、教育、そしてどこに住むかの間に相関がありますか? より多くの変数を追加すると、予測の複雑さが大幅に増加します。 複数の回帰手法には、標準、階層、尺度、階段など、それぞれ独自のアプリケーションがあります。

この時点で、予測しようとしているもの(従属変数または予測変数)と、予測を行うために使用しているデータ(独立変数または予測変数)を理解することが重要です。 この例では、収入と教育(両方の予測変数)を考慮して、生きる場所( 予測変数)を予測したいと考えています。