回帰分析による変数間の関係
回帰は、特定のデータセットがある場合、数値の範囲( 連続値とも呼ばれる)を予測するために使用されるデータマイニング手法です。 例えば、回帰は、他の変数が与えられれば、製品またはサービスのコストを予測するために使用され得る。
回帰は、ビジネスとマーケティングの計画、財務予測、環境モデリング、傾向分析など、複数の業界で使用されています。
回帰対 分類
回帰と分類は、類似の問題を解決するために使用されるデータマイニング手法ですが、頻繁に混乱します。 両方とも予測分析に使用されますが、回帰は数値または連続値を予測するために使用され、分類はデータを離散カテゴリに割り当てます。
例えば、回帰は、その場所、平方フィート、最後に販売された時の価格、類似の家屋の価格、および他の要因に基づいて家の価値を予測するために使用される。 歩行性、ロットサイズ、犯罪率などのカテゴリに家を編成する場合は、分類が順番に行われます。
回帰テクニックの種類
回帰の最も単純で最古の形式は、2つの変数間の関係を推定するために使用される線形回帰です。 この手法では、直線(y = mx + b)の数式を使用します。 簡単に言えば、これは、YとX軸を持つグラフを考えると、XとYの関係が外れ値の少ない直線であることを意味します。 例えば、人口の増加を考慮すると、同じ割合で食糧生産が増加すると仮定することができます。これは、2つの数字の間に強い線形関係が必要です。 これを視覚化するには、Y軸が人口増加を示し、X軸が食品生産を追跡するグラフを考えてみましょう。 Y値が増加すると、X値は同じ比率で増加し、それらの関係は直線になります。
重回帰などの高度な手法では、複数の変数間の関係を予測します。たとえば、収入、教育、そしてどこに住むかの間に相関がありますか? より多くの変数を追加すると、予測の複雑さが大幅に増加します。 複数の回帰手法には、標準、階層、尺度、階段など、それぞれ独自のアプリケーションがあります。
この時点で、予測しようとしているもの(従属変数または予測変数)と、予測を行うために使用しているデータ(独立変数または予測変数)を理解することが重要です。 この例では、収入と教育(両方の予測変数)を考慮して、生きる場所( 予測変数)を予測したいと考えています。
- 標準重回帰は、すべての予測変数を同時に考慮します。 たとえば、1)所得と教育(予測変数)と近傍(予測値)の選択との関係はどうですか。 2)個々の予測変数のそれぞれがその関係にどの程度貢献するのか?
- 段階的重回帰は全く異なる質問に答える。 ステップワイズ回帰アルゴリズムは、どの予測変数が近傍の選択を予測するのに最も適しているかを分析します。つまり、ステップワイズモデルが予測変数の重要度の順番を評価してから関連するサブセットを選択します。 このタイプの回帰問題は、回帰式を開発するために「ステップ」を使用します。 このタイプの回帰を考えると、すべての予測変数は最終回帰式に現れないことさえあります。
- 階段状のような階層的回帰は逐次処理であるが、予測変数は、あらかじめ定義された予め指定された順序でモデルに入力される。すなわち、アルゴリズムは、次の順序を決定するための組み込み式の組を含まない。プレディクタを入力します。 これは、回帰方程式を作成する個人がフィールドの専門知識を持っている場合に最も頻繁に使用されます。
- Setwise回帰も段階的に似ていますが、個々の変数ではなく変数のセットを分析します。