分類は、より正確な予測と分析を支援するために、データの集まりにカテゴリを割り当てるデータマイニング手法です。 ディシジョンツリーとも呼ばれ、分類は非常に大きなデータセットの分析を効果的にするためのいくつかの方法の1つです。
なぜ分類?
今日の「ビッグデータ」の世界では、非常に大きなデータベースが標準となっています。 複数テラバイトのデータを持つデータベースを想像してください.1テラバイトは1 兆バイトのデータです。
Facebookだけで毎日600テラバイトの新しいデータを集めています(2014年、これらの仕様を最後に報告した時点)。 ビッグデータの主な課題は、それを理解する方法です。
また膨大なデータだけでなく、膨大なデータが多様化し、非構造化され、急速に変化する傾向があります。 オーディオとビデオのデータ、ソーシャルメディアの投稿、3Dデータ、または地理空間データを検討してください。 このような種類のデータは、簡単には分類または整理されていません。
この課題を解決するために、有益な情報を抽出するための自動方法の範囲が開発されました 。
分類の仕組み
技術的に話が進まない危険があるときは、分類の仕組みについて話し合ってみましょう。 目標は、質問に答えるか、決定を下すか、または行動を予測する一連の分類ルールを作成することです。まず、特定の属性セットと可能性のある結果を含む一連のトレーニングデータが作成されます。
分類アルゴリズムの役割は、その属性セットがどのように結論に達するかを発見することです。
シナリオ :おそらく、クレジットカード会社が、どの見込み客がクレジットカードのオファーを受け取るべきかを判断しようとしているのかもしれません。
これは、一連のトレーニングデータです。
| 名 | 年齢 | 性別 | 年収 | クレジットカードオファー |
|---|---|---|---|---|
| ジョン・ドウ | 25 | M | $ 39,500 | いいえ |
| ジェーン・ドウ | 56 | F | $ 125,000 | はい |
年齢 、 性別 、 年収などの「プレディクタ」列で、「プレディクタ属性」 クレジットカードオファーの値が決まります。 トレーニングセットでは、predictor属性が知られています。 次に、分類アルゴリズムは、予測子属性の値にどのように達したか、すなわち、予測子と決定者との間にどのような関係が存在するかを決定しようと試みる。 予測ルールのセットを開発します。通常はIF / THENステートメントです。たとえば、次のようになります。
IF(年齢が18歳以上、年齢が75歳未満)および年間収入が40,000を超える場合、クレジットカードのオファー= yes
明らかに、これは簡単な例であり、アルゴリズムはここに示す2つのレコードよりもはるかに大きなデータサンプリングを必要とします。 さらに、予測ルールは、属性の詳細をキャプチャするためのサブルールを含む、はるかに複雑である可能性が高い。
次に、解析するデータの「予測セット」がアルゴリズムに与えられますが、このセットには予測属性(または決定)がありません。
| 名 | 年齢 | 性別 | 年収 | クレジットカードオファー |
|---|---|---|---|---|
| ジャックフロスト | 42 | M | $ 88,000 | |
| メアリーマレー | 16 | F | $ 0 |
この予測データは、予測ルールの精度を推定するのに役立ち、開発者が予測を効果的かつ有用と考えるまで、ルールは調整されます。
日々の分類の例
分類、およびその他のデータマイニング技術は、消費者としての私たちの日常的な経験の多くの後ろにあります。
天気予報では、分類を使用して日が雨、晴れ、曇っているかどうかを報告する場合があります。 医療従事者は健康状態を分析して医療結果を予測することができる。 分類方法の一種であるNaive Bayesianは、条件付き確率を使用してスパムメールを分類します。 詐欺の検出から製品のオファーまで、データの分析と予測の作成は日々行われています。