ベイジアンスパムフィルタリングについて知っておくべきこと

by Heinz Tschabitscher

統計情報を使用して受信トレイをきれいに保つ方法を確認する

ベイジアンスパムフィルタは、その内容に基づいてメッセージがスパムである確率を計算します。単純なコンテンツベースのフィルタとは異なり、ベイジアンの迷惑メールフィルタは迷惑メールや迷惑メールから覚えているため、非常に堅牢で適応性が高く、効率的な迷惑メール対策を実現します。

あなたは迷惑メールをどのように認識していますか？

スパムをどのように検出するか考えてみてください。多くの場合、一目瞭然です。あなたはスパムがどのように見えるかを知っていますし、良いメールがどのように見えるかを知っています

良いメールのように見えるスパムの確率は、ゼロ...の周りにあります。

スコアベースのコンテンツベースのフィルタは適応しません

自動迷惑メールフィルタもそのように機能していれば素晴らしいとは思いませんか？

コンテンツベースのスパムフィルタを採点すると、それだけが試されます。スパムに代表される言葉やその他の特徴を探します。すべての特性要素にスコアが割り当てられ、個々のスコアからメッセージ全体のスパムスコアが計算されます。いくつかの採点フィルタは正当なメールの特徴を探し、メッセージの最終スコアを下げます。

スコアリングフィルタのアプローチは機能しますが、いくつかの欠点もあります。

特性のリストは、フィルタのエンジニアが利用できるスパム（および良好なメール）から構築されます。誰かが受ける可能性がある典型的なスパムをよく理解するためには、数百の電子メールアドレスでメールを収集する必要があります。これは、特に、良いメールの特性が各人ごとに異なるため 、フィルタの効率を低下させますが、これは考慮されません。
探している特性は多かれ少なかれ石に設定されています。スパム送信者が適応するように努力して（そしてスパムをフィルタへの良いメールのように見せるように）、フィルタリングの特性を手動で微調整する必要があります。
各単語に割り当てられたスコアはおそらく良い見積もりに基づいていますが、依然として恣意的です。また、特性のリストのように、スパムの変化する世界にも、個々のユーザーのニーズにも適応しません。

ベイジアンスパムフィルターは、自分を調整し、より良くなっています。

ベイジアン・スパム・フィルタは、コンテンツ・ベースのスコアリング・フィルタの一種です。彼らのアプローチは、単純なスコアリングスパムフィルタの問題を取り除きますが、それは根本的にそうです。スコアリングフィルタの弱点は手作業で作成された特性とスコアのリストにあるため、このリストは削除されます。

代わりに、ベイジアンスパムフィルタはリスト自体を構築します。理想的には、スパムとして分類した電子メール（大量の）と、もう1つの良質のメールから始めます。フィルタは、正当なメールだけでなくスパムも分析して、迷惑メールやさまざまなメールに表示されるさまざまな特性の確率を計算します。

ベイジアンスパムフィルタが電子メールを検査する仕組み

ベイジアンスパムフィルタが見ることのできる特性は次のとおりです。

メッセージ本文の言葉は、もちろん、そして
そのヘッダー（たとえば、送信者とメッセージパス！）だけでなく、
HTML / CSSコード（色や他の書式のような）、または
単語のペア、フレーズ、
メタ情報（例えば、特定のフレーズが現れる場所）。

たとえば、「デカルト」という単語がスパムには表示されないが、受信した正当な電子メールによく表示される場合、「デカルト」がスパムを示す確率はゼロに近くなります。一方、「トナー」は排他的に、またしばしばスパムに見られます。「トナー」はスパムで検出される可能性が非常に高く、1（100％）を大きく下回るものではありません。

新しいメッセージが到着すると、それはベイジアンスパムフィルタによって分析され、完全なメッセージがスパムである確率は個々の特性を使用して計算されます。

メッセージに「デカルト」と「トナー」の両方が含まれているとします。これらの言葉だけでは、迷惑メールか正当な迷惑メールかどうかはまだはっきりしていません。他の特徴は、フィルタがそのメッセージを迷惑メールか良いメールのいずれかに分類する確率を示しています（うまくいけばおそらくそしておそらく）。

ベイジアンスパムフィルタは自動的に学習できます

分類があったので、メッセージを使用してフィルタ自体をさらに調整することができます。この場合、「デカルト」と「トナー」の両方を含むメッセージが迷惑メールであると判明した場合、良好なメールを示す「デカルト」の確率が低下するか、またはスパムを示す「トナー」の確率を再考する必要があります。

この自動適応技術を使用して、ベイジアンフィルタは、自分自身とユーザーの判断 （フィルタによって誤判定を手動で修正した場合） から学習できます。ベイジアンフィルタリングの適応性は、個々の電子メールユーザーにとって最も効果的であることを確認します。ほとんどの人のスパムは類似の特性を持つかもしれませんが、合法的なメールは誰にとっても特徴的に異なります。

スパマーは過去のベイジアンフィルタをどのように入手できますか？

正当なメールの特性は、スパムと同様にベイジアンのスパムフィルタリングプロセスにとっても重要です。フィルタがすべてのユーザ専用に訓練されている場合、スパマーは誰の（またはほとんどの人の）迷惑メールフィルタにも苦労するでしょう。スパマーが試みるほとんどすべてにフィルタを適用できます。

Spammersは、スパムメッセージをみんなが得る普通のメールのように見せかけるようにすれば、十分に訓練されたベイジアンフィルタを通過させるだけです。

スパム発信者は通常、通常のメールを送信しません。これらの電子メールが迷惑メールとして機能しないためです。だから、普通の、退屈なメールだけが迷惑メールフィルタを通過させる唯一の方法である場合、彼らはそれをしない可能性があります。

しかし、スパマーがほとんど普通のメールに切り替えると、私たちの受信ボックスには多くのスパムが再び表示され、電子メールはベイジアン前の時代（またはさらに悪い）のようにイライラすることがあります。それはまた、ほとんどの種類のスパムのための市場を台無しにしてしまったので、それは長く続くことはありません。

強いインジケータはベイジアンスパムフィルタのアキレス腱である可能性がありますヒール

1つの例外は、通常のコンテンツであっても、スパマーがベイジアンフィルタを通って動作することを認識することができます。良好なメールに非常に頻繁に現れる1つの単語または特性は、スパムのようなメッセージをフィルタによってハムとして評価するほど大きくなる可能性があるというベイジアン統計の性質上、

スパマーがあなたの確かな善いメールの言葉を判断する方法を見つけた場合（ HTMLの返品確認を使って開封したメッセージを確認するなど）、そのうちの1つを迷惑メールに入れて、訓練されたベイズフィルタ。

John Graham-Cummingは、2つのベイジアンフィルタを相互に作用させることによってこれを試みました。「悪い」のメッセージは、「良い」フィルタを通過するメッセージに適合します。プロセスは時間がかかり複雑なものですが、彼はそれが機能すると言います。私たちは、少なくとも大規模ではなく、個人の電子メールの特性に合わせて調整されたものではないことを、私たちが見ているとは思いません。スパマーは組織のためのいくつかのキーワード（おそらく、IBMの一部の人にとっては「Almaden」のようなもの）を見つけ出すかもしれない。

通常、スパムは通常のメールとは常に（大きく）異なりますが、スパムではありません。

ボトムライン：ベイジアンフィルタリングの強みは弱点になる

ベイジアンスパムフィルタは、次のようなコンテンツベースのフィルタです。

個々のEメールユーザーのスパムと優れたメールを認識するように特別に訓練されているため、スパマーにとって非常に効果的で適応しにくいものです。
スパマーの最新のテクニックに継続的かつ多大な労力や手作業による分析を適用することができます。
個々のユーザーの良好なメールを考慮に入れ、 誤認率が非常に低い。
残念なことに、これがベイズのスパム対策フィルタを盲目的に信頼してしまうと 、 時折の間違いがさらに深刻になります。 偽のネガティブ （通常のメールとまったく同じように見えるスパム）の反対の効果は、ユーザーを妨害して迷惑をかける可能性があります。

あなたは迷惑メールをどのように認識していますか？

スコアベースのコンテンツベースのフィルタは適応しません

ベイジアンスパムフィルターは、自分を調整し、より良くなっています。

ベイジアンスパムフィルタが電子メールを検査する仕組み

ベイジアンスパムフィルタは自動的に学習できます

スパマーは過去のベイジアンフィルタをどのように入手できますか？

強いインジケータはベイジアンスパムフィルタのアキレス腱である可能性があります ヒール

ボトムライン：ベイジアンフィルタリングの強みは弱点になる

Alike posts

See Newest

Sapid posts

強いインジケータはベイジアンスパムフィルタのアキレス腱である可能性がありますヒール