Googleブックスで 'Ngram Viewer'ツールを使用する方法

一般にNグラムとも呼ばれるNグラムは、テキスト中のある種の項目のn (数)を見つけるためのテキストまたはスピーチ内容の統計分析である。 音韻、接頭語、フレーズ、手紙など、あらゆる種類のものになる可能性があります。 Nグラムは研究者の外ではやや曖昧ですが、実際にはさまざまな分野で使用されており、自然言語を理解して対応するコンピュータプログラムを作成する人々には多くの意味があります。 一言で言えば、このアイデアに対するGoogleの関心です。

Google Books Ngram Viewerの場合、分析されるテキストは、Googleが公立図書館からGoogleブックス検索エンジンに取り込むためにスキャンした膨大な量の書籍に由来します。 Google Books Ngram Viewerでは、検索対象のテキストを「コーパス」と呼びます。 Ngram Viewerの本体は言語で分割されていますが、英語とアメリカの英語を別々に分析したりまとめたりすることはできます。 それは、英国からアメリカへの用語の使用を切り替えて、チャートが変わるのを見るのは面白いです。

Ngramのしくみ

  1. Google Books Ngram Viewer(books.google.com/ngrams)にアクセスします。
  2. Google Web検索とは異なり、項目は大文字と小文字が区別されるため、固有名詞を大文字にしてください。
  3. 分析したいフレーズを入力してください。 各フレーズはカンマで区切ってください。 Googleが提案するのは、「Albert Einstein、Sherlock Holmes、Frankenstein」です。
  4. 次に、日付範囲を入力します。 デフォルトは1800〜2000ですが、最新の書籍があります(2011年はGoogleのドキュメントに掲載された最新のものですが、変更されている可能性があります)。
  5. コーパスを選択します。 外国語のテキストや英語を検索することができます。また、標準の選択に加えて、下部に「英語(2009)またはアメリカ英語(2009)」のようなものが表示されます。 これらはGoogleが更新した古いコーパスですが、古いデータセットと比較する理由があるかもしれません。 ほとんどのユーザーはそれらを無視して最新のコーパスに集中できます。
  6. スムージングレベルを設定します。 平滑化とは、グラフが最後にどのくらい滑らかであるかを指します。 最も正確な表現は0のスムージングレベルですが、それは読みにくい場合があります。 デフォルトは3に設定されています。ほとんどの場合、これを調整する必要はありません。
  1. たくさんの書籍を検索ボタンを押します。 (検索プロンプトでenterキーを押すこともできます)。

Ngramは何を表示していますか?

Google Books Ngram Viewerは、書籍の特定のフレーズの使用時間を表すグラフを出力します。 2つ以上の単語やフレーズを入力した場合は、色分けされた線が表示され、異なる検索語句が対照的になります。 これはGoogle Trendsと非常によく似ていますが 、検索でのみより長い時間がカバーされます。

現実の例があります。私たちは最近、酢酢について興味がありました。 彼らはLaura Ingalls WilderのPrairieシリーズのLittle Houseで言及されていますが、そのようなことは聞いたことがありません。 最初にGoogleのウェブ検索を使って酢のパイについてもっと知りました。 どうやら、彼らはアメリカ南部料理の一部と考えられ、実際には酢から作られています。 彼らは、誰もが年中いつでも新鮮な農産物を利用することができなかった時代に耳を傾ける。 それは全体の話ですか?

私たちはGoogle Ngram Viewerを検索しましたが、1800年代の早い時期と遅い時期の両方のパイ、1940年代の多くの言及、最近の言葉の数が増えています(おそらくいくつかのパイのノスタルジア)。平滑化レベル3のデータに関する問題。1800年代の言及を超える高原があります。 確かに、5年間、毎年特定のパイの言及が等しくなかったでしょうか? 何が起こっているのは、その時間に出版された本があまりなく、データがスムーズに設定されているために絵が歪んでしまうことです。 おそらく、酢のいとうのパイに言及した本が1冊あっただけで、スパイクを避けるために平均化されました。 平滑化を0に設定することで、これがまさにそのケースであることがわかります。 スパイクは1869年を中心とし、1897年と1900年には別のスパイクがあります。

残りの時間は誰も酢のパイについて話しませんでしたか? 彼らはおそらくそれらのパイについて話をしました。 場所のいたるところに浮かぶレシピがありました。 彼らは書籍について書いていないだけで、Ngramの検索には限界があります。

高度なNgram検索

Ngramsはあらゆる種類のテキスト検索から成っていると私たちは言っていたことを覚えていますか? Googleでは、Ngramビューアでもかなり詳細を掘り下げることができます。 名詞を魚の代わりに動詞を検索する場合は、タグを使用して検索できます。 この場合、 "fish_VERB"を検索します

Googleでは、使用できるコマンドの完全なリストとその他の高度なドキュメントをウェブサイトで提供しています。