状態のLinux音声認識

by ゲイリー・ニューエル

前書き

私は記事の研究に多くの時間を費やしており、鉄道駅まで歩いている間、または一般的にはいつでも記事の主題について考えることがよくあります。

ある夜は私の仕事から駅まで1.5マイル歩いている間に、私が言っていたことを記録し、それを編集して後でフォーマットできるテキストファイルに自動的に転記させることができれば、。

私は長い時間をかけて、音声認識とディクテーションに利用できるさまざまなオプションを見てきました。Linuxのディクテーションソフトウェアを使ってマイクを使って直接録音したり、ファイルをMP3やWAV形式で録音したり、コマンドラインで変換したり、Chrome Androidアプリケーション。

この記事では、厳しい労働の後の私の発見を強調しています。

Linuxオプション

Linuxでディクテーションや音声認識ソフトウェアを見つけようとするのは簡単ではないし、利用できるオプションもそれほど賢明ではない。

このウィキペディアのページには、CMU Sphinx、Julius、Simonを含む潜在的なオプションのリストがあります。

私は現時点でDebian TestingをベースにしているSparkyLinuxを使用しています。リポジトリで利用できる唯一の音声認識パッケージはSphinxだと言えます。

PocketSphinxはWAVファイルをテキストに、Freespeech-VRはマイクロソフトから直接録音できるPythonアプリケーションです。

また、VoiceNote IIやDictanoteなどのChromeアプリを試してみました。

最後に、私は "ディクテーションと電子メール"と "トーク＆トークディクテーション" Androidアプリを試しました。

フリースピーチ-VR

Freespeech-VRは標準リポジトリでは利用できません。私はここからファイルをダウンロードしました。

zipファイルの内容をダウンロードして抽出した後、私は端末を開いて、ファイルが展開されたフォルダに移動しました。

freespeech-vrを開くために次のコマンドを入力しました。

sudo python freespeech-vr

私はかなりまともなマイクと非常に明確な南部の英語のアクセントを備えた一対のヘッドホンを持っています。

freespeech-vrウィンドウに次のテキストが表示されます。

ようこそ、結果のユニットの犬に今日は、テストを管理する方法を確認しているテストする必要があるときテキストをシステムの方法を使用するスピーチ私はそれぞれがあっただけで滞在することを望むとシステムの黄金の1つの鶏の手段私の名前が次の電話機に電話をかけたときこのファイルすぐに電話機に十分な電話機手元にスフィンクスを置くそれは電話機と共有されません訓練されたツールとツールツールスピーチを使用する終了したら使用済みのファイルと言うストーリーAとそれを使っているときこのLinuxが成功したのはどういう時だったのですか？

私はちょうどこれがユニット・オブ・ドッグスのウェブサイトではないと言いたいのですが、ゴールデン・ニワトリとは何も言及しませんでした。私は実際に音声認識ソフトウェアを使用するプロセスを記述しようとしていました。

私は様々なピッチとスピードを含む数回ソフトウェアを試しましたが、精度は良くありませんでした。

PocketSphinx

PocketSphinxは、WAVファイルを取り込んで、コマンドラインを使用してテキストに変換することができます。

PocketSphinxはDebianのリポジトリから入手でき、ほとんどのディストリビューションで利用できるはずです。

私がPocketSphinxで見つけた主な問題は、音声認識、言語ファイル、辞書の概念とシステムの訓練方法について学位を必要とすることです。

PocketSphinxをインストールしたら、CMU SphinxのWebサイトにアクセスして、できるだけ多くの情報を読んでください。次のモデルファイルもダウンロードする必要があります。

米国英語汎用言語モデル

（母国語でない方は、あなたに合った言語モデルを選択してください）。

PocketSphinxとSphinxのドキュメントは一般には理解できませんが、辞書ファイルを使用して可能な単語のリストを提供し、言語モデルには発音の可能性のリストがあります。

PocketSphinxをテストするために、私は自分の声を録音しました。「The Devils Advocate」のAl Pacinoのスニペットと「Morgan Freeman」のスニペットを使用しました。そのポイントは、私は別の声を試してみることでした。誰もMorgan Freemanのように話をはっきりと伝えることはできず、誰もAl Pacinoのようなラインを提供する人はいません。

PocketSphinxを動作させるには、WAVファイルが必要であり、特定の形式にする必要があります。ファイルがMP3形式の場合は、ffmpegコマンドを使用してWAV形式に変換します。

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000出力ファイル名.wav

PocketSphinxを実行するには、次のコマンドを使用します。

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuousはWAVファイルをテキストに変換します。

上記のコマンドでは、pocketsphinxは "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic"という辞書ファイルを言語モデル "cmusphinx-5.0-en-us.lm"とともに使用するよう指示されています。テキストに変換されるファイルはvoice2.wavと呼ばれます（これは私の声で作ったものです）。最後に、2>は、必ずしも必要でないすべての冗長出力をvoice2.logというファイルに置きます。実際のテスト結果は端末ウィンドウ内に表示されます。

私の声を使用した結果は次のとおりです。

今週は、認識ソフトウェアについて、今週の題目について、次の歓迎をお待ちしています。

結果は、freespeech-vrと同じくらい恐ろしいことではありませんが、まだ実際には使えません。私はその後Al PacinoとPocketSphinxを使ってみましたが、結果はまったく返されませんでした。

最後に、映画「Bruce Almighty」のMorgan Freemanの声を使ってみました。結果は次のとおりです。

000000000：私たちは彼女に行くよ
000000001：そのすべてが厳しいええ今日は今これは私たちが生きてきた最も私は暑い
000000002：エレベーターで、野球時代の少しの鍵か、人生で何をすべきかを知っている
000000003：復旧するものは何ですか
000000004：彼らはそれを書いていない
000000005：彼らはすぐに私の上にいる
000000006：ルールにする必要があります
000000007：私はあなたを期待しています
000000008：と彼はここで学んだイラストはキラークリスマスパーティーだった
000000009：これは、oの書き方の1つを示しています。私はいつも1つを着用すると思った
000000010：問題のような統一された彼は私があなたが私が世界に住んでいると思うすべてが家ではないと私は見たことがなかった瞬間にそれらを見積もっている
000000011：それを持っている父
000000012：これについて何が
000000013：それは与えられますか？
000000014：たくさん落ちていないもの
000000015：秋の権利
000000016：私のためにちょうど保持する
000000017：私はあまりにも彼らがそれを持つつもりだと思うなら、それは不幸なそれは結婚していることのすべてが私たちは私とは違う

私のテストはほとんど科学的とはみなされず、PocketSphinxの開発者は私がソフトウェアを正しく使用していないと述べているかもしれません。より良い辞書や言語ファイルを作成するために使用できる音声トレーニングと呼ばれる手法もあります。

私の主張は、標準的な日常使用ではそれほど難しいとは言えません。

VoiceNote II

VoiceNote IIはGoogle Voice認識APIを使用するChromeアプリケーションです。

ChromeまたはChromiumブラウザを使用している場合は、 Web Store経由でVoiceNote IIをインストールできます。

VoiceNote IIのアイコンは、ウィンドウの下部に言語を設定する必要があるので変な形で配置され、編集ボタンも下部にありますが、録音ボタンは右上にあります。

まず、言語を選択する必要があります。これは世界のアイコンをクリックすることで実現できます。

録音を開始するには、マイクアイコンをクリックし、マイクに向かって話し始める。最高の結果を得るために、私はゆっくりと話すことが重要だったので、ソフトウェアには追いつくチャンスがありました。

結果は以下のように大きくはありませんでした：

こんにちは、接続を歓迎します。それはあなたが選択したい場合は、テキストにスピーチに音声タイプを開くそれは音声タイプを開く2014debianまたはrpmパッケージを表示する音声テキストアドオンを見つけた最良の方法をサポートしています。対エジンバラで選んだフランス語ドイツ語あなたは海のmicrophonewhatであなたに英国の南からの非常に標準的な英語のアクセントにテキストファイルとしてあなたのテキストを書くことを終えた海のmicrophonewhatで時間を取得しますが、私はこのtorrentalong実際の書類と一緒に、あなたは、リフレンドのためにあなたを欺く間違いを見ることができます

Dictanote

Dictanoteは、口述の目的で使用することができ、より直感的であるが、結果はVoiceNote IIより優れていない別のChromeアプリケーションです。

私はDictanoteのデモ版を使用しただけです.Dictanoteは新しい文書を作成できないようにしていますが、すでにエディタに入っているテキストについて話すことができます。私は音声認識をテストすることができましたが、結果はVoiceNote IIより優れていなかったので、私はプロバージョンにサインアップしませんでした。

ディクテーションとメール

「Dictation And Mail」は、ネイティブのGoogle音声認識APIを使用するAndroidアプリケーションです。

「ディクテーションとメール」の結果は、今まで試みられた他のプログラムよりもずっと優れていました。

こんにちはLinuxを歓迎します。今日、私たちはサウンドをテキストに変換することについて話しています

「口述とメール」を使ったトリックは、ゆっくりと発音したり、アクセントを均等にすることができます。

話し終えたら、結果をあなた自身にメールすることができます。

トーク・アンド・トーク・ディクテーション

私が試みたもう一つのAndroidアプリケーションは "Talk And Talk Dictation"でした。

このアプリのインターフェースは最高のもので、音声認識は本当にうまく機能しました。口述を録音した後、私は電子メールなどさまざまな方法で結果を共有することができました。

ようこそlinux about.comに今日私たちは話をテキストに変換することを話しています

ご覧のとおり、上記のテキストは、あなたが得ると期待できるほど明確です。ゆっくりと話すことが鍵です。

概要

ネイティブLinuxには、音声認識と具体的にはディクテーションに関するいくつかの方法があります。 Google Voice APIを使用するアプリケーションもありますが、リポジトリにまだリストされていません。

ChromeOSアプリケーションは少し良くなっていますが、私のAndroid搭載端末を使用して最良の結果が得られました。たぶん電話機の方が優れたマイクを持っているため、音声認識ソフトウェアが変換の可能性が高くなります。

音声認識が本当に使えるようにするには、設定が少なくて済むように、直観的に理解する必要があります。理解できるように、言語モデルや辞書を使いこなす必要はありません。

しかし、すべての人が異なる声をもち、ある国の地域ごとに非常に多くの方言が存在するため、世界中で使用されている何百もの言語について心配することはありません。

私の分析は、音声認識ソフトウェアがまだ進行中であるということです。

前書き