音声認識ソフトのユーザーが増えているそうです。AmivoiceSP2、ドラゴンスピーチ11といった古くからのアプリケーションソフト以外に、windows標準の音声認識ソフトなども含めて、ブログでレビューや比較記事が書かれています。私もこのたび、AmivoiceSP2を購入したので、それを含めて無料ソフトも含めた4製品のご紹介をさせていただきます。
ブログを更新していると、入力の間違いがあります。
私は推敲を熱心に行わないので(ほとんど一発勝負なので)、記事を更新後に、「あ、ここ間違えた」と気づくことも少なくありません。
そんなときは、つい思ってしまいます。
いちいちキーボードを叩かずに、話したことが自動的に入力されないものかな、と。
音声認識。高度な技術です。たぶん、現在市販されているソフトではまだまだ課題はあるのだろう、とは思います。
でも、OCR(文字認識ソフト)だって、つい10年前は20万円ぐらいしたのにあまり使えなかったのが、今は1万円程度で使えるレベルのものが売られている。
だから音声認識ソフトだってイケるのではないか。
スポンサードリンク↓
レビューソフトやメーカーの認識実験の動画を見ると、なかなか成績もいい。
それならというので、音声入力ソフト、AmivoiceSP2を買ってしまいました。
その感想とともに、他の製品についてもご紹介いたします。
AmivoiceSP2
http://sp.advanced-media.co.jp/
さっそく試してみました。もとの文章はこれです。9月2日の記事の冒頭の部分ですね。
戦後史の激動
日本語入力ソフト、主力の4本を比較する
日本語入力ソフト。みなさんは何をお使いですか。私はMS-DOS時代からATOKユーザーだったのですが、OSがWindows95になったあたりからなんとなく使い勝手に違和感を覚え始め、テンキーの直接入力の挙動などにいささか不満が残るようになりました。そこで、なにかいい入力ソフトはないものかと思って、最近Google 日本語入力をインストールしてみました。
この文章の認識結果です。
↓
>>↑この動画です
「MS-DOS」や「windows95」はあらかじめ辞書登録しました。
その他、音響学習といって、ユーザーの声の登録を繰り返すことで音声認識率を高める機能ですが、それが126レベル中の「4.69」です。
4.69/126だからか、ちょっとこれでは厳しいですね。思いつくまま喋って、それをブログ記事に、という使い方ができるレベルではありません。
メーカーや個人ブログのレビューサイトを見ると、誤認識がほとんどなく、すぐにでも使えるレベルであるかのように見えますが、少なくとも私はそれを実感できませんでした。
ただ、「windows95」→「ういんどうずきゅうじゅうご」などと辞書登録すると、滑舌が多少悪くても、出力はしてくれます。
ソフトの音声認識率を高めるように何度も音響学習を繰り返し、辞書登録も積極的に行う中で、次第に使えるようになってくる、という感じです。
かといって、既存のIMEなどから一括で辞書をインポートしようなんて考えたらだめです。辞書が重くなると変換が遅くなってしまうのです。
必要な単語を加え、一方でいらないものは手作業で削る手間も必要です、ツイッターのフォローとフォロワーのバランス調整と似てますね。
そういうことで、インストールしたからすぐに使えるのではなく、
ユーザーが育てる必要があるということでしょう。
windows音声認識(windows標準機能)
http://windows.microsoft.com/ja-jp/windows7/set-up-speech-recognition
windowsには、標準で音声認識機能が装備されています。個人のブログのレビュー記事によっては「AmivoiceSP2よりも優れている」という評価もあります。
AmivoiceSP2は有料製品ですから、そこまでいっていいのかなという気もしますけどね。
こちらもAmivoiceSP2のような学習機能があるので、鍛えていくことで使い勝手が向上する可能性はあるのでしょう。
フリーのエディタ、TeraPadに出力してみました。
「戦後史の激動」と言うとこんな感じで出力されます。いきなり誤認識。ここで挫折(笑)
私がよく理解していないせいもあると思いますが、異なるデバイスからの入力を準備するような表示が出るなど、ソフトの能力以前に取り扱いがよくわかりません。
音声入力機能に関心がある。しかし、そのためにわざわざアプリケーションソフトは買いたくない。標準機能で何とかならないか、という方は、windows音声認識を使われてはいかがでしょうか。
ドラゴンスピーチ11(ジェイドコーポレーション)
http://japan.nuance.com/dragonspeech/
有料音声認識ソフトとして、AmivoiceSP2としばしば比較されます。
辞書はこちらの方が多い。ただし、マシンパワーに依存するなど書かれていますね。
私はこちらは残念ながら今回は試していませんが、レビューを見る限り一長一短あるが全体としては“どんぐりの背比べ”なんだろうと思います。
性能にはっきり優劣の差がついていたら、ビジネスとしての勝負は付いているはずですから。
YOUTUBEには、ドラゴンスピーチ11を使った音声入力の動画がアップされていますが、あえてここでご紹介しません。
なぜかというと、一見、スムーズに見える認識が、実はその前に誤認識がないようにすべて辞書登録している「仕込み」の可能性もあるので、ソフトの認識能力の判定として使えるのか、はなはだ懐疑的だからです。
ドラゴンスピーチは、10年ぐらい前のバージョンで、同社の広告(ペイドパブ)を私が手がけたことがあり、ソフトも1本いただきました。
でも、10年前ですから正直実用的とはいえず、ちょっと使った後は文字通り棚上げ。そのうち、新バージョンが出て値打ちが下がらないうちにと、ヤフオクに出品してしまいました(汗)
上記3本のようなアプリケーションソフトとはジャンルが異なるものですが、「無料の音声認識」ということでこちらもご紹介いたします。
Galatea Toolkit(東京大学)無料
http://hil.t.u-tokyo.ac.jp/~galatea/index-jp.html
東京大学が開発した、無料で使える音声合成エンジン、GalateaTalk(ガラテアトーク)は、自然な表情で人間と対話ができるバーチャル人間(virtual human) を目標とした研究の成果として発表されています。
……ということで結論ですが、音声認識ソフトがインストールしてユーザーが何もせず即戦力としていきなりはたらいてくれるには、もう少し時間がかかるのかもしれません。
【パソコン関連記事】
・ブログとアフィリエイトビジネスの現実
・GoogleのSEO対策をso-netブログ当てはめ解読する!
・MS Office裏技購入+互換ソフト比較
・GetHTMLWでブログのバックアップや引っ越しを行う!
・フリーメール百考、Gmailを名刺に記載できますか?
・あっという間に月25万PVをかせぐ人気ブログのつくり方、で人気ブログを作りますか
・日本語入力ソフト、主力4本を比較する
Facebook コメント