音声入力と私

IoT

2018.01.24

3日前からGoogle音声入力とGoogle Keepを組み合わせて音声でブログを書いていますが、音声入力にはかなり前から期待をしていて、2001年にIBMのViaVoiceというソフトを興味本位で購入して一時期使っていたことがありました。

日本アイ・ビー・エム

ViaVoiceでは、まずユーザーの話し方の癖を覚えさせて、認識精度を上げるためにエンロールという作業を行いました。これは数十もの文章を読み上げて行う作業で、確か2～3時間かかったと思います。

このエンロールを行っていた時に、どうやら弟に聞かれていたらしく、あとで一緒に飲んでいた時に1人でわけの分からないことを延々ブツブツ言っていたので、とうとう狂ったのかと思ったと言われてしまい、兄の威厳が失われて大変ショックでした。

精度もそこそこで、mixi以前だったので日記やブログを書いておらず、文字を入力する必要もなかったので、結局1ヶ月経たないうちにお蔵入りとなりました。

一太郎のジャストシステムがIBMと共同開発したVoiceATOKというものもありました。当時仕事でATOKを使っていたのでちょっと欲しかったんですが、たぶん職場では使えないと思ったのでやめておきました。

ジャストシステム

￥16,280（2024/11/21 21:31時点）

また、オープンソースの音声認識ソフトに京都大学が開発したJuliusがあります。

JuliusのディクテーションキットがPythonで提供されているので、PC にインストールして、話した言葉を文字として出力するところまではできるようになりました。余談ですが、WindowsでPythonを使おうとすると、環境構築だけで軽く死ねると思いました。

画像下がJuliusでの音声入力に対する文字出力です。

本当はIoTのリモコンキットと接続して、音声で家電を操作しようと思っていたのですが、技術的に難しくてできなかったので頓挫しました。昨年末にEcho Dotを入手したことによって、音声で家電を操作するというのは実現できたので良しとします。

そんなわけで、十数年前から現在まで音声入力には注目していたのですが、近年の技術によって音声認識の精度が飛躍的に上昇して、実用レベルまで達していることは大変喜ばしく思うと同時に驚きを隠せません。

スマートフォンさえあれば何の準備も必要とせず、話しかけると驚くほど高精度に文字を入力できるので、後は少し文章を修正するだけでブログの記事を書けるようになるとは思ってもいませんでした。

今現在がもうすでに十数年前に思い描いた未来そのもの、いやそれ以上に技術が進歩していて、こうやって話すことでブログが書けるようになっているので、まさに未来キターーーーーーーーーーーーーー！！という感じですね。

私はコーチングをやっているので、音声認識の技術を応用してコーチングができるAIを開発するお手伝いなどができたらと考えています。ピンと来た方はお気軽にお声掛けください。