世界一と話題の音声認識の実力は!? AI文字起こしツール「VOITER」を使ってみた

ink_pen 2021/5/28

村元正剛

むらもとまさかた

iモードが始まった1999年からモバイル業界を取材し、さまざまな雑誌やWebメディアに記事を寄稿。2005年に編集プロダクション「ゴーズ」を設立。スマホ関連の書籍・ムックの編集にも携わっている。

Makuakeで「VOITER」というICレコーダーが人気を集めています。いまやスマホでも、かなり良い音質で録音できる時代。ただ音が良い、マイクの感度が高い、といったことだけでは話題にはなりません。VOITERが注目を集めている理由は、AIによる文字起こし機能を備えていること。音声だけでなく、自動で変換されたテキストデータも残せるのです。

筆者はライターという仕事柄、取材メモとしての録音が欠かせません。普段はiPhoneの「ボイスメモ」を使っているのですが、使いやすいICレコーダーがあれば購入したいと考えていたところ、このVOITERを試す機会を得ました。

8基のマイクを搭載し、スマホ感覚で操作可能

VOITERは、約3.5インチ（筆者の実測）のタッチスクリーンを搭載し、コンパクトなスマホといったサイズ感。上部に2基の指向性マイクを備え、最大10mの距離で集音可能。それだけでも十分な気がしますが、さらにディスプレイを囲むように6基の無指向性マイクも搭載しています。

↑サイズはH125×W62.26×14.8mmで、重さは166g。iPhone 12 mini（右）に近いサイズ感

録音モードは「会議」「講演」「取材」「標準」「メモ」「音楽」の6つから選択でき、それぞれ最適な音質で録音されるように調整されます。なお、800万画素のカメラを搭載し、静止画と動画の撮影も可能。

最大のアドバンテージは、通信機能を搭載し、音声の文字起こしに対応していること。Wi-Fiまたはモバイルデータ通信（4G）に接続すると、リアルタイムで文字に変換されて画面に表示されます。録音後に音声をサーバにアップロードして、さらに精度が高い文字起こしデータを保存できる仕組みです。

↑SIMスロットを搭載し、4G（Band 1/3/8/41）のモバイルデータ通信に対応

文字起こしの言語は、日本語と英語に対応。VOITERを開発・製造したiFLYTEKは中国に本社を置くメーカーで、音声認識技術を評価する国際的なイベント「CHiME」で世界1位に選ばれるなど、その性能は高く評価されています。昨年、日本法人が設立され、すでに翻訳機や法人向けソリューションなどをリリースしています。

↑内容物一式。取扱説明書は同梱されておらず、PDFの電子マニュアルがダウンロードできる。日本法人があり、日本語でサポートが受けられるので安心

VOITER本体には16GBのストレージを内蔵し、10GBのオンラインストレージも利用可能。バッテリー容量は2500mAhなので、さほど頻繁には充電する必要はなさそうです。

↑底部にUSB Type-Cポートとスピーカーを搭載。イヤホンジャックはないが、USBポートからの音声出力が可能

ネット接続するとリアルタイムで文字起こし

録音はオフラインで可能で、文字起こしを利用したい場合のみネットに接続すればOK。なので、Wi-Fi接続だけでも不便を感じることはなさそうです。しかし、筆者の場合、あちこちに取材に出向く仕事柄、いつでもネットにつながるのが理想的。そこで、SIMカードを挿して使ってみました。

最初にドコモ回線の格安SIMを挿したのですが、ネットにはつながらず、APN設定画面も見当たらず……。メーカーに確認したところ、ドコモ、au（KDDI）、ソフトバンクのSIMが対応していて、MVNOのSIMは使えないとのこと。今後のアップデートで変更される可能性があるかもしれませんが、格安SIMで使いたいと考えている人は要注意です。なお、楽天モバイルのSIMは公式には動作確認されていないようですが、筆者が試したところ、問題なく利用できました。

操作はスマホよりも簡単。電源ボタンを押して、画面を点灯し、ロックを解除。録音モードを選択したら、すぐに録音が始まります。なお、すばやく録音を始めたい場合は、左側面の赤いボタンをカチカチッと2回続けて押すと、ロックされていても、標準モードでの録音が始まるように設定できます。

筆者は、取材での録音が中心なので「取材」または「標準」モードを使用。AAC形式で32kHz/16bitの音質で録音されます。なお、「音楽」モードを選択すると、より高音質で録音できますが、文字起こしには対応していません。

最近は、オンラインでインタビューをしたり、発表会や説明会に参加することが多いのですが、そうした場合は、パソコンのスピーカーの近くにVOITERを近くに置き、「標準」モードで録音しました。

実際に使って便利だと感じたのは、音声が聞こえる方向を視覚的に確認できること。録音時に方位マークをタップすると、集音の方位とレベルを確認でき、より効率よく録音できる場所に置き換えられるわけです。

録音と同時に文字起こしが表示される機能は、発表会などで使うと、より内容を理解しやすく感じました。しっかり録音されているという安心感も得られます。画面に次から次へと表示されるテキストを見ていると、一旦かなで表示された後に漢字に変換されたり、句読点が追加されたりと、AIによって同時に修正されていることがわかりました。

試しに、筆者がGetNavi webに寄稿した原稿を自分で読んで録音してみたところ、95％くらいの認識率でしたが、専門用語が多い発表会、友人との会話などでは、誤認識が若干増えるように感じます。

録音時に一定時間を経過すると画面がオフになります。もちろん、録音は続いていますが、再度画面を点灯させると、リアルタイムの文字起こしは中断されていて、再開するにはタップ操作が必要です。初めて使った際は、中断された部分は文字起こしが欠落するのでは？と不安になったのですが、文字起こしは再生時でも可能。さらに、録音後にアップロードしてサーバで行うこともできます。なので、実際に使い始めると、リアルタイムの文字起こしは、さほど必要性を感じなくなるかもしれません。

リアルタイムの文字起こしが役に立ちそうなのが英語。今回、VOITERを試用した期間には、英語での取材はなかったので、オンライン英会話を受講した際に使ってみました。講師が話す英語が瞬時にテキスト化されて表示されるので、非常にわかりやすく感じました。コロナが収まり、海外取材に行けるようになったら、ぜひ活用してみたいものです。なお、言語は自動では認識されないので、ユーザーが設定する必要があります。

800万画素のカメラを搭載し、写真やビデオを撮ることも可能。ビデオの音声も文字起こしが可能で、再生時に字幕を表示させることができます。講演やスピーチを録音するだけでなく、映像も残したいときに重宝しそうです。