デジタル
デジタル周辺機器
2021/5/28 20:40

世界一と話題の音声認識の実力は!? AI文字起こしツール「VOITER」を使ってみた

Makuakeで「VOITER」というICレコーダーが人気を集めています。いまやスマホでも、かなり良い音質で録音できる時代。ただ音が良い、マイクの感度が高い、といったことだけでは話題にはなりません。VOITERが注目を集めている理由は、AIによる文字起こし機能を備えていること。音声だけでなく、自動で変換されたテキストデータも残せるのです。

↑VOITER

 

筆者はライターという仕事柄、取材メモとしての録音が欠かせません。普段はiPhoneの「ボイスメモ」を使っているのですが、使いやすいICレコーダーがあれば購入したいと考えていたところ、このVOITERを試す機会を得ました。

 

8基のマイクを搭載し、スマホ感覚で操作可能

VOITERは、約3.5インチ(筆者の実測)のタッチスクリーンを搭載し、コンパクトなスマホといったサイズ感。上部に2基の指向性マイクを備え、最大10mの距離で集音可能。それだけでも十分な気がしますが、さらにディスプレイを囲むように6基の無指向性マイクも搭載しています。

↑サイズはH125×W62.26×14.8mmで、重さは166g。iPhone 12 mini(右)に近いサイズ感

 

↑2つの指向性マイクは筒状で、卓上に置いても集音できる構造になっている

 

↑ディスプレイの周囲にもマイクを搭載し、360度の集音を実現

 

録音モードは「会議」「講演」「取材」「標準」「メモ」「音楽」の6つから選択でき、それぞれ最適な音質で録音されるように調整されます。なお、800万画素のカメラを搭載し、静止画と動画の撮影も可能。

↑背面にはカメラを搭載

 

最大のアドバンテージは、通信機能を搭載し、音声の文字起こしに対応していること。Wi-Fiまたはモバイルデータ通信(4G)に接続すると、リアルタイムで文字に変換されて画面に表示されます。録音後に音声をサーバにアップロードして、さらに精度が高い文字起こしデータを保存できる仕組みです。

↑SIMスロットを搭載し、4G(Band 1/3/8/41)のモバイルデータ通信に対応

 

文字起こしの言語は、日本語と英語に対応。VOITERを開発・製造したiFLYTEKは中国に本社を置くメーカーで、音声認識技術を評価する国際的なイベント「CHiME」で世界1位に選ばれるなど、その性能は高く評価されています。昨年、日本法人が設立され、すでに翻訳機や法人向けソリューションなどをリリースしています。

↑内容物一式。取扱説明書は同梱されておらず、PDFの電子マニュアルがダウンロードできる。日本法人があり、日本語でサポートが受けられるので安心

 

VOITER本体には16GBのストレージを内蔵し、10GBのオンラインストレージも利用可能。バッテリー容量は2500mAhなので、さほど頻繁には充電する必要はなさそうです。

↑底部にUSB Type-Cポートとスピーカーを搭載。イヤホンジャックはないが、USBポートからの音声出力が可能

 

ネット接続するとリアルタイムで文字起こし

録音はオフラインで可能で、文字起こしを利用したい場合のみネットに接続すればOK。なので、Wi-Fi接続だけでも不便を感じることはなさそうです。しかし、筆者の場合、あちこちに取材に出向く仕事柄、いつでもネットにつながるのが理想的。そこで、SIMカードを挿して使ってみました。

 

最初にドコモ回線の格安SIMを挿したのですが、ネットにはつながらず、APN設定画面も見当たらず……。メーカーに確認したところ、ドコモ、au(KDDI)、ソフトバンクのSIMが対応していて、MVNOのSIMは使えないとのこと。今後のアップデートで変更される可能性があるかもしれませんが、格安SIMで使いたいと考えている人は要注意です。なお、楽天モバイルのSIMは公式には動作確認されていないようですが、筆者が試したところ、問題なく利用できました。

 

操作はスマホよりも簡単。電源ボタンを押して、画面を点灯し、ロックを解除。録音モードを選択したら、すぐに録音が始まります。なお、すばやく録音を始めたい場合は、左側面の赤いボタンをカチカチッと2回続けて押すと、ロックされていても、標準モードでの録音が始まるように設定できます。

↑左側面には素早く録音を開始できるボタンと、音量調節ボタンを搭載

 

筆者は、取材での録音が中心なので「取材」または「標準」モードを使用。AAC形式で32kHz/16bitの音質で録音されます。なお、「音楽」モードを選択すると、より高音質で録音できますが、文字起こしには対応していません。

 

最近は、オンラインでインタビューをしたり、発表会や説明会に参加することが多いのですが、そうした場合は、パソコンのスピーカーの近くにVOITERを近くに置き、「標準」モードで録音しました。

↑ネットワークに接続していると、録音とほぼ同時の文字起こしが可能

 

実際に使って便利だと感じたのは、音声が聞こえる方向を視覚的に確認できること。録音時に方位マークをタップすると、集音の方位とレベルを確認でき、より効率よく録音できる場所に置き換えられるわけです。

 

録音と同時に文字起こしが表示される機能は、発表会などで使うと、より内容を理解しやすく感じました。しっかり録音されているという安心感も得られます。画面に次から次へと表示されるテキストを見ていると、一旦かなで表示された後に漢字に変換されたり、句読点が追加されたりと、AIによって同時に修正されていることがわかりました。

 

試しに、筆者がGetNavi webに寄稿した原稿を自分で読んで録音してみたところ、95%くらいの認識率でしたが、専門用語が多い発表会、友人との会話などでは、誤認識が若干増えるように感じます。

 

録音時に一定時間を経過すると画面がオフになります。もちろん、録音は続いていますが、再度画面を点灯させると、リアルタイムの文字起こしは中断されていて、再開するにはタップ操作が必要です。初めて使った際は、中断された部分は文字起こしが欠落するのでは? と不安になったのですが、文字起こしは再生時でも可能。さらに、録音後にアップロードしてサーバで行うこともできます。なので、実際に使い始めると、リアルタイムの文字起こしは、さほど必要性を感じなくなるかもしれません。

 

リアルタイムの文字起こしが役に立ちそうなのが英語。今回、VOITERを試用した期間には、英語での取材はなかったので、オンライン英会話を受講した際に使ってみました。講師が話す英語が瞬時にテキスト化されて表示されるので、非常にわかりやすく感じました。コロナが収まり、海外取材に行けるようになったら、ぜひ活用してみたいものです。なお、言語は自動では認識されないので、ユーザーが設定する必要があります。

 

800万画素のカメラを搭載し、写真やビデオを撮ることも可能。ビデオの音声も文字起こしが可能で、再生時に字幕を表示させることができます。講演やスピーチを録音するだけでなく、映像も残したいときに重宝しそうです。

↑音声付きのビデオを撮影すると、文字起こしの字幕を表示することが可能。字幕は編集することもできます

 

音質は上々。再生速度や文字サイズも調整可能

録音した音源は、Bluetoothで接続したワイヤレスイヤホン(別売)で聴けます。アップルのAirPods Proで聴いてみましたが、ノイズキャンセリング機能の効果か、雑音は少なく、音質はクリア。会話の音声にフォーカスして録音されていることを実感できました。なお、オーディオジャックは搭載していませんが、USB-Type-Cポートから出力することもできます。

↑録音した音声はワイヤレスイヤホンで聴くのが便利

 

再生速度は5段階(0.75倍、1倍、1.25倍、1.5倍、2倍)に切り替えられます。一般的なボイスレコーダーでは、自分で文字起こしをするために、ゆっくりした速度で再生したいことがあります。ですが、VOITERは自動で文字起こしをしてくれるので、むしろ、再度確認したい個所を見つけるために、速めの速度で再生することが多くなりそうです。なお、確認したい個所は、キーワードを入力して探すこともできます。

 

録音したデータはクラウドで管理できる

録音した音声データは、日本国内にあるサーバにアップロードされ、再び文字起こしが行われます。ただし、リアルタイムでの文字起こし結果と、サーバでも文字起こし結果を比べたところ、文の区切りが整えられたりする程度で、さほど大きな差はない印象。

 

サーバにアップするには、ファイルサイズによっては若干時間がかかり、文字起こしにはさらに時間を要します。例えば、取材した日の夕方に音声をアップロードすると、翌朝に専用ページにアクセスして確認できるという感じ。ただし、先述の通り、端末での文字起こしで、十分な精度の結果が得られるので、必ずしもサーバにアップする必要はありません。自動アップロードはオン・オフの設定が可能ですので、必要に応じて使い分けてもいいでしょう。

 

サーバにアップしたデータは、「RECORDER STATION」というサイトで確認できます。録音した音声を再生したり、文字起こしデータを見たり、編集したりでき、ダウンロードすることもできます。サーバには10GBまで保存できるので、管理場所として使うのが便利そうです。

 

AIによる文字起こしの精度は高いとは言え、固有名詞や専門用語が不自然なカタカナ表記になっていたり、不要な余談や相槌などが含まれていたりもします。「RECORDER STATION」は、音声を聴きながら、テキストの修正ができるので、仕事仲間などと共有したいデータの編集には便利でしょう。

↑自分のアカウントで「RECORDER STATION」というサイトにログインして、アップロードしたファイルを確認できる

 

↑オリジナルの文字起こしデータを残しつつ、編集が可能

 

文字起こしが無料で使い放題なのは1年目だけ

VOITERの最大のセールスポイントといえる文字起こしは、無料で使える時間に制約があります。「ベーシックプラン」では毎月3時間が無料で使えて、月額2180円の「使い放題プラン」に加入すると、時間無制限で使えます。ただし、1年目は無料で「使い放題プラン」が利用可能。

 

頻繁に文字起こしが必要な場合、月額2180円は、お手頃な料金設定といえそうですが、たまに使う程度の人には高く感じられるかもしれません。今後、プランの変更や追加の可能性もあるとのことなので、必要な時にだけ追加料金で使えるオプションサービスも追加してほしいと思いました。

 

VOITERの一般販売予定価格は5万4780円ですが、Makuakeでの先行販売(6月13日まで)では、約20%オフの4万3800円で購入できます。同サイトでは、ディスプレイを搭載しないコンパクトな「VOITER mini」(応援購入価格は1万6280円)も販売されており、スマホの専用アプリと連携させて、文字起こしサービスを利用できる仕組みです。予算を抑えたい人は、VOITER miniも選択肢に加えて、検討してみることをおすすめします。

 

【フォトギャラリー(画像をタップするとご覧いただけます)】