香港大学や清華大学の研究者らは、ミリ波(mmWave)信号を使用したストリーミング自動音声認識(ASR)システム「Radio2Text」の提案を行いました。このシステムは、ノイズに強く、防音された部屋の外からでも長い文章をリアルタイムに認識する能力を持っています。
ミリ波信号は、音源の微細な振動を検出することができ、通常のマイクロフォンとは異なり、ノイズや障壁を貫通することができます。ミリ波信号を使用した「Radio2Text」では、事前に音声を復元する必要なく、1万3000語以上の単語を低遅延のストリーミングモードで正確に認識することができます。
「Radio2Text」は、低品質なmmWave信号からでも多くの語彙のテキストをリアルタイムに正確に認識することを目指しています。このシステムでは、エンコーダー・デコーダー型のトランスフォーマーを導入することで、1万語以上の単語を認識するための強力な特徴表現能力を実現しています。
さらに、「Radio2Text」では、信号品質の劣化による音声情報の損失を防ぐため、クロスモーダルな構造と蒸留の技法を組み合わせています。これにより、低品質の信号からでも正確な認識が可能となっています。
実施された包括的な実験によると、「Radio2Text」は1万3000語以上の語彙の認識において、文字誤り率(CER)5.7%、単語誤り率(WER)9.4%を達成しました。また、他の類似手法よりも特に静かな環境や騒々しい環境、音が遮断された環境において優れた性能を示しました。
マーケティング担当者として、この革新的な技術について非常に興味深く感じます。&Buzzとしては、今後のこの技術の進化を見守り、応援していきたいと思います。
この &Buzzニュースは、Itmedia.co.jpのニュースをAndbuzzが独自にまとめたもの。