TV録画から自動構築した音声コーパス『Laboro TVSpeech』 | Innovation LAB実績紹介｜NTTPCの共創パートナープログラム

CASE活動実績

Laboro.AI

TV録画から自動構築した音声コーパス『Laboro TVSpeech』

ワンセグTV録画から抽出した約2,000時間の音声データから構成される音声コーパスを開発、学術研究用に無償公開。
20を超える学術研究機関で採用。
日本語音声コーパスとしては最大規模の約2,000時間のデータ。
TV番組に含まれる音声と字幕データから、音声コーパスを自動構築するシステムを開発。
既存の音声コーパスより優れた誤認識率を達成し、商用の音声認識APIにも匹敵する精度を確認。

Laboro TVSpeech

Laboro.AI社のエンジニアコラム