m4a 音声データから文字起こししたのでメモ。
GCP の Speech-to-Text を使った。
まずは ffmpeg で .m4a を .flac に変換。
ffmpeg -i audio.m4a audio.flac
それから .flac ファイルを GCS に転送してから Speech-to-text にかける。
1分以上の音声ファイルは recognize-long-running オプションをつける。
gsutil cp audio.flac gs://MY-BUCKET-NAME/ gcloud ml speech recognize-long-running gs://MY-BUCKET-NAME/audio.flac --language-code='ja-JP' --async
そしたら ID が出力されるので、結果を確認する。
gcloud ml speech operations describe 123456789
metadata.progressPercent に進捗率が表示されるので、 100 になるまで待つ。
完成すると、段落毎に文字起こし結果が JSON で表示される。