IBM SpeechToTextをPythonで実装2 – 複数ファイルの内容を1ファイルへ出力

プログラム
IBM SpeechToTextをPythonで実装1」の続きを行いました。

前回はアカウントの登録から、サンプル音声のコマンドプロンプトへの
テキストの出力まで行っているため、その続きです。
(この記録は2/21作業分です。)

今回は、次の対応を追加しました。
1.テキストファイルへ出力。
2.1アクションで複数ファイルを処理。
3.srt形式(※)で出力。

苦労した点は以下です。
1.動画の形式(mp3、wav、など)が合わずにエラー出力。
2.動画のサイジング(8000hz、16000hzなど)が合わずにエラー出力。
3.特定サイズ以上の動画を受け付けずエラー出力。
4.特定時間沈黙があるとエラー出力。(デフォルト30秒)
5.字幕出力のエンジン(?)がいくつかあり、
  デフォルトのものが精度が悪く、精度が良いものを設定する方法の調査。

主な対応は以下です。
1ー2.FFMPEGで動画形式をmp3へ。
3.同じくFFMPEGで複数ファイルに分割。
4ー5.pythonでパラメータを設定。
特に1-2.は詳しくもない音声のレート設定などを調べたりしたため、
当日の目標だった動画のアップロードまでできませんでした。
こだわりを持ちすぎるのも考え物でですね。

具体的な手順や詳細は後日纏めていきます。

(※)FFMPEGで動画にテキストを張り付けるのに適した形式。
   何秒から何秒まで表示させるかという細かい指定ができる為、
   自動化する際などには大変便利な形式です。

出来上がったコードは以下です。
[]内は自身で取得した情報を入力してください。
ソースコードの解説は、後日行おうと思います。

次回は作成した字幕を動画に結合し、YouTubeにアップロードしていきます。

コメント

タイトルとURLをコピーしました