2024年11月23日 星期六

以 OpenAI Whisper 轉語音備忘錄為字幕格式逐字稿

2024年11月23日 星期六
有老師問到,平常都用 iPhone 在錄音,也可以使用 OpenAI Whisper 來將錄音轉為逐字稿嗎?

使用我建構在 Google Colab 中的 OpenAI Whisper (或 Faster Whisper) ,只要有網頁瀏覽器,基本上就可以使用。它們的聲音來源接受影音網站公開分享的網址,也可用電腦或是裝置中的影音檔案。所以手機使用 OpenAI Whisper 來將錄音轉為逐字稿的關鍵,是將錄音工具中的語音儲存為檔案。

語音備忘錄儲存到檔案

以 iOS 中內鍵的錄音工具「語音備忘錄」來說,錄好的語音怎麼變成可上載的檔案?

  • 開啟「語音備忘錄」
  • 在錄音清單中,按一下想儲存的錄音。
  • 按一下標題右側「三個點點」「更多」的圖示(或是「分享」的圖示)。
  • 點選「儲存到檔案」(看不到就向下找找)。
  • 指定想儲存到哪個地方及檔案名稱。
  • 按「儲存」。

[圖1] iOS語音備忘錄儲存到檔案

那可以將錄音儲存到雲端硬碟中嗎?

當然沒問題,想儲存到哪個地方完全自己決定就好。

有了語音檔案了,接下來,就跟在電腦上操作 Colab 裡的 OpenAI Whisper 類似步驟。

OpenAI Whisper 轉語音備忘錄為逐字稿

經過前面的程序,將轉語音備忘錄儲存為檔案以後,我們就可以開啟 OpenAI Whisper 了。有兩個選擇,可以使用 OpenAI Whisper,或是 Faster Whisper,如果尚未使用過,可以先在電腦上,參考底下兩篇舊文,裡面有操作示範的影片:

如果想直接使用 Whisper ,就用底下的連結來開啟工具:

小技巧:

  • 上載音檔:
    在手機上,因為是直拿的版面,先按畫面左上角的「三條線」圖示,再按「顯示檔案瀏覽器」。這樣就可以看到「虛擬機」的檔案及目錄了(有時可能要稍等一下,等虛擬機啟動連線,請參考 [圖2] [圖3] 或示範影片)。
  • 格式選擇:
    2024.11.21 以後,格式的選項中,新增了「.srt.txt」的項目。它會輸出帶有時間的字幕格式逐字稿,但是因為檔名結尾為「.srt.txt」,在手機或是平板中會被視為純文字檔案,就可以直接開啟來查看內容。(請參考 [圖4])
  • 自動鎖定:
    手機、平板有省電的機置,可能會因為「自動鎖定」進看省電模式而自動關閉螢幕,導致 Whisper 的程序被中斷;所以在行動裝置在使用 Whisper,iOS 可能要暫時在「設定」「螢幕顯示與亮度」中,將「自動鎖定」關閉。建議如果時間較長的錄音檔,將錄音錄儲存到雲端硬碟,再使用電腦來轉逐字稿較理想。
在手機中上傳音檔的程序如 [圖2] 所示:
[圖2] 在手機中上傳音檔

上傳好音檔後,按一下檔名,再按一下右側的「三個點點」,出現選單就按「複製路徑」。
[圖3] 複製音檔的路徑
將音檔的路徑貼入 url 的欄位中,將格式設定為 .srt.txt ,其它選項則依需求自行設定,都設定完就按左上角的「播放」圖示來開始執行程序 [圖4]  :
[圖4] 設定 & 執行

完成後記得參考 [圖5] ,進行中斷連線並刪除程執行程序的動作:
[圖5] 中斷連線並刪除程執行程序

示範影片

  • 錄製中

相關連結


沒有留言:

張貼留言

 
雄::gsyan © 2009. Design by Pocket