雄::gsyan: 使用 OpenAI Whisper 製作影音的字幕或逐字稿

2023年2月22日星期三

使用 OpenAI Whisper 製作影音的字幕或逐字稿

2023年2月22日星期三

前言（廢話一堆，可忽略不看）

試了不少影音編輯工具(平台)的自動語音辨識產生字幕的功能以後，發現很多看起來都差不多；後來看到了這個 auto-subtitle 的專案：

https://github.com/m1guelpf/auto-subtitle

它是使用 OpenAI 的 Whisper 來進行語音辨識，哈！只能說自己實在太孤陋寡聞了，現在才注意到有 OpenAI Whisper。Whisper 有開源，它的專案連結在底下：

https://github.com/openai/whisper

如果已經準備好 Python 的環境，可以將它安裝在本機上，在專案中有簡單的說明。如果想快速測試，那當然是直接使用 Google 的 Colab 來建置最方便。Colab 已經有基本的 Python 環境，Whisper 需要的 ffmpeg 及一些可能需要用到的套件都內建好了。

好康A～跟您分享

好東西，只給自己用太可惜了，所以我將自己在本機上實驗的程序，移植到 Google Colab 中，還加上了一些功能，大家可以直接使用，不用管安裝的過程。

這個 OpenAI Whisper@Colab 有以下的功能：

可輸入 YouTube 影片的網址，產出影片的字幕檔後下載。
可輸入 YouTube 播放清單的網址，產出清單中所有影片的字幕檔，並置入壓縮檔中後下載。
可輸入 Vocaroo 線上錄音的網址，解析出音檔的文字內容。
可讀取上載到 Colab 暫存空間的影音檔案，產出字幕內容後下載。

v.2 版增強的功能：

可輸入已設定為「公開分享的」Google Drive 影音網址（v.2 版才支援）
可輸入檔名為「.txt」的轉換清單檔案，裡面一行一個要辨識的網址或是檔名，執行時就可以批次進行辨識（v.2 版才支援）
可自訂輸出的資料夾名稱（v.2 版才支援）
可自訂是否要覆蓋已經辨識過的文字檔。（v.2 版才支援）

工具網址 (2024.10.07 更新過程式)

這個「OpenAI-Whisper-語音辨識-製作字幕檔」的工具存放在 Google Colab 的筆記本，網址如下：

https://tinyurl.com/gsyan-whisper2 (建議用這個版本)

~~https://tinyurl.com/gsyan-whisper~~

註：另一個選擇是使用 Faster Whisper，詳見這一篇：

雄:以 Faster Whisper 將影音辨識為文字檔案(字幕或逐字稿)

影片說明

底下的影片，簡單地介紹一下如何使用這個工具製作字幕檔：

重點整理

關鍵程序截圖並說明如下：

[圖1] Google Colab 中操作

✅ 進行設定：

如 [圖1] 的箭頭 2 ，輸入影音的路徑、選擇語言代碼、輸出的格式、使用的辨識模型...等設定。

✅ 執行程式：

如 [圖1] 的箭頭 3，按一下「播放」鈕，即可以開始執行 Whisper 的安裝與語音辨識程序。

✅ 等候辨識結果：

使用 OpenAI Whisper 等候的時間，需視影片或聲音檔的聲音長度，及是否使用 GPU 運算（本文中的工具預設使用 GPU）；選用 Whisper 的哪一種辨識 Model 也有差異，small 的 model 一定花的時間比 medium 的 model 要少很多，當然，辨識的正確率也會有差別。以前面的介紹影片為例，影片的片長是 5分22秒，未使用 GPU 的情形下，以 OpenAI Whisper medium 的 model 來辨識，花了快二十分鐘；開啟了 GPU，並使用 large 的 model，才花了一分多鐘。所以建議開啟 GPU 使用（本文中的工具預設使用 GPU，Goolge 讓免費版的 Colab 一天可使用 4 小時左右的 GPU)。

[圖2] 等候時間隨選用的 model 而有差異

如何上載電腦的檔案到 Colab 並進行語音辨識

如果想辨識的影音不在網路上，可以立即上載到 Colab 的「暫存」空間，注意！它是「暫存的」，當我們下回重新開啟 Colab 的筆記本時，上載的檔案會不見哦！下面看一下如何使用這個暫存空間(它的額度和 Google 雲端硬碟是分開算的)。

✅ 展開「暫存空間」：

按一下左側欄中的「資料夾」圖示，即可展開暫存空間來上載或管理檔案。

[圖3] 展開暫存空間

✅ 上載檔案：

當「暫存空間」展開後，只要將想上載的檔案，以拖曳的方式，拉進「暫存空間」即可。

[圖4] 以拖曳的方式上載檔案

溫馨提醒，暫存區是會被清空的

[圖5] 暫存區是會被清空的警告訊息

✅ 設定檔案名稱：

等影音檔案上載完畢，就可以設定要辨識的檔案名稱，如 [圖7] 箭頭1 ，在「url」的欄位中，輸入檔案的「完整名稱」。

[圖6] 設定檔案名稱並執行程式

✅ 執行程式：

都設定參數了，就可以按 [圖6] 箭頭 2 所指的「播放」鈕來執行語音辨識的程序。

Q & A

Q : 可不可以辨識自己雲端硬碟中的影音檔案？
A : 當然可以。看一下 Colab 「暫存區」上方的圖示，其中有一個是「連接雲端硬碟」的圖示，按下去以後，照指示，就可以將雲端硬碟變成暂存區中的一個資料夾來存取檔案了。找到要使用的檔案後，按一下檔案，檔案的右邊會有「三個點點」，按一下「三個點點」即可出現檔案管理的選單，按選單中的「複製路徑」，就可以取得「url」要填入的檔名。
Q : 如何加快辨識的速度？
A : AI 需要大量的運算，如果能打開「GPU」的選項，速度會快很多倍，所以一定要在自己的 Colab 中，選用 GPU 的選項，設定的方法：
1.在 Colab 上方主選單中，按一下「編輯」。
2.按一下「筆記本設定」。
3.在「筆記本設定」的「硬體加速器」中，選「GPU」。
Q : 可以使用多久？
A : 免費版的 Colab ，GPU 一天只能使用4小時，而我放 Colab 的 OpenAI Whisper 或是 Fast Whisper 預設都有使用 GPU 的選項，所以一天只能使用 4 小時；強烈建議不使用時，務必「中斷連線並刪除執行階務」，或是關閉瀏覽器，讓它關掉虛擬機，停止計時。
Q: 出現「403: Forbidden」或是「Sign in to confirm you’re not a bot」的錯誤訊息，如何處理？
A: 請參考這一則「雄:yt-dlp下載錯誤導致 Whisper 無法使用的處理」

自己的雜記（還是廢話，請忽視）

順便筆記一下，免得忘記又重新掉坑的。

Windows 7 安裝最近版的 Anaconda ，出現「Failed to create menus」的錯誤訊息而無法安裝。因為系統太舊，無法安裝 Python 3.9，所以卡住。只好改用舊版的 Anaconda，像 2021.05 是使用 Python 3.8 的。舊版的可以在這裡找到：

https://repo.anaconda.com/archive/

最後改安裝「Anaconda3-2021.05-Windows-x86_64.exe」。

照說安裝完 openai-whisper 後，除了 python 的套件，應該也會有 .exe 的執行檔，但是我在一台沒有安裝過 Python ，全新安裝 Anaconda 的 Windows 10 上，直接執行 whisper 的命令卻出現找不到指令的錯誤訊息。查了一下，原來 whisper.exe 被安裝到使用者目錄(ex. userA) ，類似底下的路徑中：

Users\userA\AppData\Roaming\Python\Python39\Script

為了方便使用，可以將該路徑加入環境變數中。

Windows 7 的舊版 Anaconda 則是將 whisper.exe 放到 ananconda 目錄中的 scripts 中，該路徑已經在環境變數的 PATH 裡了。版本不同，安裝方法不同，路徑就得特別注意一下。

38 則留言:

匿名2023年5月20日下午4:52
請問您說的"可不可以辨識自己雲端硬碟中的影音檔案？"沒找到您說的暫存檔檔設定,主要是有背景音樂時翻譯的準確度下降很多,想去背景音業後再轉錄.所以想參考https://colab.research.google.com/drive/1waDNWIpwL5ftwJmvMRl-ec7akxNK9aDG?authuser=2 去音樂後再轉錄想請問如何能有效的整合為一個ipynb ,希望您能指導,謝謝你好用的工具.
回覆刪除
回覆
Eamon2023年6月3日凌晨12:38
不知道有沒有可能做一個雙語版的～
上面一行是透過音源的中文
下面一行是翻譯過後的英文
回覆刪除
回覆
匿名2023年6月10日晚上10:47
您好, 感謝您無私地分享這麼棒的程式
之前使用都正常, 近日使用時都會出現下列這行錯誤訊息
WARNING: [youtube] ACeOb_hkuqE: nsig extraction failed: You may experience throttling for some formats
Install PhantomJS to workaround the issue. Please download it from https://phantomjs.org/download.html
n = KA_vFCeUgnQUSpfJqE ; player = https://www.youtube.com/s/player/8c7583ff/player_ias.vflset/en_US/base.js

請問我可以忽略嗎? 還是程式碼有需要更新呢? 感恩您
回覆刪除
回覆
雄2023年6月15日下午2:28
您好，
您提供的 Youtube 連結是歌曲的，因為人聲是用唱的，加上有吵雜的伴奏聲音，應該很難辨識得出來。如果您指的「其他中文」也是用唱的，建議您就別用本文中的工具來測試了，基本上是浪費時間而已。
回覆刪除
回覆
匿名2023年6月15日下午4:20
感謝了解，謝謝您的解答，單獨的語音來試試，這創作很好。
回覆刪除
回覆
匿名2023年6月18日晚上9:29
在 Colab裡面，可否做一個文字轉語音的，可以訓練AI模仿到自己的聲音。感謝！
回覆刪除
回覆
匿名2023年10月18日下午1:45
您好請問安裝時出現部分錯誤資訊是正常的嗎?，如下：
install whisper ...
Installing build dependencies ... done
Getting requirements to build wheel ... done
Preparing metadata (pyproject.toml) ... done
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.7/1.7 MB 20.4 MB/s eta 0:00:00
Building wheel for openai-whisper (pyproject.toml) ... done
ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
llmx 0.0.15a0 requires cohere, which is not installed.
llmx 0.0.15a0 requires openai, which is not installed.
install yt_dlp ...
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 3.1/3.1 MB 31.9 MB/s eta 0:00:00
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 194.4/194.4 kB 23.2 MB/s eta 0:00:00
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 2.1/2.1 MB 72.3 MB/s eta 0:00:00
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 129.9/129.9 kB 10.3 MB/s eta 0:00:00
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 3.0/3.0 MB 75.3 MB/s eta 0:00:00
回覆刪除
回覆
匿名2023年11月1日下午5:39
您好，今天上午九點多使用Google Colab 筆記本https://tinyurl.com/gsyan-whisper2 這個版本時還是可以正常使用的，但下午五點多便一直出現錯誤，以下錯誤代碼供您參考。

KeyError: '50'

During handling of the above exception, another exception occurred:

ExtractorError Traceback (most recent call last)

ExtractorError: 18DR6nJfYVJD85rEg9B2LsPCIxRmzatpM: An extractor error has occurred. (caused by KeyError('50')); please report this issue on https://github.com/yt-dlp/yt-dlp/issues?q= , filling out the appropriate issue template. Confirm you are on the latest version using yt-dlp -U

During handling of the above exception, another exception occurred:

DownloadError Traceback (most recent call last)

/usr/local/lib/python3.10/dist-packages/yt_dlp/YoutubeDL.py in trouble(self, message, tb, is_error)
982 else:
983 exc_info = sys.exc_info()
--> 984 raise DownloadError(message, exc_info)
985 self._download_retcode = 1
986

DownloadError: ERROR: 18DR6nJfYVJD85rEg9B2LsPCIxRmzatpM: An extractor error has occurred. (caused by KeyError('50')); please report this issue on https://github.com/yt-dlp/yt-dlp/issues?q= , filling out the appropriate issue template. Confirm you are on the latest version using yt-dlp -U

以上再麻煩您幫忙解決，非常感謝您！
回覆刪除
回覆
柏宏2023年11月21日晚上8:40
您好，現在有Whisper V3了，該如何用colab run呢?
回覆刪除
回覆
匿名2024年2月29日上午11:41
非常感謝大大無私的分享，之前有照一篇網誌在自己電腦裝PyThon....等可透過下whisper語法的方式去語音轉文字，不過自己電腦時在跑很慢，而且需要一個一個檔案的去下語法，感謝大大解決了我的困擾~，非常感謝!
回覆刪除
回覆
匿名2024年6月25日晚上9:48
請教,為什麼不需要 openai api key 呢?
回覆刪除
回覆
匿名2024年9月12日下午6:16
看到這個專案Whisper JAX
https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

轉換速度特別快
一開始很好用，但後面就開始常常無法使用
目前colab有辦法參考他的架構嗎
回覆刪除
回覆
匿名2024年10月28日中午12:26
想請問一下，利用open ai whisper large v3 turbo辨識的結果，有時候會有每一行的字幕過短的現象，但是faster whisper large v3好像就比較不會這樣，有試著調整參數，限制每一行的字數好像也沒有用，這個有辦法解決嗎?
回覆刪除
回覆
匿名2025年1月15日上午11:27
您好，今天使用 Google Colab 筆記本 https://tinyurl.com/gsyan-whisper2 出現以下錯誤資訊：

ERROR: [youtube] _e4KdoCnlVM: Sign in to confirm you’re not a bot. Use --cookies-from-browser or --cookies for the authentication. See https://github.com/yt-dlp/yt-dlp/wiki/FAQ#how-do-i-pass-cookies-to-yt-dlp for how to manually pass cookies. Also see https://github.com/yt-dlp/yt-dlp/wiki/Extractors#exporting-youtube-cookies for tips on effectively exporting YouTube cookies
---------------------------------------------------------------------------
ExtractorError Traceback (most recent call last)
/usr/local/lib/python3.10/dist-packages/yt_dlp/YoutubeDL.py in wrapper(self, *args, **kwargs)
1636 try:
-> 1637 return func(self, *args, **kwargs)
1638 except (CookieLoadError, DownloadCancelled, LazyList.IndexError, PagedList.IndexError):

10 frames
ExtractorError: [youtube] _e4KdoCnlVM: Sign in to confirm you’re not a bot. Use --cookies-from-browser or --cookies for the authentication. See https://github.com/yt-dlp/yt-dlp/wiki/FAQ#how-do-i-pass-cookies-to-yt-dlp for how to manually pass cookies. Also see https://github.com/yt-dlp/yt-dlp/wiki/Extractors#exporting-youtube-cookies for tips on effectively exporting YouTube cookies

During handling of the above exception, another exception occurred:

DownloadError Traceback (most recent call last)
/usr/local/lib/python3.10/dist-packages/yt_dlp/YoutubeDL.py in trouble(self, message, tb, is_error)
1032 else:
1033 exc_info = sys.exc_info()
-> 1034 raise DownloadError(message, exc_info)
1035 self._download_retcode = 1
1036

DownloadError: ERROR: [youtube] _e4KdoCnlVM: Sign in to confirm you’re not a bot. Use --cookies-from-browser or --cookies for the authentication. See https://github.com/yt-dlp/yt-dlp/wiki/FAQ#how-do-i-pass-cookies-to-yt-dlp for how to manually pass cookies. Also see https://github.com/yt-dlp/yt-dlp/wiki/Extractors#exporting-youtube-cookies for tips on effectively exporting YouTube cookies
回覆刪除
回覆
clara2025年3月13日下午6:04
您好，平常使用都沒有問題，但今天當辨識完成後卻出現：
「無法載入要顯示輸出內容所需的 JavaScript 檔。這可能是因為你的 Google 帳戶登入存取權已過期，或你的瀏覽器不允許使用第三方 Cookie。請重新載入這個網頁。」

有使用 Gemini 嘗試排除問題都沒有辦法，求解惑QQ
謝謝
回覆刪除
回覆
匿名2025年3月18日清晨5:36
您好今天使用時出現以下問題
>>>找不到語音檔，請確定影音檔是否已準備好了

download...

下載辨識結果
---------------------------------------------------------------------------
FileNotFoundError Traceback (most recent call last)
in ()
501 outputFilename = filenames_list
502
--> 503 google.colab.files.download(outputFilename)
504
505 '''

/usr/local/lib/python3.11/dist-packages/google/colab/files.py in download(filename)
231 if not _os.path.exists(filename):
232 msg = 'Cannot find file: {}'.format(filename)
--> 233 raise FileNotFoundError(msg) # pylint: disable=undefined-variable
234
235 comm_manager = _IPython.get_ipython().kernel.comm_manager

FileNotFoundError: Cannot find file:
回覆刪除
回覆

新增留言

訂閱：張貼留言 (Atom)

雄::gsyan

2023年2月22日星期三

使用 OpenAI Whisper 製作影音的字幕或逐字稿

前言（廢話一堆，可忽略不看）

好康A～跟您分享

工具網址 (2024.10.07 更新過程式)

影片說明

重點整理

如何上載電腦的檔案到 Colab 並進行語音辨識

Q & A

相關連結

自己的雜記（還是廢話，請忽視）

38 則留言:

搜尋此網誌

HTML5 FUN

Tools

Flash

文章分類

其它連結

Google 提供的廣告

雄::gsyan

2023年2月22日 星期三

使用 OpenAI Whisper 製作影音的字幕或逐字稿

前言（廢話一堆，可忽略不看）

好康A～跟您分享

工具網址 (2024.10.07 更新過程式)

影片說明

重點整理

如何上載電腦的檔案到 Colab 並進行語音辨識

Q & A

相關連結

自己的雜記（還是廢話，請忽視）

38 則留言:

搜尋此網誌

HTML5 FUN

Tools

Flash

文章分類

其它連結

RSS 訂閱

Google 提供的廣告

2023年2月22日星期三