「輕鬆聽寫逐字稿的免費網路應用程式。」是 oTranscribe 首頁中的中譯自述,去年底玩了一下,覺得滿好用的。
不過,現在 AI 大行其道,建議不要直接人工邊聽邊打字,這樣太沒效率了。我們可以先利用 OpenAI Whisper (請參考「雄:使用 OpenAI Whisper 製作影音的字幕或逐字稿」),以 AI 來將錄音檔或是影片檔(已放在網路的,就利用網址),將影音進行語音辨識,並輸出為帶有時間戳記的字幕,輸出為「SRT 字幕檔」,打開 oTranscirbe 後,將「SRT 字幕檔」匯入,再使用 oTranscibe 來進行聽打、編修、校正,如果原始音源沒有太差,相信需要更改之處,應該會少很多。而且這個方案中,負責進行聲音轉文字的 OpenAI Whisper (或 Faster Whisper),我放在 Google Colab 中執行,有簡單的操作界面,免費、速度又快;負責文字校正的 oTranscribe,我放在 Github 中,一樣一毛錢也不用花。操作很難嗎?哈!最難的其實是動手去用它們。
之前由於原始的 oTranscribe 無法匯入、匯出 SRT 字幕檔,還寫了兩個小工具,可以將 SRT 字幕檔轉為 oTrnascribe 自己的 .OTR 格式,或是將 oTranscribe 編輯過的內容匯出為 SRT 字幕檔,不過,多了道「轉檔」的程序,還是覺得有一點麻煩。
因為 oTranscribe 是開源的,由 Github 將原始碼下載回來以後,看著、想著好幾天,決定動手將它改良一下,於是在 Github fork了一份,並將自己改過的原始碼也分享上去。
體驗改良版 oTranscribe
如果想試試看改良過的 oTranscribe,就按一下底下的這個網址:
以使用者角度來看,改良版幾個主要加強的功能如下:
- 會依瀏覽器的語言設定,自動選擇語言;有需要再自行更換別的。
- 匯入的功能可以直接匯入 .srt 的字幕檔。所以建議可以先使用 OpenAI Whisper,將影片或是音檔,先進行語音辨識成為「.srt 字幕檔」,就可以直接匯入 oTranscribe 中 [圖1]。
- 匯出的功能中新增了兩個選項 [圖2]:
- SRT 字幕格式 (.srt)
- 去掉時間的文字稿(.txt)
- 將時間戳記改統一放在每一段文字的開頭,讓段落更清楚。
- 影片播放時,會自動標示正在播放哪一個時間點的逐字稿 [圖3]。
改良版的截圖如下:
![]() |
[圖1] 改良版可直接匯入 .srt 字幕檔 |
2023.03.16 有錄了一小段改良版的操作影片,雖然畫面不是此時最新版本的畫面,但還是可以參考看看:
改良版 oTranscribe 的原始碼
改良版的原始碼在這裡:
這個版本的原始碼中,目前幾個增強的重點:
- 修正各網頁中「font-awesome.css」的連結錯誤,這個錯誤會讓本機中執行時,卡很久。
- 修改了 webL10n 在本機執行的載入流程,讓它匯入特製的語系檔「data.ini.js」,這樣可以直接在本機中正常使用。
- 修正匯出的面板中,因為面板是動態產生,無法正常被處理文字翻譯的問題。
- 新增了可以在 Windows 中編譯的批次檔「make-in-windows.bat」。
- 其它新增的功能可參考前面「體驗改良版 oTranscribe」中的說明。
有興趣打造自己的 oTranscibe 的話,我利用 Colab 建立了一個 oTranscibe 編譯程序的筆記本,網址如下:
相關連結
更新記錄
- 2024.08.13 按完上方播放控制鈕後,游標可以停留在原來的位置;將插入完時間戳記後自動跳到下一段的功能最佳化,可以更精準的跳躍,也能跳過空白行。
- 2024.08.12 按 Ctrl + K 影音跳到指定的時間後,游標可以恢復至原來的位置(time-selection-modal.js)。
- 2024.08.11 解決字幕檔中如果帶有引號,會匯入失敗的問題。
- 2024.08.04 支援放網路的影音檔案,點 Youtube 網址輸入的選項,在輸入區輸入其它可公開使用的影片或是聲音檔,如果網址中沒有 .mp3 、.mp4 ...... 等足以辨別是聲音檔,還是影片檔時,可以自己加上特徵,例如: name=test.mp3 , name=test.mp4 ...... 這樣的語法;解決當已使用本機中的影音檔案後,使用 YouTube 影片會讓程式發生錯誤的問題;如果在網址加入 auto=1 的參數,插入時間截記時,會自動跳到下一段的開頭 ( 按這裡開啟有自動跳段功能的網址 ) 。
- 2023.04.14 讓匯出成純文字檔的內容可以包括換行字元。
- 2023.04.09 修改按下時間戳記後執行的動作,如果尚未選擇影音檔案,就顯示訊息提醒;如果影音已選擇但未播放,就開始播放。
- 2023.04.03 如果有在編輯區按過時間戳記,匯出時因為該筆的 HTML tag 和其它的不同,而產生解析錯誤,無時間的 .txt 及 .srt 匯出的問題解決。
- 2023.03.19 加入可顯示播放到哪一段的功能;微調匯出面板的位置,解決因為新增的兩個選項,位置變得太低,沒對準匯出圖示的問題;暫時將匯出到 Google Drive 的功能關閉(得申請 Google 的金鑰才能用,反正沒差,大家自己手動上載到 Google Drive 也是可以的)。
- 2023.03.18 修正 font-awesome.css 連結有誤的問題;匯出的檔名中,時間字串改為全用數字表示;解決匯出面板未正常填入語系字串的問題;讓本機執行時,也可以正常切換語言(主因是本機無法載入 .ini 檔案);專案中新增可在 Windows 中編譯用的批次檔。
- 2023.03.16 fork 並加入匯入、匯出字幕檔,自動偵測語言的功能。
老師您好:
回覆刪除請問您在使用oTranscribe時,有沒有遇過鍵盤輸入文字後,要等到3~5秒螢幕才會顯示文字結果?如果文字輸入較多,還會發生延遲10秒的狀況。
我在清理cookie與暫存資料之後,仍然會發生這樣的問題,想要請問老師這問題該如何處理?
敬祝一切平安
您好,
刪除我之前使用是沒有遇過您描述的情形;不過,我現在大多先使用 OpenAI Whisper 辨識影音,然後用一般的文字編輯器修改需要校正之處,很久沒用了 oTranscribe 了。有空我再找一篇長文來測試看看。
謝謝您告訴我可能存在問題。 ^_^
我是長期oTranscribe的使用者,之前是用原版的,有發生過lag問題,最近看到您的改良版才趕快學習跟上,昨日使用沒這個問題,但今天反倒發生這樣的問題,尤其編輯中文字lag的更嚴重。
回覆刪除使用環境皆是google chorme 但昨日跟今日是使用不同的筆電,反倒是今日使用的筆電效能比較好
網路環境昨天是使用手機分享,今天是使用固網有線傳輸。
這些資料提供予老師,還請老師試試看,無盡感謝!
您好,
刪除謝謝您提供這麼多資訊,目前還沒找到哪裡有問題;我繼續努力。