雄::gsyan: oTranscribe 線上聽打逐字稿改良版

「輕鬆聽寫逐字稿的免費網路應用程式。」是 oTranscribe 首頁中的中譯自述，去年底玩了一下，覺得滿好用的。

不過，現在 AI 大行其道，建議不要直接人工邊聽邊打字，這樣太沒效率了。我們可以先利用 OpenAI Whisper (請參考「雄:使用 OpenAI Whisper 製作影音的字幕或逐字稿」)，以 AI 來將錄音檔或是影片檔(已放在網路的，就利用網址)，將影音進行語音辨識，並輸出為帶有時間戳記的字幕，輸出為「SRT 字幕檔」，打開 oTranscirbe 後，將「SRT 字幕檔」匯入，再使用 oTranscibe 來進行聽打、編修、校正，如果原始音源沒有太差，相信需要更改之處，應該會少很多。而且這個方案中，負責進行聲音轉文字的 OpenAI Whisper (或 Faster Whisper)，我放在 Google Colab 中執行，有簡單的操作界面，免費、速度又快；負責文字校正的 oTranscribe，我放在 Github 中，一樣一毛錢也不用花。操作很難嗎？哈！最難的其實是動手去用它們。

之前由於原始的 oTranscribe 無法匯入、匯出 SRT 字幕檔，還寫了兩個小工具，可以將 SRT 字幕檔轉為 oTrnascribe 自己的 .OTR 格式，或是將 oTranscribe 編輯過的內容匯出為 SRT 字幕檔，不過，多了道「轉檔」的程序，還是覺得有一點麻煩。

因為 oTranscribe 是開源的，由 Github 將原始碼下載回來以後，看著、想著好幾天，決定動手將它改良一下，於是在 Github fork了一份，並將自己改過的原始碼也分享上去。

體驗改良版 oTranscribe

如果想試試看改良過的 oTranscribe，就按一下底下的這個網址：

https://gsyan888.github.io/oTranscribe/

以使用者角度來看，改良版幾個主要加強的功能如下：

會依瀏覽器的語言設定，自動選擇語言；有需要再自行更換別的。
匯入的功能可以直接匯入 .srt 的字幕檔。所以建議可以先使用 OpenAI Whisper，將影片或是音檔，先進行語音辨識成為「.srt 字幕檔」，就可以直接匯入 oTranscribe 中 [圖1]。
匯出的功能中新增了兩個選項 [圖2]：

SRT 字幕格式 (.srt)
去掉時間的文字稿(.txt)

將時間戳記改統一放在每一段文字的開頭，讓段落更清楚。
影片播放時，會自動標示正在播放哪一個時間點的逐字稿 [圖3]。

改良版的截圖如下：

[圖1] 改良版可直接匯入 .srt 字幕檔

[圖2] 改良版可匯出 .srt 字幕檔或是無時間的文字檔

[圖3] 改良版播放時會標示正在播放哪一個時間戳記的內容

2023.03.16 有錄了一小段改良版的操作影片，雖然畫面不是此時最新版本的畫面，但還是可以參考看看：

改良版 oTranscribe 的原始碼

改良版的原始碼在這裡：

https://github.com/gsyan888/oTranscribe

這個版本的原始碼中，目前幾個增強的重點：

修正各網頁中「font-awesome.css」的連結錯誤，這個錯誤會讓本機中執行時，卡很久。
修改了 webL10n 在本機執行的載入流程，讓它匯入特製的語系檔「data.ini.js」，這樣可以直接在本機中正常使用。
修正匯出的面板中，因為面板是動態產生，無法正常被處理文字翻譯的問題。
新增了可以在 Windows 中編譯的批次檔「make-in-windows.bat」。
其它新增的功能可參考前面「體驗改良版 oTranscribe」中的說明。

有興趣打造自己的 oTranscibe 的話，我利用 Colab 建立了一個 oTranscibe 編譯程序的筆記本，網址如下：

https://tinyurl.com/gsyan-build-otranscribe

因為 Colab 中，開發的環境基本上都建立好了，應該會相對單純；有需要的話，只要將自己的檔案再加進去，編譯完還可以將成品打包，下載回來測試。

更新記錄

2024.08.13 按完上方播放控制鈕後，游標可以停留在原來的位置；將插入完時間戳記後自動跳到下一段的功能最佳化，可以更精準的跳躍，也能跳過空白行。
2024.08.12 按 Ctrl + K 影音跳到指定的時間後，游標可以恢復至原來的位置(time-selection-modal.js)。
2024.08.11 解決字幕檔中如果帶有引號，會匯入失敗的問題。
2024.08.04 支援放網路的影音檔案，點 Youtube 網址輸入的選項，在輸入區輸入其它可公開使用的影片或是聲音檔，如果網址中沒有 .mp3 、.mp4 ...... 等足以辨別是聲音檔，還是影片檔時，可以自己加上特徵，例如: name=test.mp3 , name=test.mp4 ...... 這樣的語法；解決當已使用本機中的影音檔案後，使用 YouTube 影片會讓程式發生錯誤的問題；如果在網址加入 auto=1 的參數，插入時間截記時，會自動跳到下一段的開頭 ( 按這裡開啟有自動跳段功能的網址 ) 。
2023.04.14 讓匯出成純文字檔的內容可以包括換行字元。
2023.04.09 修改按下時間戳記後執行的動作，如果尚未選擇影音檔案，就顯示訊息提醒；如果影音已選擇但未播放，就開始播放。
2023.04.03 如果有在編輯區按過時間戳記，匯出時因為該筆的 HTML tag 和其它的不同，而產生解析錯誤，無時間的 .txt 及 .srt 匯出的問題解決。
2023.03.19 加入可顯示播放到哪一段的功能；微調匯出面板的位置，解決因為新增的兩個選項，位置變得太低，沒對準匯出圖示的問題；暫時將匯出到 Google Drive 的功能關閉(得申請 Google 的金鑰才能用，反正沒差，大家自己手動上載到 Google Drive 也是可以的)。
2023.03.18 修正 font-awesome.css 連結有誤的問題；匯出的檔名中，時間字串改為全用數字表示；解決匯出面板未正常填入語系字串的問題；讓本機執行時，也可以正常切換語言(主因是本機無法載入 .ini 檔案)；專案中新增可在 Windows 中編譯用的批次檔。
2023.03.16 fork 並加入匯入、匯出字幕檔，自動偵測語言的功能。

4 則留言:

laikai2025年3月20日上午9:18
老師您好：

請問您在使用oTranscribe時，有沒有遇過鍵盤輸入文字後，要等到3~5秒螢幕才會顯示文字結果？如果文字輸入較多，還會發生延遲10秒的狀況。
我在清理cookie與暫存資料之後，仍然會發生這樣的問題，想要請問老師這問題該如何處理？

敬祝一切平安
回覆刪除
回覆
laikai2025年3月20日下午1:16
我是長期oTranscribe的使用者，之前是用原版的，有發生過lag問題，最近看到您的改良版才趕快學習跟上，昨日使用沒這個問題，但今天反倒發生這樣的問題，尤其編輯中文字lag的更嚴重。

使用環境皆是google chorme 但昨日跟今日是使用不同的筆電，反倒是今日使用的筆電效能比較好
網路環境昨天是使用手機分享，今天是使用固網有線傳輸。

這些資料提供予老師，還請老師試試看，無盡感謝！
回覆刪除
回覆

新增留言

雄::gsyan

2023年3月22日星期三

oTranscribe 線上聽打逐字稿改良版

體驗改良版 oTranscribe

改良版 oTranscribe 的原始碼

相關連結

更新記錄

4 則留言:

搜尋此網誌

HTML5 FUN

Tools

Flash

文章分類

其它連結

Google 提供的廣告

雄::gsyan

2023年3月22日 星期三

oTranscribe 線上聽打逐字稿改良版

體驗改良版 oTranscribe

改良版 oTranscribe 的原始碼

相關連結

更新記錄

4 則留言:

搜尋此網誌

HTML5 FUN

Tools

Flash

文章分類

其它連結

RSS 訂閱

Google 提供的廣告

2023年3月22日星期三