2023年3月13日 星期一

Tools: 字幕檔格式簡單修復與去掉時間戳記變純文字

2023年3月13日 星期一

寫在前面

有鑑於用原版的 oTanscribe 編輯字幕檔,需要將檔案轉換來又轉換去的,實在太複雜了;經過三天的研究,將開源的 oTranscibe 改了一個我自己想要的版本,直接放在 Gihub 中。請參考較新的這一篇文章:

改過的版本,最重要的是加了以下的功能:

  • 可直接匯入 .srt 的字幕檔。
  • 可直接匯出 .srt 的字幕檔,或是去掉時間戳記的純文字檔。

哈!所以如果使用上面這個改過的 oTranscibe,本篇文章就可以忽略不看了。(補記於 2023.03.16)

改良版的 oTranscribe


原始貼文開始

在「雄:字幕檔轉為 oTranscribe 線上聽打逐字稿工具的格式」中提到,我們可以將 .srt、.vtt 格式的字幕檔轉為 oTranscribe 的格式以後,將 .otr 檔案「匯入」oTranscibe 中去和音檔,邊聽邊校正,校正完,可以再利用 oTranscribe 的「匯出」功能,下載校正完的結果;不過,oTranscibe 的匯出格式只有「Markdown (.md)」、「Plain text (.txt)」和「oTranscribe format (.otr)」三種,如果沒有繼續修改的需求,看來應該就是選擇用「Plain text (.txt)」來「匯出」囉!

不過,問題來了,如果是字幕檔,因為被 oTranscibe 轉換過,換行字元都亂了,應該無法直接給 Youtube 或影片播放器使用;如果是逐字稿,多了「時間戳記」,看起來應該很礙眼。怎麼辦?如何有效率地處理格式,或是去掉「時間截記」?

格式的轉換向來是電腦的強項,當然是用程式去分析、處理就好了。下面提供兩項 oTranscibe 匯出的「Plain text (.txt)」檔案後續處理的功能:

  • 字幕檔格式修復:去掉多餘的換行符號、重新排號碼。
  • 逐字稿去掉時間戳記:將字幕格式才需要的編號及時間戳記刪除。

使用的方法很簡單,可以先看一下示範的影片,再看重點整理:

示範影片


使用方法及工具

1.匯出文字檔:

在 oTranscribe 畫面中的右側,找到「匯出」(export) 的圖示,

[圖1] oTranscribe 匯出鈕

按 [匯出] 後,跳出「登入 Google 帳號」的小視窗可以關閉。

[圖2] 關閉登入 Google 的視窗

在「Download trascript as ...」選單中按「Plain text (.txt)」,即可下載文字檔。

[圖3] 下載格式 Plain text (.txt)

2.執行任務:

將匯出的文字檔拉到底下的圓圈中,並選擇要執行的功能;預覽沒問題,就可以按圓圈下方的下載按鈕。

字幕格式   去掉時間   oTranscribe

相關連結


沒有留言:

張貼留言

 
雄::gsyan © 2009. Design by Pocket