當前位置:
首頁 > 科技 > PV2DOC:將演示影片轉化為可搜尋結構化PDF檔案的新工具

PV2DOC:將演示影片轉化為可搜尋結構化PDF檔案的新工具

你很可能看過那種結合了幻燈片、圖表、表格以及口頭解說的演示型影片。自從COVID - 19疫情爆發,實施居家措施之後,這類影片已成為一種廣泛使用的資訊傳遞媒介。

儘管影片是一種引人入勝的內容獲取方式,但它也有個明顯的缺點,就是非常耗時,因為要找到特定資訊就必須完整看完整段影片。而且,由於檔案容量大,它們還會佔用大量的儲存空間。

韓國首爾科學技術大學的權赫允(Hyuk - Yoon Kwon)教授所帶領的研究團隊,旨在透過PV2DOC這套軟體工具解決這些問題。PV2DOC能將演示影片轉換成摘要檔案。與其他影片摘要工具不同,其他工具需要影片搭配文字稿才能運作,若只有影片就無能為力,但PV2DOC透過結合視覺和音訊資料,將影片轉換成檔案,克服了這一限制。

他們的研究於2024年10月11日線上上發布,並於2024年12月1日發表在《SoftwareX》期刊上。權教授解釋道:「對於那些需要觀看和研究大量影片(如講座或會議演示)的使用者來說,PV2DOC能生成可在兩分鐘內閱讀完的摘要報告。此外,PV2DOC會分開處理圖表和表格,並將它們與摘要內容連結起來,方便使用者在需要時參考。」

在影象處理方面,PV2DOC每秒從影片中提取一幀畫面。它採用一種稱為結構相似性指數的方法,將每一幀與前一幀進行比較,以識別出獨特的畫面。接著,透過物件偵測模型Mask R - CNN和YOLOv5來偵測每幀中的物件,如圖表、表格、圖形和方程式。

在這個過程中,有些影象可能會因空白或子圖而變得破碎。為瞭解決這個問題,PV2DOC使用一種圖形合併技術,識別重疊區域並將它們合併成一個單一圖形。然後,系統使用Google Tesseract引擎進行光學字元識別(OCR),從影象中提取文字。提取的文字隨後會被整理成如標題和段落的結構化格式。

同時,PV2DOC從影片中提取音訊,並使用開源的語音轉文字(STT)工具Whisper模型將其轉換成文字。轉錄的文字再透過TextRank演演算法進行摘要,生成要點摘要。

提取的影象和文字會被合併成一個Markdown檔案,並可轉換成PDF檔案。最終檔案會按照原始影片的結構,清晰且有組織地呈現影片內容,如文字、圖表和公式。

透過將無組織的影片資料轉換成結構化、可搜尋的檔案,PV2DOC提高了影片的可存取性,並減少了分享和儲存影片所需的空間。權教授表示:「這套軟體將非結構化資料轉換成結構化格式,簡化了演示影片的資料儲存,並促進了資料分析,從資訊可存取性和資料管理的角度來看,具有巨大的潛力。它為更有效地利用演示影片奠定了基礎。」

研究人員計劃進一步將影片內容簡化為易於存取的格式。他們的下一個目標是訓練一個類似ChatGPT的大型語言模型(LLM),以提供問答服務,使用者可以根據影片內容提問,模型將生成準確、與上下文相關的答案。