MediaCraft 音視頻工具 — 媒體創作處理軟件

admin · 發表於 2026-3-23 21:28:02

MediaCraft 音視頻工具是一款基於 PyQt5 + FFmpeg 開發的一站式音視頻處理工具，提供圖形化界面操作，讓複雜的音視頻處理變得簡單易用。支持15大核心功能模塊，滿足從基礎編輯到高級AI處理的各類需求。

詳細介紹：

遊客，如果您要查看本帖隱藏內容請回復

這是我自己用python整合ffmpeg和一些ai模型的UI界面工具，歡迎朋友們指點。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

核心功能詳解

1. 工具設置

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

2. 屏幕錄製

支持全屏錄製或自定義區域錄製，支持錄製系統聲音、錄製麥克風聲音，支持錄製鼠標指針。可設置幀率（FPS）、編碼質量（超快/快速/中等/慢速）、視頻比特率（5000k-15000k或自定義）。支持暫停/繼續/停止操作，默認保存到桌面。需要安裝Screen Capturer Recorder用於屏幕捕獲，VB-CABLE用於音頻捕獲。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

3. 視頻水印

支持圖片水印和文字水印兩種模式。圖片水印支持PNG/JPG格式，可設置寬度、高度和透明度（0-100%）。文字水印支持自定義字體（系統字體+程序fonts目錄字體）、字號、顏色（HEX格式）、描邊顏色、透明度。支持設置水印位置（水平/垂直偏移），支持批量處理多個視頻文件，支持拖拽添加文件，支持覆蓋已存在輸出文件。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

4. 視頻字幕

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

5. 視頻合併

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

6. 視頻轉碼

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

7. 提取字幕

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

8. 視頻截圖

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

9. 視頻分割

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

10. 圖片轉視頻

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

11. 視頻添加音樂

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

12. 提取視頻/音頻

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

13. 媒體元數據修改

支持批量修改視頻和音頻文件的元數據信息，包括標題、藝術家、專輯、年份、描述等信息。修改後的元數據會顯示在文件屬性中。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

14. Whisper 生成字幕

支持使用Whisper AI模型批量從視頻中提取文字字幕。支持多種模型選擇（tiny/base/small/medium/large），平衡速度和精度。支持多語言識別（中文簡體/繁體、英文、日語、韓語、法語、德語、西班牙語等），支持自動檢測語言。支持字幕翻譯功能，可將識別結果翻譯成其他語言。支持多種字幕格式輸出（SRT/ASS/VTT），自動命名規則：[原文件名]_[語言代碼].格式。程序會自動檢測Whisper路徑和模型文件（系統安裝或Plugin/whisper目錄）。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

15. 聲音克隆模型

程序內置了RTVC和SoVITS兩個聲音克隆模型，支持音頻訓練並生成克隆音頻。RTVC支持即時語音轉換和文本轉語音（目前僅支持英文），需要輸入文本和目標參考音頻。SoVITS支持高質量音頻克隆和多語言支持，需要輸入源音頻和目標參考音頻，自動識別配置文件中的說話人列表。程序會自動檢測模型完整性和Python環境。

軟件是使用PyQT5寫的，基於python和FFmpeg，基本上是FFmpeg的UI，大家都知道，FFmpeg是強大的視頻和音頻的編碼和解碼處理工具，現在世界上大部份的視頻或音頻處理工具都是基於FFmpeg開發的。

除了音頻和視頻的各種操作，我還額外添加了 Whisper、RTVC和SoVITS等3個ai模型。

Whisper：這是強大的，可以從聲音中識別出字幕的ai模型，支持所有語言，不需要再進行模型訓練，我已經打包了幾個語言模型，只需要選擇需要識別的語言就可以正常使用了。

RTVC：這是一款語音轉換的ai模型，可以根據訓練的模塊，根據提供的語音模型，根據輸入的文本，生成說話人語音，使用前提是需要有精準的音頻，並且目前只支持英文，或者你們可以找到已經訓練好的國內的語音模型。

SoVITS：同樣是一個出色的音頻轉換ai模型項目，但是這個需要自己訓練模型，大家如果想要使用，需要自己製作無噪音、無背景聲的音頻，然後進行模型訓練，最少需要訓練到8000步以上，再用訓練好的模型去製作音頻或音樂。

如果您不使用以下高級功能，可不下載或刪除對應插件目錄以節省空間：
– RTVC（即時語音克隆）→ 目錄：
MediaCraft\Plugin\RTVC

– SoVITS（高質量聲音克隆）→ 目錄：
MediaCraft\Plugin\SoVITS

– Whisper（AI 字幕識別）→ 目錄：
MediaCraft\Plugin\whisper
保留核心程序即可使用大部分常規功能（轉碼、合併、水印、截圖、分割、提取音頻/字幕等）。
安裝建議：解壓後直接運行程序；如需使用 AI/語音克隆功能，再按需補充對應
Plugin子目錄。

		自动登录	找回密碼
密码			立即注册