831350.jpg

疯子V

有没有技术性大佬知道这个提取內镶字幕的方法怎么用

https://github.com/apm1467/videocr


本人小白一个,完全不知道怎么用,这个链接是一个写一些方便大家用的软件的大佬提供,但那为大佬会将近一个多月没空,没空编译,
我不常看茶馆,不知道茶馆是否已经有人写过教程,有的话还请给个搜索的关键字或链接,谢谢了

至于为什么不去求物区问,我觉得这种技术向的还是茶馆问好

94257.jpg

Himehorn

B1F  2020-06-09 00:52
(嵌进去了……嵌进去了……!!)
不负责解答,你说的内嵌字幕指的是硬字幕吗?都已经成为了视频画面的一部分了是不可能提取出字幕文件的,内挂字幕(软字幕)可以,具体我没操作过

疯子V

回 1楼(Himehorn) 的帖子


ixsuKq3JC7eEPdf.jpg

伊蕾娜

B3F  2020-06-09 01:08
(今天也是充满希望的一天)
按时轴截图加文字识别

f47101021a5621d7.gif

小当家刘昴星

B4F  2020-06-09 03:21
(学习使我快乐)
描述:视频源
图片:


草草试了一下,10s的视频,三句台词识别出了一句,不过我没有调参,用的默认的

简要的说

1.安装python3,验证:在cmd中敲入python,应该出来版本号

2.安装tesseract-ocr,添加环境变量,验证:在cmd中敲入tesseract -v,应该出来版本号

3.将cmd的目录切到工程下,通过Python命令运行setup.py

python setup.py build
python setup.py install

4.建立一个如网页中所述的example.py,把视频名改为你的需求视频名,并把视频移到工程目录下

python example.py

如果楼主没接触过编程的话,安装过程可能就是个考验。有配过其他语言环境经验的话稍好一些。因为我之前就装的有python,装过一些工具,因此有可能漏掉其中某些工具的安装说明,不过也可以从Log从看出来缺啥。

另外这个方法用自己电脑跑挺慢的,一开始试片长2分30秒的,结果等了5-10分钟CPU99%(I7-7700)都没有运行完,于是放弃了。如果想提电影的话。我怀疑和人眼OCR会不会差不多效率(一般电脑),毕竟是逐帧OCR(粗看),如果视频分辨率高识别压力更大。。。

none.gif

贫道山风子

学习学习

831350.jpg

疯子V


最后运行python example.py出现这个
我将
from videocr import get_subtitles

if __name__ == '__main__':  # This check is mandatory for Windows.
    print(get_subtitles('video.mp4', lang='chi_sim+eng', sim_threshold=70, conf_threshold=65))
复制到记事本然后改后缀成PY的
将video.mp4这个改成了2.mp4,视频也在videocr-master目录下
也是在videocr-master这个目录下以管理员身份运行Python的
python3和tesseract-ocr都能显示版本号


在videocr-master这个目录下以管理员身份运行Python输
python setup.py
python setup.py build
python setup.py install
都没有显示红字

可最后运行python example.py什么也么发生,并没有CPU占用