PDA

View Full Version : OCR Hardsub Thành Softsub



hoaitrung
04-14-2014, 11:13 PM
Vụ này mình cũng mất một thời gian kha khá để mày mò. Và với sub Việt bao gồm thêm các kí tự khó nhai như á, ă, ơ, ờ, dấu hỏi, dấu ngã, dấu nặng...có vẻ như bất khả thi các bác ạ. Nhưng với tiếng Anh thì lại khá dễ dàng. Bài viết này hi vọng cũng sẽ giúp ích được phần nào cho các bạn làm phụ đề rời từ hardsub.

Các bạn xem thử đoạn video hướng dẫn sau đây: (chọn HD để xem rõ nét)

http://youtu.be/VHsUfqqAkWY

Đây (http://www.fshare.vn/file/TPNCZ7MJMT/) là phần mềm dùng cho hướng dẫn trên đoạn video đó.

Thấy họ tách hardsub tiếng Nga thành softsub ngon lành. nhưng khi mình thử với tiếng Việt, thì soft OCR abbyy finereader lại cho kết quả không chính xác. Dù chưa đạt kết quả 100%, nhưng với hardsub Việt bạn cũng có thể có được vài thứ như sau:

1_ Một file srt trắng có timecode chuẩn theo phụ đề cứng của video.
2_ Nhiều file hình ảnh, mỗi file hình ảnh chụp lại một dòng phụ đề. Số file hình ảnh này tương ứng với số line của file srt trắng mà ta có được.

Như vậy ta có thể gõ lại phụ đề từ hình ảnh vào file srt có sẵn timecode.

Gửi kèm các bạn một đoạn video ngắn (http://www.fshare.vn/file/TDRC639YXT) có hardsub Việt để thử nghịch phá với soft trên.

Đây là phần mềm OCR cho các bạn nào muốn nghiên cứu tới cùng:
ABBYY FineReader v11.0.113.164 CorporateProfessional FULL (http://tenlua.vn/abbyy-finereader-v11-0-113-164-corporateprofessional-full-rar-0b37e52be40a6802/#download0b37e52be40a6802)

Vài link tham khảo về OCR:
http://vi.wikipedia.org/wiki/Nh%E1%BA%ADn_d%E1%BA%A1ng_k%C3%BD_t%E1%BB%B1_quang _h%E1%BB%8Dc
http://www.giaiphapso.info/giai-phap-so/ocr-la-gi/

Vài dòng chia sẻ. Mong bạn nào có phương pháp tối ưu cùng tham gia bàn luận và chia sẻ cùng anh em!

mp3sony
04-15-2014, 12:48 AM
phương pháp OCR này nhiều khi còn phụ thuộc vào chất lượng của video gốc nữa, chứ chất lượng thấp quá thì cũng không đọc được chính xác chữ

angel_of_dead
04-15-2014, 01:07 AM
^ ko đọc đúng nhưng có chụp hình lại mà ;))

hoaitrung
04-15-2014, 02:33 AM
Bài đầu mình có nhầm 1 chút do lâu rồi nên quên mất tiêu. Xin sửa lại chính xác như sau:
_Như trên, chúng ta cần có 2 phần mềm. Đó là Video Sub Finder và ABBYY FinreReader. Mô tả vài bước chủ chốt như sau:

Bước 1
Video Sub Finder : chụp lại phụ đề thành file images như sau
http://www.mediafire.com/convkey/8932/22dq9z3383drq58fg.jpg (http://www.mediafire.com/convkey/8932/22dq9z3383drq58fg.jpg)

Bước 2
Video Sub Finder tạo file của bước 1 thành nền đen như thế này (hình này mình làm minh họa nha, chứ phần mềm nó làm không ra được như vậy)
http://www.mediafire.com/convkey/8521/75ji4gzgve98azbfg.jpg (http://www.mediafire.com/convkey/8521/75ji4gzgve98azbfg.jpg)


Bước 3
ABBYY Finrereader sẽ nhận dạng và chuyển hình ảnh của bước 2 thành file word. Nếu hình ảnh rõ ràng như bước 2, thì bước 3 này ok 100%

Vậy vấn đề chính xác là nằm ở bước 2 các bác ạ. Nếu có cao thủ nào code lại được Video Sub Finder cho ra hình ảnh rõ như bước 2 thì ngon. :D

phongtinh
04-18-2014, 11:43 PM
Thằng ABBYY version 11 có hỗ trợ Tiếng Việt, để mai mần thử xem sao. Ủa mà bác bác hoaitrung thế hệ 5x hay 6x hay sao ấy, trong video thấy toàn tiếng Nga mà bác bấm ào ào :))

xiaomei5277
04-18-2014, 11:50 PM
Đâu anh thử orc cái sub em mới mần thử, nếu mà orc đc chắc mai mốt khỏi làm sub ảnh mất công tốn thời gian của đôi ta =))

http://phudeviet.org/subtitle/Will-You-Still-Love-Me-Tomorrow/3771.html

machiendl
04-19-2014, 01:55 AM
Đâu anh thử orc cái sub em mới mần thử, nếu mà orc đc chắc mai mốt khỏi làm sub ảnh mất công tốn thời gian của đôi ta =))

http://phudeviet.org/subtitle/Will-You-Still-Love-Me-Tomorrow/3771.html
Cái sub của chị thì OCR ra 30s rồi :p
File Sub .pgs em + Anh Long OCR như OCR Sub Eng :))
Ở đây là đang nói vấn đề OCR lại video đi kèm Hardsub luôn á chị :)

machiendl
04-19-2014, 03:28 AM
Em đã làm theo kết quả là đây:
Phần mềm hoạt động, khá tiện lợi nhưng có 2 vấn đề:
+ Hình ảnh phụ thuộc vào chất lượng video như anh mp3sony đã nói.
+ Phần mềm ko hỗ trợ đọc dấu tiếng việt nên ko thể hoàn thành dc :(

Em đã thử = Sub German thành công cực kỳ đến tận 80%....

hoaitrung
04-21-2014, 08:01 PM
Thằng ABBYY version 11 có hỗ trợ Tiếng Việt, để mai mần thử xem sao. Ủa mà bác bác hoaitrung thế hệ 5x hay 6x hay sao ấy, trong video thấy toàn tiếng Nga mà bác bấm ào ào :))

Video đó của mấy tay người Nga làm, có phải mình đâu. Tuổi thì mình 1969.
Songtinh seed nhiệt tình giùm cái file Cyclo DVD9 bên hdvnbits với, kéo cả tháng rồi mới 25% à :D

phongtinh
04-21-2014, 08:47 PM
Nếu như hình này

http://www.mediafire.com/convkey/8521/75ji4gzgve98azbfg.jpg (http://www.mediafire.com/convkey/8521/75ji4gzgve98azbfg.jpg)

thì ABBY OCR ra ngon lành. Đã thử 2 phim nhưng không đạt được như hình này, có lẽ do chất lượng phim.

phongtinh
04-21-2014, 09:02 PM
Video đó của mấy tay người Nga làm, có phải mình đâu. Tuổi thì mình 1969.
Songtinh seed nhiệt tình giùm cái file Cyclo DVD9 bên hdvnbits với, kéo cả tháng rồi mới 25% à :D

Đoán cũng trúng được 6x nhưng đời cuối :)). Mẹ ơi sao hôm giờ không nói, để mai up lên fshare luôn cho lẹ. Tất cả các tor em cũng seed nhiệt tình đó chứ nhưng đường truyền VIP nhất chung cư của em chỉ tới cáp quang thịt ba rọi (Eco Viettel 12MB), down thì được 1MB/s, còn up có 80KB/s à :)). Tỉ phú nào sống ở đây có muốn hơn cũng đành chửi thề :))

davidseanghia
04-21-2014, 09:08 PM
Chung cư nào mà mạng tã thế? :))

dark_devil_90
04-21-2014, 09:58 PM
nén lại up fshare đi :3

phongtinh
04-22-2014, 03:37 PM
Chung cư nào mà mạng tã thế? :))

Chung cư dành cho dân tộc thiểu số ít người :)) Bà mịa! Phải chi nó xây hồi 5, 10 năm trước thì gắn ADSL đã đành, còn đằng này mới hoàn thành có khoảng 2, 3 năm nay lúc ADSL thoi thóp chờ chết, cáp quang thì phát triển ào ào vậy mà nó gắn nguyên hệ thống chỉ xài ADSL thế mới cú chứ.

Senki
08-16-2016, 12:37 PM
có thẻ tách thành video raw ko có sub phải ko nhỉ. đàng cần raw mà có phim gắn sẵn hard sub rồi

mp3sony
08-16-2016, 01:12 PM
có thẻ tách thành video raw ko có sub phải ko nhỉ. đàng cần raw mà có phim gắn sẵn hard sub rồi

down video khác không có hardsub đi, đã gọi là hardsub thì tách cái gì mà tách nữa

ngviethoang0701
04-08-2020, 09:10 AM
Cái sub của chị thì OCR ra 30s rồi :p
File Sub .pgs em + Anh Long OCR như OCR Sub Eng :))
Ở đây là đang nói vấn đề OCR lại video đi kèm Hardsub luôn á chị :)

Bác ơi cho em hỏi bác OCR Sub Viet PGS thành file SRT bằng phần mềm gì để không lỗi chính tả vậy?
Mình dùng Subtitle Edit nhưng chỉ làm được tiếng Anh, còn tiếng Việt lỗi chính tả tè le.
Cảm ơn bác.

Gemini
04-08-2020, 06:17 PM
Bác ơi cho em hỏi bác OCR Sub Viet PGS thành file SRT bằng phần mềm gì để không lỗi chính tả vậy?
Mình dùng Subtitle Edit nhưng chỉ làm được tiếng Anh, còn tiếng Việt lỗi chính tả tè le.
Cảm ơn bác.

SubExtractor1032d hoặc Suprip

angel_of_dead
04-08-2020, 07:01 PM
Bác ơi cho em hỏi bác OCR Sub Viet PGS thành file SRT bằng phần mềm gì để không lỗi chính tả vậy?
Mình dùng Subtitle Edit nhưng chỉ làm được tiếng Anh, còn tiếng Việt lỗi chính tả tè le.
Cảm ơn bác.
Soft thì có thể dùng thêm mấy soft như bác Gemini đã nói. Nhưng soft nào thì cũng cần có thư viện hình ảnh để ocr chuẩn vậy nên bạn chịu khó dựng thư viện đấy đi thì dần dần sẽ ocr chuẩn lên thôi. :D

Gemini
04-09-2020, 11:14 AM
Database suprip với SubExtractor tôi đều có cả. Tối về nhớ thì share lên cho mọi người.

ngviethoang0701
04-09-2020, 03:15 PM
SubExtractor1032d hoặc Suprip

Vâng, cảm ơn bác :)

Gemini
04-11-2020, 12:26 PM
Vâng, cảm ơn bác :)

Suprip thì copy data "temp.font.txt" vào "C:\Users\user\AppData\Roaming\SupRip"

SubExtractor1032d thì copy và set dường dẫn data "OcrMap.bin" như hình

https://i.imgur.com/56ZVo0Z.png

Link download https://www.fshare.vn/folder/B6OMU5TGIZ37?token=1586582783

hoaitrung
04-15-2020, 10:57 AM
Đây là một cách mới tối ưu mà Bác 5ti đã tách được hàng trăm phụ đề với thời gian mỗi phim chỉ 2,3 tiếng. Vì bài quá dài, mình xin phép dẫn link để mọi người tiện tham khảo nha. Thanks!

http://www.hdvietnam.com/threads/huong-dan-su-dung-ersxp-tach-hard-sub-ra-sub-roi-srt.1556164/

hoaitrung
04-15-2020, 03:13 PM
Ngoài ra còn một cách mình thấy các Subber rất hay dùng. Đó là chuyển giọng nói thành văn bản của google.
Các bác chỉ cần ngồi đọc tiếng Việt, văn bản sẽ tự gõ. Đỡ phải chăm chú vào bàn phím mệt nhọc. Mình nghe bảo là gõ rất chính xác.
Hi vọng có ai đó cần và trợ giúp thêm được phần nào cho Subber
Link hướng dẫn: https://www.dienmayxanh.com/kinh-nghiem-hay/cach-go-van-ban-bang-giong-noi-tren-laptop-995252

Gemini
04-15-2020, 06:03 PM
Kỹ thuật OCR Hardsub như post 1 thì tôi biết 1 số cao thủ sử dụng rclone upload lên GGdrive và dùng lệnh rclone OCR. Nói về OCR thì google là vô địch.
Tuy nhiên kỹ thuật này tôi chưa kinh qua được và ae ko muốn share ra ngoài vì "có thể ảnh hưởng đến mấy trang web phim online" (chỗ này chưa hiểu lắm nhưng ko hỏi thêm) :th_20: