PDA

View Full Version : Phương pháp OCR sử dụng Subs2Srs và ABBYY Fine Reader



Altair
03-14-2015, 12:21 AM
Hôm nay mình xin giới thiệu một phương pháp OCR phụ đề hình ảnh idx/sub mới đạt độ chính xác cao và dễ chơi, thích hợp cho các dịch giả chữ nào tượng hình như chữ Hán.

Ưu điểm: độ chính xác cao, cỡ 99,99%
Nhược điểm: hơi bị mất thời gian copy-paste vào file sub :">

Phương pháp OCR này bao gồm hai giai đoạn. Giai đoạn thứ nhất sử dụng Subs2Srs, có vai trò tạo nguyên liệu hình ảnh để sử dụng cho bước hai. Subs2Srs sẽ tạo các file hình ảnh từ các dòng sub. Mỗi dòng sub sẽ là một file hình riêng lẻ.

(http://i.imgur.com/6mfqM9e.jpg)
http://i.imgur.com/6mfqM9e.jpg (http://i.imgur.com/6mfqM9e.jpg)


Bước 1: bấm vào Subs1 chọn file idx/sub cần OCR

http://i.imgur.com/MCmT5Fx.jpg (http://i.imgur.com/MCmT5Fx.jpg)

Bước 2: bấm Output chọn nơi xuất kết quả

http://i.imgur.com/MUHM60L.jpg (http://i.imgur.com/MUHM60L.jpg)

Bước 3: đặt tên và bấm Go!

Bước 4: đợi :th_76:

http://i.imgur.com/rXz5o0V.jpg

Kết quả sẽ là như thế này: một đống hình

Altair
03-14-2015, 12:22 AM
Giai đoạn thứ hai sử dụng chương trình OCR ABBYY Fine Reader


http://i.imgur.com/zsg5hzM.jpg

Mở ABBYY Fine Reader và chọn Convert PDF/Images to MS Word

http://i.imgur.com/9D1kOaf.jpg

Chọn hình và bấm Open :)) Ở đây mình chọn năm hình làm minh họa.

http://i.imgur.com/t958rW5.jpg
http://i.imgur.com/J0U7iCp.jpg
http://i.imgur.com/c8GrDxA.jpg

Kết quả khá là chính xác. Trừ các chữ như っ, ゅ, ょ, ゃ, ッ, ャ, ョ, ュ thì chương trình có thể không nhận diện được và hiện chữ cỡ lớn

http://i.imgur.com/O7LBKz8.jpg

Cuối cùng là copy vào sub. Timecode thì có thể dùng chức năng OCR cùi bắp của Subtitle Edit để lấy. :))

Ai có câu hỏi gì hơm :">

trong_huy
03-14-2015, 12:37 AM
đang hay mà dừng :'(

angel_of_dead
03-14-2015, 11:24 AM
Hóng hớt để làm mấy bộ JAV chơi :v

Altair
03-14-2015, 05:26 PM
updateeeeee!!!

gabrielallon
03-14-2015, 05:33 PM
Có thành công khi thử với sub việt ko ?

Altair
03-14-2015, 05:36 PM
Có thành công khi thử với sub việt ko ?

sub Việt chưa thử, mà sub Việt thì có cái chức năng image compare của Subtitle Edit cũng ngon rồi

gabrielallon
03-14-2015, 06:04 PM
cụ thể hơn xíu được ko bạn ? :)

Altair
03-14-2015, 06:11 PM
cụ thể hơn xíu được ko bạn ? :)

mở Subtitle Edit, vào File ==> Import/OCR VobSub (sub/idx) subtitle rồi chỉnh như trong hình :D chữ Việt ít ký tự hơn chữ Hán nên làm cách này tiện hơn và cũng đỡ mất thời gian hơn :-?

http://i.imgur.com/mx8LPpO.jpg (http://i.imgur.com/mx8LPpO.jpg)

mp3sony
03-14-2015, 06:25 PM
trường hợp này OCR từ file sub sub, sup, idx, còn OCR từ file video hardsub thì sao?

Altair
03-14-2015, 06:28 PM
trường hợp này OCR từ file sub sub, sup, idx, còn OCR từ file video hardsub thì sao?

bài này của bác hoaitrung có phải là từ video hardsub ko nhỉ? :-? không phải thì thua
http://phudeviet.org/forum/showthread.php?4803-OCR-Hardsub-Thanh-Softsub.html

angel_of_dead
03-14-2015, 08:55 PM
bài này của bác hoaitrung có phải là từ video hardsub ko nhỉ? :-? không phải thì thua
http://phudeviet.org/forum/showthread.php?4803-OCR-Hardsub-Thanh-Softsub.html
Đúng rồi. Nhưng chỉ lấy timeline là chuẩn chút chứ nhận cả sub thì có hơi kém. :(

Altair
03-14-2015, 08:58 PM
Đúng rồi. Nhưng chỉ lấy timeline là chuẩn chút chứ nhận cả sub thì có hơi kém. :(

chỉ cần chụp hình đc hardsub ra là ok rồi