Vụ này mình cũng mất một thời gian kha khá để mày mò. Và với sub Việt bao gồm thêm các kí tự khó nhai như á, ă, ơ, ờ, dấu hỏi, dấu ngã, dấu nặng...có vẻ như bất khả thi các bác ạ. Nhưng với tiếng Anh thì lại khá dễ dàng. Bài viết này hi vọng cũng sẽ giúp ích được phần nào cho các bạn làm phụ đề rời từ hardsub.
Các bạn xem thử đoạn video hướng dẫn sau đây: (chọn HD để xem rõ nét)
Đây là phần mềm dùng cho hướng dẫn trên đoạn video đó.
Thấy họ tách hardsub tiếng Nga thành softsub ngon lành. nhưng khi mình thử với tiếng Việt, thì soft OCR abbyy finereader lại cho kết quả không chính xác. Dù chưa đạt kết quả 100%, nhưng với hardsub Việt bạn cũng có thể có được vài thứ như sau:
1_ Một file srt trắng có timecode chuẩn theo phụ đề cứng của video.
2_ Nhiều file hình ảnh, mỗi file hình ảnh chụp lại một dòng phụ đề. Số file hình ảnh này tương ứng với số line của file srt trắng mà ta có được.
Như vậy ta có thể gõ lại phụ đề từ hình ảnh vào file srt có sẵn timecode.
Gửi kèm các bạn một đoạn video ngắn có hardsub Việt để thử nghịch phá với soft trên.
Đây là phần mềm OCR cho các bạn nào muốn nghiên cứu tới cùng:
ABBYY FineReader v11.0.113.164 CorporateProfessional FULL
Vài link tham khảo về OCR:
http://vi.wikipedia.org/wiki/Nh%E1%B...ng_h%E1%BB%8Dc
http://www.giaiphapso.info/giai-phap-so/ocr-la-gi/
Vài dòng chia sẻ. Mong bạn nào có phương pháp tối ưu cùng tham gia bàn luận và chia sẻ cùng anh em!