OCR là viết tắt của Optical Character Recognition, tạm dịch là Nhận dạng ký tự quang học. Đây là công nghệ được áp dụng để nhận dạng ký tự trên định dạng hình ảnh hoặc pdf và chuyển nó thành định dạng file có thể xử lý, như Word, excel, text hoặc nhập trực tiếp vào phần mềm khác. Thường gọi tắt là phần mềm OCR
OCR là công nghệ, nó không phải là một phần mềm độc lập. Nó thường được tích hợp vào các phần mềm khác để nhận dạng ký tự, nhập dữ liệu tự động, chuyển định dạng file
Hiện nay, các phần mềm có ứng dụng OCR được gọi tắt là phần mềm OCR. Xin giới thiệu một số phần mềm OCR phổ biến tại Việt nam
Phần mềm OCR của Abbyy
Abbyy là công ty của Nga, đã giới thiệu công nghệ OCR vào Việt nam từ rất lâu. Bằng các hợp tác với công ty Đông Kinh, họ đã triển khai được khá nhiều dự án về tự động nhận dạng ký tự OCR tại Việt nam. Điểm mạnh trong các giải pháp OCR của Abbyy là chuyển hình ảnh, pdf sang Word, Excel rất tốt.
Đang xem: Phần mềm ocr tiếng việt
Xem thêm: Dns Là Gì – Thay Đổi Máy Chủ Dns
Xem thêm: Jquery Là Gì ? Tổng Quan Và Hướng Dẫn Sử Dụng Jquery Jquery Là Gì
Abbyy đang là công ty số một tại Việt nam về OCR. Sản phẩm nổi tiếng nhất của họ là Abbyy FineReader
Nhận dạng ký tự với Abbyy
Ưu điểm:
Hỗ trợ rất nhiều ngôn ngữNhận dạng tiếng Việt chữ in khá tốt (có thể lên đến 95%)Chuyển định dạng văn bản, tài liệu sang Word, Excel… rất tốt, các form, bảng biểu đều giữ nguyên được định dạng
Nhược điểm:
Các sản phẩm bán lẻ khá đắt, không có miễn phíTích hợp với các phần mềm thứ ba khá khó khăn do phải đưa về hãng làmChi phí để tùy chỉnh nhận dạng các loại văn bản đặc thù rất đắt, thời gian lâuNhận dạng chữ viết tay không tốt
Phần mềm OCR của Nuance
Nuance là công ty của Mỹ, đã giới thiệu công nghệ OCR vào Việt nam từ khoảng năm 2018. Được đánh giá là giải pháp số một về OCR, tuy nhiên, chưa phổ biến ở Việt nam. Một số sản phẩm của Nuance như OmniPage, PaperPort được đánh giá khá tốt. Nuance chưa có dự án OCR được triển khai tại Việt nam
Nhận dạng văn bản với Nuance
Ưu điểm:
Nhận dạng tiếng Việt chữ in khá tốt (có thể lên đến 90%)Chuyển hình ảnh, pdf sang Office rất tốt, các form, bảng biểu đều giữ nguyên được định dạngCó giải pháp nén dữ liệu file pdf để tiết kiệm dung lượngKhông miễn phí
Nhược điểm:
Chưa được triển khai nhiều tại Việt namTích hợp với các phần mềm thứ ba khá khó khăn do phải đưa về hãng làmChi phí để customzise nhận dạng các loại văn bản rất đắt, thời gian lâuNhận dạng chữ viết tay kém
Phần mềm OCR miễn phí
Hầu hết các phần mềm OCR miễn phí đều phát triển trên nền tảng OCR mã nguồn mở Tesserct của Google. Nổi tiếng có: FreeOCR, Free-OCR. Tesserct cũng được một số công ty tại Việt nam khai thác, xây dựng nên các sản phẩm OCR của riêng mình.
Hầu hết các phần mềm OCR miễn phí đều nhận dạng tiếng Việt kém, kể cả với chữ in. Khi chuyển đổi định dạng thường không giữ được nguyên form, bảng biểu
Ưu điểm:
Miễn phíCó thể được sử dụng để phát triển nhận dạng các loại tài liệu theo nhu cầu
Nhược điểm:
Chuyển đổi văn bản có bảng biểu chưa tốtThường có một số giới hạn, như số lần sử dụng, kích thước file xử lý…FreeOCR chỉ nhận dạng được các văn bản đơn giản, tiếng Việt không tốtNhận dạng chữ viết tay kém