Trích xuất văn bản từ hình ảnh thật dễ

06/03/2012 14:06
(GDVN) -OCR (Optical Character Recognition) là công nghệ giúp chuyển một hình ảnh chứa văn bản thành văn bản thuần dạng chữ.

Capture2Text là một trong những phần mềm miễn phí ứng dụng công nghệ OCR giúp bạn trích xuất văn bản từ hình ảnh, hỗ trợ đến sáu ngôn ngữ: Anh, Trung Quốc, Nhật, Pháp, Đức.

 

Capture2Text là phần mềm chạy trực tiếp không cần cài đặt. Sau khi tải về, bạn nhấn đôi vào tập tin Capture2Text.exe để thực thi chương trình, dưới khay hệ thống sẽ xuất hiện biểu tượng của Capture2Text.

 

Để lựa chọn ngôn ngữ muốn sử dụng, bạn nhấn chuột phải vào biểu tượng Capture2Text dưới khay hệ thống, chọn Settings > OCR Language > tên ngôn ngữ.

Trong mục Settings còn có các mục để bạn chọn cách lưu văn bản sau khi quét xong ảnh, gồm: Save to Clipboard (lưu văn bản vào clipboard), Send to Cursor (hiển thị đoạn văn bản lên cửa sổ ứng dụng đang mở), Show Popup Window (hiện ra pop-up chứa nội dung văn bản khi quét xong). Để sử dụng tùy chọn nào, bạn nhấn vào tùy chọn đó. Bạn nên lựa chọn hai mục Save to Clipboard và Show Popup Window. Xong, bạn nhấn Save Settings để lưu lại.

 

Sau đó, bạn mở hình ảnh cần trích xuất văn bản bằng trình xem ảnh bất kỳ. Bạn trỏ chuột vào góc của đoạn văn bản cần lấy trên ảnh rồi nhấn tổ hợp phím Windows + Q. Bạn dùng chuột khoanh vùng màu xanh vào vùng văn bản muốn trích xuất. Nội dung văn bản sẽ được hiển thị ở trên cùng màn hình. Khi đã chọn xong vùng văn bản cần lấy, bạn nhấn chuột để chấp nhận.

Văn bản được lưu vào clipboard để bạn tùy nghi sử dụng. Nếu ở phần thiết lập phía trên, bạn có đánh dấu vào mục Show Popup Window thì sẽ có một hộp thoại hiện ra chứa nội dung văn bản. Bạn nhấn OK để đóng hộp thoại lại.

Capture2Text có dung lượng khoảng 36MB, bạn tải miễn phí tại đây. Phần mềm tương thích Windows XP, Windows Vista, Windows 7, hỗ trợ cả hai phiên bản 32-bit và 64-bit.