更新時間:2021年06月25日17時40分 來源:傳智教育 瀏覽次數:
Tesseract是一個開源的OCR庫,是目前公認的最優(yōu)秀、最精確的開源OCR系統(tǒng),具有精準度高、靈活性高等特點。它不僅可以通過訓練識別出任何字體(只要字體的風格保持不變即可),而且可以識別出任何Unicode字符。
Tesseract支持60種以上的語言,它提供了一個引擎和命令行工具。要想在Windows系統(tǒng)下使用Tesseract,需要先安裝Tesseract-OCR引擎,可以從網址https://github.com/UB-Mannheim/tesseract/wiki 進行下載,如下圖所示。
該網址提供的下載版本為V5.0.0,下載完成后,雙擊安裝文件,按照默認設置進行安裝。 默認情況下,安裝文件會為其配置系統(tǒng)環(huán)境變量,以指向安裝目錄。這樣,就可以在任意目錄下使用tesseract命令運行。如果沒有配置環(huán)境變量,可以手動進行設置,默認安裝目錄為:
C:\Program Files\Tesseract-OCR
打開命令行窗口,輸人tesseract命令進行驗證。如果安裝成功,則會輸出如下圖所示的信息。