本文實例講述了Python3實現獲取圖片文字里中文的方法。分享給大家供大家參考,具體如下:
一、運行環境
(1) win10
(2) pycharm
(3) python 3.5
(4) pillow與pytesseract庫安裝:
pip3 install pillowpip3 install pytesseract
(5) 識別引擎tesseract-ocr ,下載之后解壓安裝
二、 運行代碼
# -*- coding: utf-8 -*-from PIL import Imageimport pytesseract#上面都是導包,只需要下面這一行就能實現圖片文字識別text=pytesseract.image_to_string(Image.open('show.jpg'),lang='chi_sim') #設置為中文文字的識別#text=pytesseract.image_to_string(Image.open('test.png'),lang='eng') #設置為英文或阿拉伯字母的識別print(text)三、報錯解決
1.FileNotFoundError:[WinError 2]系統找不到指定文件。
解決辦法:
打開文件pytesseract.py,找到如下代碼,將tesseract_cmd的值修改為全路徑,再次使用就不會報這個錯了。
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
2.pytesseract.pytesseract.TesseractError:(1,'Error opening data file//Progr
解決辦法:
打開文件pytesseract.py,找到image_to_string,指定config的參數,如下:
tessdata_dir_config = '--tessdata-dir "C://Program Files (x86)//Tesseract-OCR//tessdata"'
def image_to_string(image, lang=None, boxes=False, config=tessdata_dir_config):
希望本文所述對大家Python程序設計有所幫助。
新聞熱點
疑難解答