安装Tesseract-OCR
在官网下载最新的Windows安装包,双击运行
根据需要选择,一路Next,直到这个页面
在Additional language data(download)
中选择要下载的其他语言的数据,之后程序会自动下载。一直到安装成功
配置环境变量
进入高级系统设置
,选择高级
->环境变量
选中系统变量
中Path
->编辑
新建一项,地址为Tesseract-OCR的安装目录即可(例如C:\Program Files\Tesseract-OCR
)
可以通过在控制台中输入tesseract
命令来检查是否配置成功,输出如图即表示成功
配置Python
直接使用pip install pytesseract
进行安装
pytesseract
功能
- get_tesseract_version 返回系统中安装的Tesseract版本。
- image_to_string 将图像上的Tesseract OCR运行结果返回到字符串
- image_to_boxes 返回包含已识别字符及其框边界的结果
- image_to_data 返回包含框边界,置信度和其他信息的结果
- image_to_osd 返回包含有关方向和脚本检测的信息的结果
参数
image_to_data(image, lang=None, config='', nice=0, output_type=Output.STRING)
- image object 图像对象
- lang String,Tesseract 语言代码字符串
- config String 任何其他配置为字符串,例如:config='–psm 6'
- nice Integer 修改Tesseract运行的处理器优先级。Windows不支持。
- output_type 类属性,指定输出的类型,默认为string。
简单实例
识别一张图像中字符并直接输出
import pytesseract
im = "C:/Users/1/Desktop/test.jpg"
result = pytesseract.image_to_string(im)
print(result)
这样识别到的字符就会转化成字符串输出