项目步骤
截图(adb或者投屏到电脑桌面截图)
百度ocr
爬虫百度
匹配答案
输出最大值
可选:结巴分词、匹配数量
另可选:去分词停用词,找最关键词(未做)
识别那段代码是Github上找的,如果完整跑一遍要3~4秒(我电脑和网速渣)。
耗时
截图 1~2秒(投屏快一点)
百度ocr 1~2秒(不稳定,有过10秒的)
爬虫 0.5秒
总时间 3~4秒
减时间折腾记录
结巴需要初始化,耗时2秒多,把剩下的做成循环放到一起——ok
百度ocr token获取一次,以后重复调用——不ok,因为token在四次后会失效
于是把获取token放到循环外和循环结束,这样可以利用等待时间获取token——ok
截图裁剪识别区域后,图特别大,把图片resize到0.2倍——不ok
但是图片又太小了,有些字可能识别不出来,改到0.4——ok
总结
可以先做的就先做。
图片resize可以把ocr耗时减一半甚至是三分之一……在我adb稳定的时候,整个循环最快可以2.4秒。
好吧,折腾这么久,省了1秒。