今天搞了一天的段落识别。
其中,比较大的一部分时间用于多栏的自动识别。虽说最后也差不多实现了,但却增加了程序的复杂度,让其它一些原本很简单的问题,变得难以解决。
经过一番思考后,我还是删除了这部分代码,仅保留了普通段落的识别。
回过头来看,之前决定做多栏识别的决定并不正确。因为这明显优先级低,又需花费大量时间。毕竟,还有很多其他更基础、更重要的事要做。不过,好在及时制止了花更多时间。
时不时跳出来思考下。也许现在正在苦闷的事,根本就不需要在意。
博客原文:1116 - 时不时跳出来思考