找回密码
 立即注册
搜索
查看: 282|回复: 8

[原创-读书] 扫描版图书优化流程

[复制链接]

签到天数: 105 天

[LV.6]常住居民II

8

威望

559

金币

38

积分

刚来新人

Rank: 1

2018活动达人

注册时间
2018-12-11
在线时间
23 小时
最后登录
2019-4-18
发表于 2018-12-19 18:37:07 | 显示全部楼层 |阅读模式
本帖最后由 momo 于 2019-2-18 18:28 编辑

该文是以前为帮助朋友入门所写,顺便推荐了一堆软件

不足之处仍有很多,如黑白图只是写出了简单选项,并没有详述高级功能;OCR部分没有推荐老马工具+MODI,(有时需要高版本UV的缘故,不过毕竟Pdg2Pic也能),标记部分用的BeCyPDFMetaEdit并不易用,现在用PDF-XChange改完书签后顺便改下meta居多……而且改meta这种事情 - - 如果不是花费大量时间去做的确不需要标注防偷的(但真的见过偷走删减)。最后还有文中没写很多实用小工具,也没写Scankromsator 文档下载已对不足做出更新,帖子有字节限制,建议查看文档。

文档下载在这里:  

0.93对处理做出更新 详看 https://www.lanzous.com/b597086


————————————————————


导出→处理→输出→OCR→书签→标记
(有文字水印等事项,导出前先处理or导出原图)


导出


PDF:PDF补丁丁MyBox原图导出
PDG:解压后用Pdg2Pic,选择[存放转换出来的图像文件的文件夹]
______________________________________________________________________________
软件:pdftoy 、PDFXCview、PDF补丁丁、PDF Image Extraction Wizard、MyBox
备注:不再推荐pdftoy转换,读书园地论坛暂无法访问无法且论坛币难以获取。


处理

先选几个典型图拖进ComicEnhancerPro调基本参数看效果,确定优化方案
(如8色到纯黑白的表现、亮度/伽马、纠斜、柔化/锐化)
再按情况需求分类存放,以便批量处理
(如分成4色、8色、彩色三类,例子:中国饮食史


灰度图 ComicEnhancerPro
色彩→4色/8色→抖动(视情况)   切边→纠斜(视情况)
亮度+102~120  Gamma校正+125~160   视情况,用方向键调整

适用效果差导致调整复杂时偷懒……手工挑出来需要4色8色的之后批量即可。体积削减仍很可观,抖动会增加大小,没必要不选。
常见的情况有:1、字号较大的宋体+扫描质量差   2、插图较多+插图细节多
       3、字体肉眼观感清晰,纯黑白调整难 4、字体编排复杂,纯黑白调整难

黑白字 ComicEnhancerPro
其他→色彩→纯黑白→去斑直径(1-2)+边缘去毛刺
切边→纠斜(视情况) +手动范围内自动选择(不计黑边 忽略斑点直径8)
           +保持不变,内容框外填白+水平居中(视情况而定)

  注意事项:慎用[去除边缘接触的黑色区域]
若需去水印:亮度+115,Gamma校正+120 视情况,用方向键调整
纯黑水印页:画图全选del(常见淡灰水印导出Tiff就去了,页面只有水印才有这种输出)
高DPI纯黑白:其他→调节→高斯模糊 1.5 高斯锐化15

黑白图 ComicEnhancerPro 自动色阶or调节Gamma →彩色JPG 30%
      
彩色图 首选 画图、PS:位移、填充和图章 233

其他项
去边缘也可使用Photoshop录制动作批处理,但很慢。黑白图要质量好可选8阶以上灰度。
个别杂点杂斑CEP难以处理,建议用CLIP STUDIO PAINT,但软件较大只适对付部章页面。
基本教程与场景应用可参考CEP帮助文件或网上读书园地。

输出
FreePic2Pdf:300-600DPI,其他默认

此处可调整软件打开时的布局、页面大小和点书签后页面缩放,通常默认即可
______________________________________________________________________________
软件
FreePic2Pdf(批量速度最快)、PDF补丁丁、PDFShaper、Tracker PDF-Tools、PDF-ShellTools(收费软件)等,还有OCR项目下几个均可以。


OCR
ABBYY PDF Transformer+ 转换为可搜索的PDF
因为这个版本嵌入文本不会对图片进行任何处理,综合性能较高
Pdg2Pic+MODI   PDG直接转时
安装MODI后 勾选生成双层PDF和OCR语言即可

非全本或摘选识别:ABBYY PDFT+  或截图OCR软件(如QQ截图+OCR
PDG 或 繁体竖排:高版本UnicornViewer
______________________________________________________________________________
软件
ABBYY PDF Transformer+(效果尚可,速度中)
   福昕高级PDF编辑器(效果尚可,速度中)
     PDFelement Pro(效果较好,速度中,文件过大)
     Acrobat XI Pro(效果一般,速度中)
       PDFXCview(效果一般,速度慢)
        汉王OCR(效果较差,速度中)

截图OCR软件
天若OCR文字识别、QQ截图+OCRCencrack识别图片转文字、NetOCR
原理都是调用国内互联网公司的图像处理开放API

书签

任意OCR软件连同以下:
EmEditor     OCR后文本编辑(支持正则表达式的均可)
PdgCntEditor  制作OCR书签,导入导出(有时用到FreePic2Pdf)
PDFXCview   复制粘贴保存书签,书签定位


OCR→文本编辑→PdgCntEditor打开PDF复制入文本保存(调整基准页)
或:OCR→文本编辑→FreePic2Pdf导出→复制写入文件→FreePic2Pdf导入(调整基准页)
PDG同理,若本带书签,导出图片时有FreePic2Pdf_bkmk.txt文件
______________________________________________________________________________
原有书签,PDFXCview复制粘贴即可,FreePic2Pdf导出导入亦可。
自制书签,分为OCR目录编辑和手工录入定位,OCR一般也需要手工修正,用EmEditor正则替换掉斑点在标题和页码之间用特殊空格(可导出书签取得,是Excel那种)
正则:[.+?]+
空格:书签空格 1;PCE空格    1


标记

PDF文件拖入BeCyPDFMetaEdit,完善书名作者,创建者与制作程序写入自己。
______________________________________________________________________________
顺便提下,常共享电子书,最好不要随便做标记、批注等更改文件MD5的事情,以免不能秒传。小文件网络好是无所谓,但也添麻烦,如版本重复。
我改meta是因为处理后等于新版本,收尾加个也不碍事。同时方便使用filemeta管理的同学检索。这种事情,若非花费大量时间的确不需要标注防偷。
* 不改[创建者](Created)[制作程序](Produced)时,PDF-XChange Viewer不错。




恭喜你看完了!
我表达能力差,真是难为你了
软件可从这里获取,若无法下载,基本都能百度到链接

特别感谢:老马(strnghrs)
ComicEnhancerPro、FreePic2Pdf、PdgCntEditor等均为老马开发,合集下载



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

评分

参与人数 1威望 +1 金币 +100 收起 理由
52read活动大使 + 1 + 100 有含金量,排版也精美!期待更多分享!

查看全部评分

回复

使用道具 举报

签到天数: 54 天

[LV.5]常住居民I

6

威望

197

金币

22

积分

刚来新人

Rank: 1

注册时间
2018-12-10
在线时间
11 小时
最后登录
2019-3-27
发表于 2018-12-20 07:26:03 | 显示全部楼层
谢谢分享好文。
回复 支持 反对

使用道具 举报

签到天数: 79 天

[LV.6]常住居民II

6

威望

104

金币

26

积分

刚来新人

Rank: 1

注册时间
2018-12-10
在线时间
25 小时
最后登录
2019-4-7
发表于 2018-12-20 15:31:01 | 显示全部楼层
感谢分享,写的很好
回复 支持 反对

使用道具 举报

签到天数: 131 天

[LV.7]常住居民III

286

威望

7005

金币

1108

积分

初级认证会员

Rank: 5Rank: 5

2018活动达人

注册时间
2018-12-8
在线时间
327 小时
最后登录
2019-4-19
发表于 2018-12-20 16:35:58 | 显示全部楼层
感谢分享。学习了
回复 支持 反对

使用道具 举报

签到天数: 105 天

[LV.6]常住居民II

8

威望

559

金币

38

积分

刚来新人

Rank: 1

2018活动达人

注册时间
2018-12-11
在线时间
23 小时
最后登录
2019-4-18
 楼主| 发表于 2019-2-10 21:26:59 | 显示全部楼层
更新了pdf文件……文章内容相比PDF落后了一些。
回复 支持 反对

使用道具 举报

签到天数: 90 天

[LV.6]常住居民II

17

威望

602

金币

75

积分

注册会员

Rank: 3Rank: 3

2018活动达人

注册时间
2018-12-17
在线时间
33 小时
最后登录
2019-4-19
发表于 2019-2-11 20:38:01 | 显示全部楼层
感谢分享!原来一直是用老马的“办法”https://www.cnblogs.com/stronghorse/p/9425046.html

点评

有些书扫描质量难以置信……用高斯调整补断线化时间太长,又或者会改变原字体表现,所以才把灰度放到第一位了。我之前也是黑白党。  详情 回复 发表于 2019-2-12 15:33
回复 支持 反对

使用道具 举报

签到天数: 105 天

[LV.6]常住居民II

8

威望

559

金币

38

积分

刚来新人

Rank: 1

2018活动达人

注册时间
2018-12-11
在线时间
23 小时
最后登录
2019-4-18
 楼主| 发表于 2019-2-12 15:33:07 | 显示全部楼层
本帖最后由 momo 于 2019-2-12 15:35 编辑

有些书扫描质量难以置信……用高斯调整补断线化时间太长,又或者会改变原字体表现,所以才把灰度放到第一位了。我之前也是黑白党。
自己常读的慢慢调整还好,不是特别重要的 只是改善观感压缩下大小,灰度够了。
回复 支持 反对

使用道具 举报

签到天数: 107 天

[LV.6]常住居民II

78

威望

3241

金币

340

积分

初级认证会员

Rank: 5Rank: 5

注册时间
2018-12-9
在线时间
143 小时
最后登录
2019-4-19
发表于 2019-2-21 13:07:20 | 显示全部楼层
感谢分享,写的很好
回复 支持 反对

使用道具 举报

签到天数: 28 天

[LV.4]偶尔看看III

5

威望

112

金币

19

积分

刚来新人

Rank: 1

注册时间
2019-2-10
在线时间
9 小时
最后登录
2019-4-16
发表于 2019-3-17 12:50:38 | 显示全部楼层

谢谢分享好文。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|本站所有资源均来自网络,为网友个人上传,如有版权纠纷与本站无关,网友分享资源仅限用于个人学习与研究,不得用于任何营利商业行为。版权为原著作人所有,如果您发现侵害了您的权益,请发邮件致zha32590(at)163(dot)com,本站将在第一时间予以删除|吾爱读书  

GMT+8, 2019-4-19 19:00 , Processed in 0.068926 second(s), 40 queries .

Powered by Weekend Design Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表