一文搞定前端html内容转图片、pdf和word等文件

接上篇富文本编辑器 html 内容转 word：html-docs-js 避坑指南，我们已经完成了 html 内容转 word 文档的需求，接着咱们看下图片和 pdf 的处理。

介绍下用到的库

html2canvas

图片和 pdf 的转换都会用到html2canvas来完成，通过官网上的介绍，我们可以总结一下它的特点：

不需要后台支持，通过纯浏览器端”截图“；
可对部分或整个网页进行“截图”；
基于 DOM（遍历页面的 DOM），利用可用的信息构建屏幕截图；
有些 css 属性未被支持，可查看支持的 css 属性列表；
受同源策略影响；
无法渲染 iframe，flash 等内容。

jsPDF

pdf 的转换用到jsPDF，可以看看这个demo，对 jsPDF 的介绍比较详细。

图片的转换

相比于 html 转 word 来说，图片和 pdf 的转换相对来说简单了许多，咱们来看下图片的转换过程，主要有以下几个步骤：

克隆需要截图的 DOM 元素

通过cloneNode将需要克隆的节点生成一份副本，这一步的目的是：我们不能直接对原始 DOM 进行操作，因为会影响页面布局。所以可以修改克隆后的 DOM 节点，通过修改节点的样式（border、box-shadow 等）或修改节点宽高，达到我们想要的截图效果。
```
const cloneEle = ele.cloneNode(true)
// 对克隆的节点进行操作
cloneEle.style.xxx = ''
```

通过 html2canvas 截图

我们将第一步克隆到的 DOM 进行一个清理的动作，清理的作用是：移除不需要截图的 DOM 节点；将克隆的节点添加到 DOM 上，并返回新节点和删除节点的方法。删除节点cleanHtmlRecover方法用于在截图完成后移除 DOM 元素。

接着使用 html2canvas 方法将 DOM 绘制为 canvas，通过调用 canvas 对象的 toDataURL 方法将 canvas 转换成图片。

这里需要为 html2canvas 提供第二个参数useCORS: true，开启使用 CORS 从服务器加载图像，不然如果图片不同源时就会导致一片白。更多参数配置请参考configuration。

const cleanHtml = (ele: HTMLElement) => {
 // 移除不需要截图的DOM节点
 const selectElements = ele.querySelectorAll('select')
 selectElements.forEach((sel) => (sel.style.display = 'none'))
 const title = document.createElement('div')

 const warp = document.createElement('div')
 // 图片、pdf导出背景色不是白色
 warp.style.position = 'absolute'
 warp.style.zIndex = '-1'
 warp.append(ele)
 document.body.append(warp)
 return {
   warp,
   cleanHtmlRecover: () => {
     warp.remove()
   }
 }
}
const { warp, cleanHtmlRecover } = cleanHtml(cloneEle)
return new Promise<void>((resolve) => {
 Html2canvas(warp, { useCORS: true })
   .then((canvas) => {
     // 生成截图
     const image = canvas.toDataURL('image/jpg')
     // 下载图片
   })
   .finally(() => {
     cleanHtmlRecover()
     resolve()
   })
})

下载图片

上一步获取到转换后的图片后，就可以通过a标签的方式来下载图片，我们可以通过 dispatchEvent 来模拟点击事件完成下载。对 dispatchEvent 的其他使用可以看这篇文章。
```
// 下载图片
const a = document.createElement('a')
a.download = filename
a.href = canvas.toDataURL('image/jpg')
const event = new MouseEvent('click')
a.dispatchEvent(event)
```

pdf 的转换

图片的导出已经完成，那么 pdf 的导出应该如何做呢？

一开始我们是用的html2pdf-jspdf2，它就是使用 html2canvas 和 jsPDF 结合在一起，通过和 html2canvas 将 html 内容转为 canvas，再通过 jsPDF 将 canvas 转为 pdf。说几个我遇到的问题（可能是我用的不对）：

在 JSPDF 中我设置了format: 'a4'，意思是使用 A4 纸的大小来导出，页面同样设置为 A4，但导出的 pdf 文件宽度显示不全；
我们页面可以设置成 A3、A4、A5 几种特定纸张，并且支持设置宽高自定义纸张，但当我传入宽高后，发现得到的 pdf 文件不是我设置好的宽高；
没有了，直接换库跑路 😄

遇到问题解决不了怎么办？找 leader，找 leader，还是找 leader

通过我们一阵商量，最终确定了一个方案：先用 html2canvas 将 html 转换为图片，再利用 jsPDF 提供的addImage方法将图片贴到 pdf 中，因为图片导出目前是没有什么问题，而且展示效果也挺好，所以导出的 pdf 应该也不会有什么问题。

接下来就是和产品掰头环节，巴拉巴拉的...，成功让他们改了需求。

最后看下实现过程：

html2canvas 的使用与前面生成图片一样，接着通过generatePDF生成 pdf。

...
Html2canvas(warp, { useCORS: true })
  .then((canvas) => generatePDF(canvas, filename))
...

我们看下generatePDF的实现步骤：

计算一页 A4 纸能显示当前 html 生成的 canvas 高度；
如果 canvas 的高度未超过一页 A4 纸的显示高度，无需分页，直接贴图导出；
否则需要分页打印，分页打印思路如下：
1. 设置变量leftHeight记录剩余高度，打印完一页后 leftHeight 减去已经打印的 canvas 的高度 pageHeight，如果剩余高度大于 0，说明没打印完，通过addPage()增加分页继续打印；
2. 设置变量position记录打印开始的距离头部的位置，打印完一页后 position 增加一页 A4 纸的高度继续打印。

最后贴上完整代码：

/** a4纸的尺寸 */
enum A4_PAPER_SIZE_ENUM {
  'width' = 595.28,
  'height' = 841.89,
}
const generatePDF = (canvas: HTMLCanvasElement, filename: string) => {
  const contentWidth = canvas.width
  const contentHeight = canvas.height
  // 一页pdf显示html页面生成的canvas高度
  const pageHeight =
    (contentWidth / A4_PAPER_SIZE_ENUM.width) * A4_PAPER_SIZE_ENUM.height
  // 未生成pdf的html页面高度
  let leftHeight = contentHeight
  // 页面偏移
  let position = 0
  const imgWidth = A4_PAPER_SIZE_ENUM.width
  const imgHeight = (A4_PAPER_SIZE_ENUM.width / contentWidth) * contentHeight
  const pageData = canvas.toDataURL('image/jpeg', 1.0)
  const PDF = new JsPDF('p', 'pt', 'a4')

  // 当内容未超过pdf一页显示的范围，无需分页
  if (leftHeight < pageHeight) {
    // addImage(pageData, 'JPEG', 左，上，宽度，高度)设置
    PDF.addImage(pageData, 'JPEG', 0, 0, imgWidth, imgHeight)
  } else {
    // 超过一页时，分页打印（每页高度841.89）
    while (leftHeight > 0) {
      PDF.addImage(pageData, 'JPEG', 0, position, imgWidth, imgHeight)
      leftHeight -= pageHeight
      position -= A4_PAPER_SIZE_ENUM.height
      if (leftHeight > 0) {
        PDF.addPage()
      }
    }
  }
  PDF.save(filename + '.pdf')
}

小瑕疵

这种方法有一点点小问题：分页的地方处理不太好，不会自动识别隔页处理，而只是比较粗暴的从中间被拆分，类似下面这张图。

jsPdf-bug.png

总结

不管是工作还是学习中，都要有良好的“小记”习惯，将遇到的问题、解决的过程记录下来，最后整理成文，积累沉淀，不仅锻炼自己的文笔，同时拓宽知识面、帮助他人，在以后工作中遇到时也能更快的解决问题，实现业务需求；而不是做完就停滞了，下次遇到同样的问题还是处理不了。

以上就是本文的全部内容，希望这篇文章对你有所帮助，欢迎点赞和收藏🙏，如果发现有什么错误或者更好的解决方案及建议，欢迎随时联系。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342