[总结] Learning to Automate Chart Layout Configurations Using Crowdsourced Paired Comparison

论文标题：

Learning to Automate Chart Layout Configurations Using Crowdsourced Paired Comparison

关键词：

机器学习、可视化、众包、可视化设计、图像质量评估

由于现有的图表工具通常使用经验式方法来确定图表布局参数，生成图表布局。这个过程中需要用户反复调整多个参数（例如图表大小、间距），以实现视觉上有吸引力的布局。然而，这种尝试和错误的过程是非系统和耗时的，不能保证每次修改都能对布局进行积极性的改进。为了解决这个问题，该文献开发了Layout Quality Quantifier（LQ2），这是一种机器学习模型，可以从大量数据中学习对图表布局，并进行评分。与优化技术相结合，LQ2推荐了可提高图表布局质量的布局参数。该文献将LQ2应用于条形图，并进行用户研究，通过检查其生成的布局质量来评估其有效性。结果表明，LQ2可以生成比外行和基线更具视觉吸引力的布局。这项工作证明了量化人类偏好和图表布局美学的可行性和用途

研究结果：

1. 研究问题

l 背景

[图片上传失败...(image-ea29e2-1631637929079)]

n 现实中，在不同分辨率的设备中，需要不断调整图表布局，该过程对用户及其不友好。

l 相关研究

n VizML(CHI2019)

u 基于数据形式，进行图表推荐（视觉编码）

[图片上传失败...(image-4b69c3-1631637929079)]

n Draco(VIS2018)

u 综合领域知识，得出一套视觉编码体系

[图片上传失败...(image-96f744-1631637929079)]

l 研究相关

n 上述两个案例主要重心放在了dataEncoding。这个方面比较好做，因为数据较为丰富。

n 但对于布局来说，

u 并没有太多的数据集。

u 比较主观，难以归一化判断）

l 问题

n 如何研究出一套，自适应可视化图表？

2. 收集数据

l 什么是好/坏的图表布局？

u 超出可视框

l [图片上传失败...(image-1b42f7-1631637929079)]

u 不可读的文字字符

l [图片上传失败...(image-e74829-1631637929079)]

u 文字重复

l [图片上传失败...(image-527f63-1631637929079)]

u 空白位置

l [图片上传失败...(image-7db073-1631637929079)]

l 基于规则的强化学习模型：模拟用户在调整布局的过程

n 逻辑：

[图片上传失败...(image-ef9a79-1631637929079)]

u 规则：

l 字过小，调整大小

l 有多余的白空间，降低白空间…

u 缺陷：过于依赖于手动定义的规则，有些看起来很合理的损失函数制定，在实际过程中经常出现问题。

n 基于上述情况，因此转化为机器学习方法

u 模式：图表——》用户——》得分

l 难度：给分数的话，过于主观，也不好打分

l 于是：只做比较

l [图片上传失败...(image-20544a-1631637929079)]

u 方法：

l 流程

[图片上传失败...(image-6ab216-1631637929079)]

n 用一套逻辑生成不同图表（只取决于不同的输入参数）

n 交给用户进行打分（如果三个用户都同意的话，则把该数据录入数据集）。

n 最终目标，希望能得到一个评分模型

n 评估模型效果

u 基础对比

l 基于4000个用户的结果，与现有模型、人工指标进行比较

[图片上传失败...(image-7390c1-1631637929079)]

u 结论

l 使用该模型的推荐功能完成图表布局优化任务，对比对象：人、默认、随机

n 效果对比

[图片上传失败...(image-15a878-1631637929079)]

u 当参数只有三个的时候，该模型的图表布局推荐功能，其效果高于人、默认、随机

u 但是，当参数达到6个的时候，与人的结果对比，该模型无法起到有效帮助。

n 时间对比（调节时间+调整次数）

[图片上传失败...(image-f4b42b-1631637929079)]

u 但是，时间有效减少

u 调节次数有效降低

对设计的启示：

l 该文章，利用强化学习模拟人对图表布局的输入，并且将该输入参数作为训练数据。虽然最后没有成功，但这个思路同样可以用在其他很多领域，帮助开发者快速获取训练数据。

l 在研究与人相关的实验中，由于不可避免的主观性，很难使用得分的方式来进行评估。因此，该文章直接使用是否数据，简化流程，同时可以快速地将业务模型转化为数理模型。

l 对设计图表的参数化提取，可能才是主流的自动化过程。直接使用DL/ML生成的，还是会有很多问题。

未来：

l 目前只提取了条形图的参数，之后还需要对多种图表进行参数化提取。

l 目前LQ2还只有布局因素，并不包含颜色信息，之后也可以考虑加入。

l LQ2是针对较为清晰的参数特征进行训练的，在未来需要推广到未观测到的参数值和不同的图表类型。