- 论文:Towards Automated Infographic Design:Deep Learning-based Auto-generation of Extensible Timeline
- 作者:Zhutian Chen, Yun Wang, Qianwen Wang, Yong Wang, and Huamin Qu
- 发表: IEEE Transactions on Visualization and Computer Graphics, VIS 2019
作者
Zhutian Chen
- HKUST,VisLab
- 兴趣:
- 信息可视化
- 增强现实
- 机器学习
动机
Infographic具有美观且传递信息有效的优点,为了方便进行Infographic设计,已经有了一些自动化的设计工具,但尽管借助这些工具,人们仍然需要自己完成大部分的设计工作;
Power Point 和AI中有一些模板可以辅助设计,但是模板风格太单一,缺乏多样性;设计师在网上寻找灵感时找到的大都是图片,如果使用用图片中的风格需要自己进行再设计,过程麻烦且枯燥,这就有了从图片自动生成模板的需求。
时间轴作为Infographic中使用非常广泛的一种,也有上述问题。
相关工作
1. 自动化的可视化设计基于criteria和constraints
(1)专家总结的criteria
今年的暑期学校多次被提过的Jacques Bertin 在Semiology of Graphics [1967] 一书中总结了一系列criterias,如:Visual encoding 包括:Marks(点、线、面)和Channels(marks如何表示,颜色、大小、形状、位置等)。
(2)用户自定义的constraints:soft/hard constraints
Soft: 表示偏好性,eg. 时序数据用x轴表示;
Hard: 必须满足的,eg. 形状不用来表示数量信息。
2.分类:
根据criteria生成的方式可以把自动化可视化设计分为两类:
(1) 基于rules生成的criteria
如开创者 Mackinlay 的APT system,根据Expressiveness(是否将数据里面的全部事实传递出来) 以及 Effectiveness(相比其他的可视化是否更加易于理解)对可视化编码的请求进行排序和修剪。
例如,他根据不同类型的数据设计了一个表达能力的排序供人参考:
J. Mackinlay. Automating the Design of Graphical Presentations of Relational Information. ACM TOG, 5(2):110–141, 1987.
后面也有研究者基于数据的属性、数据的转换等等对方面这些规则做了更多的扩展。
(2) 基于learning生成的criteria
相比基于规则的更复杂一些,直接从可视化语料库中学习可视化设计,根据训练集数据训练出来模型,由输入(数据集)得到输出(可视化结果)。比如Draco就是基于learning做自动化可视化设计的推荐。
D. Moritz, C. Wang, G. L. Nelson, H. Lin, A. M. Smith, B. Howe, and J. Heer. Formalizing Visualization Design Knowledge as Constraints: Actionable and Extensible Models in Draco. IEEE TVCG, 25(1):438–448,2019.
Draco学习soft/hard constraints的权重,以找到最佳的可视化;另一篇论VizML训练了一个全连接的神经网络来基于输入数据预测设计的选择。
**局限性:**这些自动化可视化设计都主要关注如何根据输入得到一个可视编码的推荐,而信息图表设计还需要考虑到设计风格等方面,这也是论文工作与上述的不同之处。
2. 可视化的计算机解释
使得机器可以理解可视化图像的内容(数据,style,visual encoding等),分为两类:
(1)For charts:
General pipeline:
- 利用计算机视觉和机器学习的相关技术来识别chart的类型;
- 检测出chart里面的元素(marks,text);
- 提取出其中的信息(data,visual encoding )。
(2)For infographics
T. F. Liu, M. Craft, J. Situ, E. Yumer, R. Mech, and R. Kumar. Learning Design Semantics for Mobile Apps. In Proc. UIST, pages 569–579. ACM, 2018.
这篇文章介绍了一种基于coding 和vision的方法,用于向构成移动UI的元素中添加语义注释。使用标记数据来学习基于代码的模式来检测UI组件,并训练一个卷积神经网络来区分图标的类型,准确率为94%。
**局限性:**从某种角度上理解了infographic 的内容,但是不知道如何重建一个可扩展的模板(解释后仍然不知道如何改变或者扩展infographic的内容)。
3. 基于深度学习的对象检测
Mask R-CNN是一个小巧、灵活的通用对象实例分割框架。它不仅可对图像中的目标进行检测,还可以对每一个目标给出一个高质量的分割结果。Mask R-CNN在Faster R-CNN基础之上进行扩展,并行地在bounding box recognition分支上添加一个用于预测目标掩模(object mask)的新分支。
输入图像识别得到对象的 bounding box 和 mask。
本文工作
1.论文的研究基础
为什么选择做timeline的自动化设计呢?
可行性有两个方面:
(1)时间轴数据潜在信息少:时间轴表达的是间隔型数据,比如事件序列,而不是连续型的时间序列数据,一个时间轴infographic通常没有太多潜在的信息需要挖掘,因为默认story teller已经将时间数据中的叙事点提取出来了。
(2)时间轴设计种类有限:一个时间轴可以看作由三个维度组成,每个维度不超过5个可选值,一共5X5X4=100种方法,其中只有20种类型(Type)的搭配是有效的。
M. Brehmer, B. Lee, B. Bach, N. H. Riche, and T. Munzner. Timelines Revisited: A Design Space and Considerations for Expressive Storytelling. IEEE TVCG, 23(9):2151–2164, 2017.
这说明:时间轴本身非常具有故事表示能力,且其设计有规律可循,设计空间已经被充分研究,便于进行自动化生成模板。
时间轴通常以bitmap image的形式传播的,有进行自动生成可扩展模板的需要。
2. 两个步骤(阻碍)
(1)自动化地解释时间轴图像–解析图片内容
信息图中的元素可能分布是在任何位置、有任何的样式(形状、大小、颜色等)的,机器只能按像素进行读取的信息图:bitmap图片输入,输出structural information,很难自动地解释。
(2)自动化地将图像转化为可扩展形式–构建模板
仅凭对时间轴信息图的理解不足以生成模板,即使得到时间轴的结构化信息(如类型、方向、元素位置等) ,如何将时间轴转换为可扩展的模板仍不清楚(当前提取的信息也有可能不正确),我们还需要知道一些detail information:元素的位置、颜色、字体、形状等。
3. 解决
An end-to-end 2-step approach
**(1)Deconstruction:**amulti-task deep neural network(DNN)
**(2)Reconstruction:**a heuristic pipline with three techniques
4. 数据集
D1:创建时间轴的工具Timeline Story teller创建的数据集,包括所有类型的时间轴;
D2:真实世界的时间轴;
经过收集、剔除、做标记,得到的数据集中一共包含10种类型的时间轴,时间轴中的元素包括6种:
其中:
Reused: main body, event mark, anno mark;
Updated:event text, anno icon, anno text。
Deconstruction解构
1. 解析全局信息 && 局部信息
使用Mask-RCNN ,同时解析全局信息和局部信息:
在本系统中的工作步骤:
(1)先使用Feature Pyramid Network(FPN) 扩展的ResNeXt(FPN是一种自上而下的架构,能够使用来自ResNeXt的特征图在多个尺度上生成强语义的特征图,用在本文的系统中使得其模型尺度不变,且能够处理分辨率相差很大的图像)。
全局信息包括:Type(三个维度,共10种)、Orientation(水平、垂直、其他),由于类型少,可以直接用Classification来识别全局信息。 CNN架构选择ResNeXt。
(2)Class head: 基于特征图像预测时间轴的类型和方向。
(3)RPN:Region Proposal Network,一种全连接网络,用来定位时间轴中的元素,它能同时预测图像中的elements locations(即BBOX)和objectness scores(即BBOX中是否有对象)。
(4)RoIs:从特征map中提取感兴趣区域,经过RoIAlign Layer,每个RoI被归为一个固定的大小。
(5)Box Head:两个全连接层,用来进行分类和进行元素的BBOX 回归。
(6)Mask Head:用一个全连接网络来预测BBOX中的像素。
2. 验证
(1)全局信息
R50/R101:两种CNN backbone。
三个检验标准分别是什么:https://blog.argcv.com/articles/1036.c
结果:效果都很好,R101比R50更好(预期的,因为R101共101层,训练效果更佳,下同);D2数据集小且更多样化,所以type效果差一些,但是使用R101时F1-score仍然高于90%。
(2)局部信息
最下面一行是来自的实验结果:Kaiming, He and Georgia, Gkioxari and Piotr, Dollar and Ross, Girshick. Mask R-CNN. In Proc. ICCV, pages 2980–2988. IEEE, 2017.
结果:
说明:AP越高越好,AP50:95是不同IoU下的平均AP,从0.5到0.95,步长0.05,IoU越大,度量越严格。
模型在D1数据集上的BBOX检测和像素分割方面有较高的AP。这个结果是因为D1的整体多样性是有限的,相比于他的多样性,数据集大小足够大,D1是自动生成的注释,用于有效学习是perfect的;
相反的是,相对与D1,D2更多样,数据集小,注释不那么完美,导致性能有所下降,不过相对于底部的实例,还是更优,所以在接受范围内。
Reconstruction重构
经过解构,要自动生成可扩展的模板,仍然有一些问题需要解决:
1. 消除重复的BBoxes
对于一个物体,可能会识别出多个BBox:
两种消除重复框的方法:
1.Non-Maximum Suppression(NMS):迭代删除置信度(eg.classification score)低于预定义的阈值(如0.8)的bbox。
2.Non-Maximum Merging(NMM):在infographic中,object的一部分可能也能是一个完整的object(影响了NMS的效率),上图两个框点的都是一个有效的annotation mark,所以都有很高的置信度,若用NMS消除不了重复的框。
论文设计了NMM来消除重复的bbox,相同类别的bbox,使用置信度加上归一化后的面积对它们进行排序,在第1名BBOX中, 将与其重叠且超过IoU阈值的其他bbox合并,形成一个联合BBOX,重复执行,直到所有重叠框合并为止(如上所示)。
实际应用中,论文分别应用了NMS和NMM,并检验了所得到的bbox和其他非重复bbox之间形状的一致性,保留了最一致的结果。
2. 修复失败的检测:Redundancy Recovery
可能有遗漏了元素或者检测到了错误的类别
沿时间轴的orientation做一个聚类分组,一个聚类代表一个事件
(1)分错类:
投票机制(anno text 错认为 anno icon,如果超过半数的event有anno text,那么和anno text有一样的bbox的anno icon应该被认为是anno text。给定一个事件可以有多个anno text,论文限制只有具有BBOX一致形状的anno text才能相互投票,此规则也适用于其他类别。)
(2)遗漏元素:采用同样的投票机制。
3. 提取出更高质量的graphical marks for reuse:DL-GrabCut
Reused elements: main body, event mark, anno mark。
Grab Cut是一种交互式分割算法,用户需要手动标注bbox和mask,刚好之前从DL model得来的输出可以用。
4. 识别event text 和annotation text的字体
Updated elements: anno icon, event text, anno text。
对于anno icon,直接换新的icon;对于 event text, anno text,使用Font Identifier识别字体;size可以根据像素计算得到。
5. 最终结果
蓝色为全局信息,绿色为局部信息。
6. 验证
论文只测试了D2,因为D1效果已经足够好。
IoU 0.5和0.75的增益效果差不太多,说明该pipeline的效果较优且稳定。
为什么会减少:手动labeled包括有empty space和border的graphical mark,而DL-GrabCut的结果与graphical mark完全匹配,但不能匹配上label。因此,即使DL GrabCut的结果是高质量的,也会从true positive变为false positive,因此查准率和召回率下降。
因此,论文在使用DL GrabCut之前和之后手工比较每个元素的分割结果,以验证其有效性,结果证明是有用的。
结果展示
1.重用元素
使用模板a中的元素,将a数据,从绘制工具生成的b样式改为美观的c样式。
2.重用Representation
使用模板中的不同的Representation得到不同的时间轴。
总结
1. 主要贡献
从位图信息图表timeline中提取可扩展模板的自动化方法,另外,论文奖他的一些思考总结在了论文当中,具体如下。
2. Lessons
(1) Human-ML Collaborative Authoring Tool
机器只是assist而不是replace人类的工作。
(2) Graphical Image-Driven Deep Learning
① Translation invariance vs Translation variance:
对于invariance,在自然图片对象检测中,自然世界的元素中不管元素位置在哪里都能识别,所以一般只考虑了invariance,但graphic中有些元素是variance 的,如text 标签的功能跟位置有关系,如x/y-axis 的文字。
② High-level semantics vs. low-level semantics:
自然界的图像处理中元素没有清晰的边界,使用低分辨率、语义强的特征来改进检测,会影响分割的精度;相反,info graphic需要精确的分割,因为它们有清晰的边缘,而检测仍然必需高层次的语义。这需要一个高分辨率的、强语义特征,这是很难做到的。未来的一个可能方向是将各种特征用于各种用途:低分辨率、语义强的特征用于检测;高分辨率、语义弱的特征用于分割。
③ Single vs. Hybrid:
infographic 中可能同时包含natural和graphic 元素。
3. 未来工作
(1)Timeline to others:
可以从10种时间轴扩展到到更多种以及其他类型info graphic;使静态的info graphic可交互;
(2)Hybrid to purely learning-based
可以将多步骤的pipeline替换成一个完整的深度学习模型。
(3)Template-based to freeform:
解释用户的设计草稿或者设计混合的主动创作系统,包括根据用户的草图或反馈来自动完成或生成设计等功能。
4. 局限性
(1)真实世界的数据集不够。
解决:开源数据集和编辑工具,收集更多的dataset;
(2)模型没有优化,论文的工作目标并不是高度量值;
(3)没有加入用户参与优化,例如可以将方法整合到绘制工具中,让用户可以对模型生成的结果进行优化;
(4)版权问题,因为各国法律法规不同、用途、再设计的程度也不同,可能会有版权纠纷。
5. 最终总结
论文提供了一种自动的方法,从时间轴的位图中提取可扩展的模板,通过对时间轴的类型和方向进行分类,并在时间轴上检测和分割元素,提出了一个多任务DNN来理解和解构位图时间轴信息图。根据这些结果,使用一个启发式管道来重建可扩展模板。可扩展的模板可用于自动生成具有更新数据的时间轴信息图形,采用定量实验和算例结果验证了该方法的有效性和实用性。
来源:CSDN
作者:xiaoyehahaha
链接:https://blog.csdn.net/xiaoyehahaha/article/details/101231717