《Classification of Trash for Recyclability Status》论文笔记

三世轮回 提交于 2019-12-28 23:06:04

Abstract

      ~~~~~~将垃圾分类为回收类别的计算机视觉方法可能是处理废物的有效方法。该项目的目的是拍摄单张回收或垃圾的图像,并将其分为玻璃,纸张,金属,塑料,纸板和垃圾六类。我们还创建了一个数据集,其中包含每个类别的大约400-500张图像,这些图像是手工收集的。我们计划向公众发布此数据集。使用的模型是具有尺度不变特征变换(SIFT)特征和卷积神经网络(CNN)的支持向量机(SVM)。我们的实验表明,SVM的性能优于CNN;但是,由于难以找到最佳超参数,因此CNN尚未经过全面训练。

I. INTRODUCTION

      ~~~~~~回收对于可持续发展的社会是必不可少的。当前的回收过程要求回收设施手动分类垃圾,并使用一系列大型过滤器来分离出更明确的对象。消费者也可能对如何确定正确的处置方式感到困惑。包装中使用的材料种类繁多。我们的动机是找到一种自动分类垃圾的方法。这有可能提高加工厂的效率并帮助减少浪费,因为员工并非总是能以100%的准确性对所有物品进行分类。这不仅具有积极的环境影响,而且具有有益的经济效果。
      ~~~~~~为了模拟回收工厂或消费者对材料图像进行识别的物料流,我们的分类问题涉及接收单个对象的图像并将其分类为可回收物料类型。流水线的输入是在纯白色背景上存在单个对象的图像。然后,我们使用SVM和CNN将图像分类为六类垃圾分类。通过使用计算机视觉,我们可以仅基于图像来预测对象所属的垃圾类别。

II. RELATEDWORK

      ~~~~~~在此之前,已有许多支持向量机和基于神经网络的图像分类研究项目。然而,没有一个是专门针对垃圾分类的。
      ~~~~~~在图像分类领域,一种著名且功能强大的CNN架构是AlexNet1,,它赢得了2012年ImageNet大规模视觉识别挑战赛(ILSVRC)。该体系结构相对简单,并且不是很深,当然众所周知,它的性能很好。AlexNet之所以具有影响力,是因为它引发了CNN方法的趋势,这种趋势在Im-ageNet挑战中非常流行,并成为了图像分类的新技术。
      ~~~~~~我们发现的最相似的项目是2016年TechCrunch DisruptHackathon2的一个项目,在这个项目中,团队创建了一个自动垃圾分类的垃圾桶,它可以使用树莓派(RaspberryPi)驱动的模块和摄像头来区分堆肥和回收利用。他们的项目是用谷歌的TensorFlow构建的,还包括硬件组件。关于“自动垃圾”,需要注意的一点是,它只分类垃圾是堆肥还是回收利用,这比五六个分类简单多了。
      ~~~~~~另一个与垃圾相关的项目是一个智能手机应用程序,旨在对图像中的一堆垃圾进行粗略分割3。 该应用程序的目标是允许公民跟踪和报告附近的垃圾。使用的数据集是通过Bing Image Search获得的,作者从图像中提取了补丁以训练其网络。作者使用了经过预先训练的AlexNet1模型,获得了87.69%的平均准确度。作者很好地利用了经过预先训练的模型来提高泛化能力。
      ~~~~~~其他基于回收的分类问题使用了对象的物理特征。1999年,Lulea科技大学的一个项目4致力于利用机械形状标识符回收金属废料。他们使用化学和机械方法,如探测,以确定化学成分和电流分离。本文所采用的力学方法为我们的工程提供了有趣的推进策略。
      ~~~~~~在Flickr资料数据库5上执行了另一个基于图像的材料分类。该团队在贝叶斯计算框架中使用了SIFT、颜色、微纹理和轮廓形状等特征。这个项目与我们的相似之处在于,它试图根据材料类别对图像进行分类。然而,使用的数据集与我们的不同,因为图像是无污点的材料,没有标识或变形。

III. DATASET ANDDATACOLLECTION

      ~~~~~~数据采集​​过程是由手工完成的,因为没有公开的垃圾数据集。最初,我们使用Flickr材质数据库和Google图片中的图片。但是,在对回收工厂和回收产品的状态进行了更多研究之后,这些图像不能准确地表示回收产品的状态。例如,Flickr材质数据库中的图像以原始且未损坏的状态显示了材质。这不太可能将回收材料视为废物,因为它们脏,起皱,起皱等。
      ~~~~~~因此,我们手工收集了自己的图像数据集,并计划制作一个公共数据集。该数据集包含六个类别的回收对象的图像,每个类别约有400-500张图像(“垃圾”类别仅包含约100张图像),总计 约2,400张图像。数据采集​​过程涉及使用白色海报板作为背景,并在斯坦福大学,我们的房屋和我们亲戚的房屋周围拍摄垃圾和回收利用的图片。每张照片的灯光和姿势都不一样,这导致了数据集的变化。下面的图显示了六个类的示例图像。由于每个类的大小很小,所以对每个图像都执行了数据增强技术。这些技术包括图像的随机旋转,图像的随机亮度控制,图像的随机平移,图像的随机缩放以及图像的随机剪切。选择这些图像变换是为了考虑回收材料的不同方向并最大化数据集的大小。我们还执行了均值减法和标准化。

IV. MODEL ANDMETHODS

A. Support Vector Machine

      ~~~~~~支持向量机首次用于将垃圾分类为回收类别。之所以选择支持向量机,是因为它被认为是最佳的初始分类算法之一,并且与CNN相比没有那么复杂。
      ~~~~~~支持向量机通过为多维数据定义一个分离的层次来进行分类。该算法试图找到的超平面是为训练实例提供最大最小距离的超平面。更具体地说,支持向量机的优化目标是:
在这里插入图片描述
      ~~~~~~其中w,b是我们假设的参数是函数,y(i)表示特定示例的标签,x(i)是m中的第i个示例,而γ是所有训练示例的最小几何余量。对于一个多类支持向量机,一个常用的方法是一个统一的分类,其中类是根据类模型对测试数据进行最大限度的分类来选择的。
      ~~~~~~用于SVM的功能是SIFT功能。从较高的角度来看,SIFT算法可以找到图像中的斑点状特征,并以128个数字进行描述。具体地说,SIFT算法通过了一个高斯滤波器的差,该差使σ值变化,作为高斯拉普拉斯算子的近似值。σ值用于检测图像的较大和较小区域。 然后在图像上搜索比例和空间上的局部极值。将图像中的像素与不同比例的邻居进行比较。如果像素是局部极值,则它是潜在的关键点。这也意味着关键点最好在该特定比例下表示。一旦发现了潜在的关键点,就必须通过泰勒级数扩展和阈值优化。然后将方向分配给每个关键点,以实现图像旋转的不变性。关键点在360个方向上旋转,就像直方图一样,在36个箱子里(每个箱子10度),基于一定旋转的梯度大小。选择的关键点是一个容器中值的最大值。找到密钥点后,将在密钥点周围建立一个16x16的邻居。然后,它被划分为16个子块的4x4大小。每个子块创建8个方向直方图。因此总共有128bin值可用。SIFT的特点是强大的,因为它们不受比例、噪声和光照的影响,非常适合循环分类。大多数回收物品的外观并没有太大的不同,只是大小和颜色有所不同。然后应用特征包。用k-means算法对训练图像的SIFT描述符进行聚类,其中k-means算法表示训练样本的个数。然后,对于每个新的测试示例,提取SIFT特征,并使用基于原始聚类的值直方图作为数据集的数据点。这大大减少了支持向量机所需的训练时间,因为一个图像减少到一个直方图。

B. Convolutional Neural Network

      ~~~~~~我们使用Torch7框架来构建我们的CNN。我们实现了一个与AlexNet非常相似的十一层cnn。由于计算上的限制,我们的网络比AlexNet(某些卷积层使用34个过滤器)要小。

  • Layer 0: Input image of size 256x256
  • Layer 1: Convolution with 96 filters, size11x11, stride 4, padding 2
  • Layer 2: Max-Pooling with a size 3x3 filter,stride 2
  • Layer 3: Convolution with 192 filters, size 5x5,stride 1, padding 2
  • Layer 4: Max-Pooling with a size 3x3 filter,stride 2
  • Layer 5: Convolution with 288 filters, size 3x3,stride 1, padding 1
  • Layer 6: Convolution with 288 filters, size 3x3,stride 1, padding 1
  • Layer 7: Convolution with 192 filters, size 3x3,stride 1, padding 1
  • Layer 8: Max-Pooling with a size 3x3, stride 2
  • Layer 9: Fully Connected with 4096 neurons
  • Layer 10: Fully Connected with 4096 neurons
  • Layer 11: Fully Connected with 5 neurons
  • Result: Non-normalized log softmax scores, 5classes

V. EXPERIMENTS

A. Support Vector Machines

      ~~~~~~对于SVM,选择了径向基础内核,该内核定义为
在这里插入图片描述
径向基核通常最适合图像数据集。我们尝试了其他内核,例如线性内核和多项式内核,但是这些内核的性能不佳。
      ~~~~~~SVM的C参数设置为1000。此参数告诉SVM优化多少以避免对每个训练示例进行错误分类。低C参数对此数据集无效,因为SVM仅为所有数据返回了相同的标签。这个值是从一系列数字的探索中找到的。
      ~~~~~~Gamma被设置为0.5的中间值,以不需要太极端的边缘或者太小的边缘。

B. Convolutional Neural Network

      ~~~~~~CNN的训练/ val / test分割为70/13/17,图像尺寸为256x256,为60个时代,批量为32,学习率为5e-8,每5个时代的权重衰减为5e-1, 7.5e-2的L2正则化强度和开明权重初始化6。 由于手头任务的不同,我们没有使用与AlexNet相同的超参数(ImageNet包含约130万张图像)。我们尝试了许多超参数,这些是我们最终使用的最终超参数。
      ~~~~~~我们在训练神经网络时遇到了麻烦,因为它不会学习。我们选择忽略垃圾类的图片,因为与其他类相比,垃圾类的图片只有 1/51/5 张,因为它们会在数据集中造成不平衡。

VI. RESULTS

A. Support Vector Machines

      ~~~~~~SVM比CNN取得更好的结果,使用70/30训练/测试数据分割实现了63%的测试精度。 训练误差为30%。 SVM是一种比CNN相对简单的算法,这可以归因于其在此任务中的成功。
在这里插入图片描述

B. Convolutional Neural Network

      ~~~~~~如实验部分所述,我们在训练网络时遇到了困难。这个网络似乎没有学习能力,因为我们在实验中获得的测试准确度只有22%。这比随机分类好不了多少,它告诉我们超参数运行得不好,或者模型太复杂或者太简单。
      ~~~~~~在早期尝试使用各种超参数训练网络时,我们看到了网络没有学习的相同问题。之前,我们使用的图像大小为384x384,批处理大小为50,并且没有超出随机的初始化权值。因此,我们减小了图像大小以降低复杂性,减小了批处理大小以更适合数据集大小,并使用了权重初始化技术来改善学习。 我们认为,CNN的学习能力不佳与超级参数欠佳有关,因为这种损失是不稳定的,并且会表明学习率可能过于激进,这将导致学习率上下波动,而不是以恒定的速率下降。

REFERENCES


  1. A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenetclassification with deep convolutional neural networks,” inAdvances in Neural Information Processing Systems 25,F. Pereira, C. J. C. Burges, L. Bottou, and K. Q.Weinberger, Eds. Curran Associates, Inc., 2012, pp. 1097–1105.[Online]. Available: http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf5 ↩︎ ↩︎

  2. J.Donovan,“Auto-trashsortsgarbageautomati-callyatthetechcrunchdisrupthackathon.”[Online].Available:https://techcrunch.com/2016/09/13/auto-trash-sorts-garbage-automatically-at-the-techcrunch-disrupt-hackathon/ ↩︎

  3. G.Mittal,K.B.Yagnik,M.Garg,andN.C.Krishnan, “Spotgarbage: Smartphone app to detect garbageusingdeeplearning,”inProceedings of the 2016ACM International Joint Conference on Pervasive andUbiquitous Computing, ser. UbiComp ’16.New York,NY, USA: ACM, 2016, pp. 940–945. [Online]. Available:http://doi.acm.org/10.1145/2971648.2971731 ↩︎

  4. S. Zhang and E. Forssberg, “Intelligent liberation and classifica-tion of electronic scrap,”Powder technology, vol. 105, no. 1, pp.295–301, 1999. ↩︎

  5. C. Liu, L. Sharan, E. H. Adelson, and R. Rosenholtz, “Exploringfeatures in a bayesian framework for material recognition,” inComputer Vision and Pattern Recognition (CVPR), 2010 IEEEConference on. IEEE, 2010, pp. 239–246. ↩︎

  6. K. He, X. Zhang, S. Ren, and J. Sun, “Delving deep intorectifiers: Surpassing human-level performance on imagenet clas-sification,” inThe IEEE International Conference on ComputerVision (ICCV), December 2015. ↩︎

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!