深度剖析Pinterest的视觉搜索（Visual Search at Pinterest）

本文共12000个字，预计阅读时长：30分钟。

一、摘要：

如Pinterest一样，利用一些便利的分布式计算平台，如Amazon Web Services及其他开源工具，少量研发人员也可以使用非专有工具构建大规模视觉搜索系统；
利用递增特征更新（Incremental Fingerprinting Service）和两步式目标检测和定位（Two-step Object Detection and Localization），能有效提高搜索准确性，降低研发和部署的成本；
视觉搜索特征在图片推荐系统中，能够有效提高推荐的准确度；

二、公司情况

1.公司简介

Pinterest是一家图片分享类社交网站，可以让用户利用其平台作为个人创意及项目工作所需的视觉探索工具，页可以按主题分类添加和管理自己的图片收藏，并与好友分享。其使用的网站布局为瀑布流布局。

2.商业模式

Pinterest在变现的过程中，尝试过多种商业模式，目前最主要的是广告导购。在产品的瀑布流中，展示合作品牌有品位的pin，作为内容的一部分，直接展示给用户，点击这类pin，直接打开对应的购物、品牌网站。

3.产品数据

月活超1.7亿用户，男女比3:7。内容数量超过750亿条数。75%以上的用户行为来自移动端。

三、Pinterest的视觉搜索

1.视觉搜索简介

视觉搜索，又称基于内容的图像检索，是最近的热门研究领域。这个领域主要由爆炸性增长的在线图片和搜索引擎的流行所驱动。其中，Google Goggles（Google的照相搜索App）、Google Similar Images（Google 的相似图片搜索）和Amazon Flow（Amazon的增强现实购物应用）是几个商业化视觉搜索系统中较为成功的案例。虽然在构建网络规模的视觉搜索系统上已经取得了重要的进展，但是很少有文章来介绍这些商业案例中，如何部署端对端（end-to-end）的框架。这其中的原因，一部分是因为真实的视觉搜索系统的复杂性，另一部分是因为大公司的商业考虑——对核心搜索技术的保密。

深度剖析Pinterest的视觉搜索（Visual Search at Pinterest）

图1：Pinterest的Similar Looks：通过目标检测技术来定位产品，比如包和西子。在这个原型中，用户点击自动标记的目标来查看视觉相似的产品。

在Pinterest上部署一个商业化视觉搜索引擎，面临着两个主要挑战。

控制人力和计算资源的开发成本。比如，当想要处理一个巨大、连续增长的图片集合时，特征计算将会变得很昂贵。并且，当工程师不断的试验新特征去部署系统时，可扩展性和合理花费就变成至关重要。
作为一个商业应用，评判成功的标准是它带给用户的效益（比如，提高了用户的参与度）和它自身的研发、维护成本。

因此在最后，Pinterest研发的搜索引擎通过A/B测试接受真实用户的高频度测试。

这篇文章将介绍，Pinterest如何面对前面两个挑战，并去发布、部署一个商业视觉搜索系统，做了两个主要的成果。

成果一，在研发视觉搜索时，通过使用广泛使用的工具来实现可拓展性和控制成本。这些工具可以帮助一个小工程师团队去实现自己的想法。在2.1节中，将介绍简单、务实的方法来加速和提高目标检测和定位的准确性。这个方法在Pinterest中开发了丰富的可用的大数据资源，并且减弱任务难度（和计算花费）。
- 首先，事先将目标进行检测（非图像识别标签，文本标签、用户聚集方式等），将目标分类到一个特定的分类中；
- 然后，在特定的分类中，计算高精准度的图像特征检测。
在2.2节中，在最好的广泛利用的工具中，建立分布式索引和搜索基础。

成果二，把部署的视觉搜索基础的成果利用在了两个产品应用中：Related Pins 和 Similar Looks。在每个应用中，使用应用特有的数据集来评估每个独立视觉搜索模块（目标检测，相似性的特征表示）的有效性。在部署端对端系统后，使用A/B tests来检测现实中用户的参与度。

深度剖析Pinterest的视觉搜索（Visual Search at Pinterest）

图2：Related Pins是一个产品特征，基于Pinterest的现有图片展示推荐内容。

Related Pins（图2）可以基于用户正在浏览的Pins来推荐Pins。这些推荐主要来自于用户、Borads和Pins的“策展图”。但是，那些长尾的较少被翻阅的图片却没有推荐。利用视觉搜索，为Pinterest上的几乎所有图片都创建了推荐。
第二个应用，Similar Looks（图1）是在测试时，特别是测试时尚Pins时发现的经验。它可以允许用户对图片内感兴趣的区域（比如，一个包，或一双鞋）进行一个视觉查询，然后为用户辨别出一个视觉相似的Pins。与传统视觉搜索不同的是，Similar Looks不再使用一个完整的图片，这里的视觉相似性是通过查询中的局部目标和数据库中的图片对比来进行计算的。

Pinterest的经验表明：

利用大数据的目标检测和定位方法，可以达到一个可观的召回率和准确率（误报率不大于1%）；
利用来自VGG模型的特征表达极大地提升了在Pinterest基准数据库的视觉搜索准确性；
当使用视觉搜索来增强Related Pins和Similar Looks应用时，用户活跃度增加。

2.Pinterest的视觉搜索结构

Pinterest是一个视觉标签工具来帮助用户发现和储存创意。用户pin图片到Borads中，这一过程对一个特定的主题或话题创建了集合。这个「用户—Borads—图片」图谱包含丰富的关于图片和它们语义关系的信息。比如当一个图片被Pin到一个Borad中，表明在这个新borad和其他所有包含这个图片的board有一个“策展联系”。通过这些描述图片、图片的borad和其用户的联系，相关的大数据（比如，图片的注释）能够不断增长。

因为图片是每个Pin的焦点，所以视觉特征在为用户发现兴趣，灵感和相关内容上起到了非常重要的作用。在这一章中，将介绍如何端对端执行一个视觉搜索系统，来检索Pinterest中的数十亿图片。Pinterest致力于研发真实视觉搜索系统的挑战——如何平衡经费限制和快速实现的需要。

这里将要介绍：

从图片中抽取的特征；
为了分布式和增量式特征提取物所搭建的基础；
实时视觉搜索服务；

2.1. 图像的表现及特征

从图片中抽取不同类型的特征，包括：位置特征和“深度特征”（深度特征从深度卷积神经网络（CNNs）的活性中间层中提取）。研究基于AlexNet和VGG的结构，来提取fc6和fc8层的特征表现。这些特征为了有效地表现被二值化，并且用汉明距离（Hamming Distance）进行比较。使用开源的Caffe架构，在多GPU机器上来训练和推算的CNNs。

这套系统也被用来从图像中抽取显著图片颜色。显著颜色是由图像内的第一检测的显著区域计算而来，然后应用k均值聚类法来计算显著像素的实验室像素值，其中，聚类中心和权值被储存为图像的颜色特征。

两步式目标检测和定位

与Pinterest的特别相关的特征是有确切目标分类的存在，比如，包，鞋子，手表，礼服，和太阳镜。考虑到在Pinterest图片中有海量的短文本标签，而采取两步式检测过程。当图片被多次pin到不同的borad中，pin的总体描述和borad的标题提供了大量关于图片的信息。在Pinterest中，文本处理通道从原始文本中为图像抽取了相关的注释，产生了与每个图像有关的短文本。

深度剖析Pinterest的视觉搜索（Visual Search at Pinterest）

图3：并不是运用所有的目标识别探测模型来识别所有的图像，第一步会先用文本元数据来预测图像分类，然后运用对应的目标检测模型来识别图像。

利用这些注释来确定运行哪一个目标检测器。在图1中，首先确定这个图像可能是包含包和鞋子，然后继续用图像目标检测器来检测这些目标种类。经过第一步的目标预分类，只需要在图像上运行一个最可能吻合的目标检测器。这个过滤步骤减小了大量的计算成本，降低了误报率。

对目标检测的最初方法是对基于级联的可变形部分模型（cascading deformable part-based models）的大量优化来实现。这个检测器为每个被检测到的目标输出一个有边界的盒，并从中提取目标的可视化描述。Pinterest最近的工作主要集中在研究基于深度学习的目标探测器的可行性和性能。

试验结果在第4章中，表明了这个系统达到了非常低的误报率（小于1%），这在应用中是必不可少的。这个两步式方法也能并入其他信号到分类中。这种在目标检测和定位时利用文本和视觉信号的方法已经被广泛运用在Web图像检索和分类中。

点击预测

当用户在Pinterest上浏览，他们能通过点击放大到全屏（“close-up”，特写）和随后点击来到内容的站外来源（a click-through，点击通过）来与一个Pin交互。对于每个图像，基于它的视觉特征来预测被打开全屏的概率（CUR）和被点击到站外来源的概率（CTR）。这里训练一个CNN来从图像中学习一个概率映射，关于一个用户打开图片全屏和到达站外来源的概率。CUR和CTR对于应用，比如搜索排序，推荐系统和广告投放都是有用的，在这些应用中经常需要知道哪一张图像更能获取用户的注意力。

CNNs最近成为许多语义预测任务，在涉及视觉输入（包括分类、检测与分割）时的主要方法。训练一个完整的CNN来获取一个好的结果将会是非常耗时间，也需要非常大量的数据。Pinterest将转移学习应用到模型中，通过保留来自其他计算视觉任务训练的模型的低层次的视觉表现。网络的顶层为现在的具体任务进行了细致的调整。这样节省了大量的训练时间，并且利用了更大的库中学习到的视觉特征，而不仅仅只是这次任务。Pinterest使用Caffe来进行这个迁移学习。

深度剖析Pinterest的视觉搜索（Visual Search at Pinterest）

图4：对于CUR预测（左）和CTR预测（右）的ROC曲线。

图4描述了基于CNN方法的接受者操作特征（ROC）曲线和一个基于“传统”计算机视觉途径的基线的对比：一个在词的金字塔直方图（PHOW）中被二值标签训练的支持向量机（SVM），在目标识别数据集（如，Caltech-101）中表现的很好。基于CNN的方法优于基于PHOW的基线，从端对端微调CNN也带来了显著的性能提升。类似的方法也适用于检测上传到Pinterest的色情图像的任务。

2.2.指纹增量服务

大多数的视觉应用依靠于拥有一个完整的视觉特征集合，这个集合以适合于批量处理的格式存储。保持这个数据的更新是具有挑战性的，因为Pinterest的集合包含超过十亿独特的图像，增量地更新特性集是至关重要的，并且尽可能避免不必要的重新计算。

这里建立了一个系统，叫做指纹增量服务，这个服务为Pinterest所有的图像计算特征，通过使用在Amazon EC2上的工作群。它主要在两个场景下逐步更新特征集合：

上传到Pinterest上的新图片
特征迭代（工程师增加／修改特征）

方法是将图片集划分到由上传时间确定的时代（epochs）组中，并且为每个特性类型（全面的，本地的，深度特征）的每个版本维护一个单独的特性存储区。这些特征类型被大量存贮在Amazon S3，以特征种类，版本，时间来组织管理。当数据完全更新时，每一个特征存储都会包含所有的时代组。在每一次运算中，系统发现每个特征的缺失时代组，并且把排队工作变成一种分布式队列来填充那些时代组。

这种存储策略能够如流水一般递增升级。每一天，一个带有当天唯一上传时间的新特征组被加入到图片集合中，然后为那个日期生成缺失的特征。因为老图像不会改变，所以他们的特征也不会被重新计算。如果生成某个特征的算法或者参数被修改了，或者如果一个新的特征被增加，那么一个新的特征存储将开始工作，并且所有的年代组会为修改／新增特征重新计算。不改变的特征不受影响。

将这些特性复制到各种表单中，以方便其他工作访问：这些特征会合并，组成一个包含一张图片所有可使用特征的指纹（fingerprint），然后指纹会被复制分享，形成为根据图片特征（MD5 hash）随机访问的排序文件。这些加入的指纹文件会定期地再实现，但是那些昂贵的特征计算只需要每张图片计算一次。

深度剖析Pinterest的视觉搜索（Visual Search at Pinterest）

图5：增量式指纹更新渠道的输出实例。初始运行显示为2014-XX-XX，其中包括在运行之前创建的所有图像。

图5展示了一个增量指纹更新过程的流程图。它包含5个主要工作：

编辑新上传图片特征的列表，并且把它们按日期分组到时代组中。随机将每个时代组划分为大约20万张图像的分类碎片，以限制最终指纹文件的大小。
定义每个特征存储中缺失的时代组，并将工作排队到PinLater（一个分布式队列服务，类似于Amazon SQS）。这个工作被再分为碎片到“工作块”中，调整为这类工作块每个大约花费30分钟来计算。
运行在EC2 instances的自动启动群集，其规模取决于更新的大小。可以使用Spot instances；如果一个instances被终止了，它的工作将在其他的工作块上重新排期。每个工作块的产出都存储到Amazon S3中，并且最终重组成为与原始碎片对应的特征文件。
将独立的特征碎片融合为一个统一的包含每个图像所有可利用特征的指纹文件。
将所有的年代组（联通其他元数据）的指纹融合到一个排序中，分片文件格式允许随机存取（VisualJoins）。

对所有图片所有可利用特征的最初计算，使用了数百个32核机器，花费一天多一点的时间，产生了大约5TB的数据信息。而增量处理新图像的稳态要求仅为5台机器。

2.3.搜索基础

在Pinterest，分布式可视化搜索系统有好几个用例。其中一个用例是发掘相似外表的产品（PInterest Similar Looks），和其他包括近似重复检测和内容推荐。在所有这些应用中，视觉相似结果是通过前一个章节的Visualjoins顶部的分布式索引来计算的。由于每个用例有不同的性能和成本需求，Pinterest的搜索基础被设计成灵活的和可重构的。图6展示了搜索基础的流程图。

深度剖析Pinterest的视觉搜索（Visual Search at Pinterest）

图6：分布式视觉搜索渠道的流程图。

第一步，用Hadoop从Visualjoins创造了分布式图像索引。每台机器包含索引（和特征），这些索引和整个图片集合的随机分散的子集相关。这里使用了两类索引：

第一种是基于磁盘（和部分内存缓存）的token index，将每个矢量量化特性（比如，视觉词汇token）与图像文档ID的展示列表关联起来。这与基于文本的图像检索系统类似，只是文本被视觉标记所替代。
第二个索引是一个视觉特性和元数据的内存存储，比如，图像注释，以及从【用户-board-图像】图计算的“主题向量”。

第一类适合于快速（但模糊）查表，第二类适合于更精确（但较慢）排序优化。

每一台机器运行一个leaf排序器，用来从使用视觉特征的索引中计算k最近邻（k-nearest neighbors），然后使用额外的元数据重新排序顶部的候选数据。在某些情况下，leaf排序器跳过token索引，直接用类似KNN方法从特征树索引中检索k最近邻。另一台机器上的一个根排序器将会从每个leaf排序器取回最高分数的结果，并且将这些结果融合，然后返还给用户。为了处理实时特征提取器生成的新指纹，Pinterest有一个可视化搜索渠道的线上版本，其中有一个非常相似的过程。即使在线上版本中，给定的指纹依然会在预生成的索引上查询。

3.应用1:RELATED PINS

Pinterest视觉搜索渠道的其中一个首批应用是在一个叫做Related Pins的推荐产品，这个应用中在用户正在浏览一个Pin时推荐给其他可能感兴趣的图像。传统上，使用了结合用户创建的【图像-Board】的关系和基于内容的信号来产生这些建议。然而，这套系统不能为不流行的pins（没有很多联系的pins）和新创建的pins（可能还没有创建索引）提供推荐。结果，Pinterest上有6%的图像只有极少或者没有推荐。对于这些图像，使用视觉搜索来实时生成Visual Related Pins（图7）。

深度剖析Pinterest的视觉搜索（Visual Search at Pinterest）

图7：在加入视觉相关搜索之前和之后的对比。

Visual Related Pins的第一步，是用从所有存在的Pinterest图像建立的本地token索引，来检测是否有重复或极相似的查询图像。具体地说，给定一个查询图像，系统返回一组图像，这些图像是同一个图像的变化，但通过一些转换发生了变化，比如，调整大小、裁剪、旋转、平移、添加、删除和修改视觉内容的次要部分。由于结果图像看起来与查询图像完全相同，所以它们的建议很可能与查询图像相关。然而，在大多数情况下，发现有很多图像没有检测到接近重复的图像，或者相似的图像没有足够的推荐。因此，Pinterest的注意力主要集中在基于CNN特征的索引中产生的视觉搜索结果检索。

搜索相关性的静态评价

最初的视觉相关Pins实验利用来自AlexNet模型的原始和微调版本在它的搜索基础中。然而，更深层次CNN架构分类的成功来自各种CNN模型功能集的性能。

为了对视觉搜索进行评估，产品使用与图像相关联的图像注释作为关联性的指标。除了人工评价外，这种方法通常用于视觉搜索系统的离线评价。在这项工作中，Pinterest使用与每个图像相关联的顶级文本查询作为标签。用Pinterest Search查询1000次，每次3000个图像，获得了大约160万个独特图像的数据集。用生成它的查询关键词标记每个图像。如果两个图像共享一个标签，则可视搜索结果与查询图像相关。

利用这个数据集，基于如下几个特征，为推荐系统计算精确的k最近邻值：

从普通的AlexNet模型的fc6层的激活（为ILSVRC的前期训练），这个AlexNet模型的fc6层激活微调到识别超过3000个Pinterest产品品类；
一个普通GoogleNet的loss3/classifier的激活；
以及一个普通VGG16层模型的fc6层的激活。

表1：视觉搜索的相关性

深度剖析Pinterest的视觉搜索（Visual Search at Pinterest）

表1展示了这些模型的p@5和p@10表现，视觉搜索服务的平均基于CPU的延迟，其中包括查询图像的特征提取和检索。使用基于GPU的推算大大减少了这些延迟。当使用VGG16层模型的FC6层特征，对比预估数据集在精度上有极大的提升，并且提供了一个可接受的延迟。

线上体验

Pinterest建立了一个系统来检测只有很少推荐的新Pins，查询视觉搜索系统，并在HBase中存储，在Pin被点击放大时提供服务。

对于这个应用，当大多数共享一个共同类别时，会显示视觉搜索结果（category conformity thresholding）。选择以这种方式进行覆盖，以获得更高的精度，以避免在对视觉搜索结果的信心相对较低时使用它。

最初对10%合适的实时通信量进行了试验；当用户点开一个Pin时，却没有足够的推荐内容。这类用户将会进入两个组中：实验组（用视觉搜索结果取代了related pin的部分）、控制组（不做处理）。数据将计算在related pins模块中，总repin行为的变化量。

通过只为6%的请求展示视觉相似的pin，其他给出空的推荐，数据发现在related pins的总repin行为增加了2%。同时产品也做了其他的实验，将所有使用深度CNN特征相似性的推荐进行排序，在repin和点击参与率方面提高了10%。

4.应用2: SIMILAR LOOKS

女装时尚是Pinterest上最受欢迎的种类之一。然而，这类pin有很大一部分比例没有直接引导用户去产生购物的能力，因此并没有导购能力。在这里，为了让这些pin具有导购能力，有两个挑战：

许多pin的标签仅仅有简短的描述，比如「街头时尚」的服饰，这类pin通常链接一个没有对图像中的目标特征进行多少描述的网站；
pin图像通常包含多个目标（比如，一个女人走在街道上，提着豹纹包，穿着靴子，戴着墨镜，穿着超短牛仔裤，等等）。

一个用户查看某个pin，可能对其中的包特别感兴趣，然而其他用户可能会想要购买那个墨镜。

用户研究表明这种事情是非常常见的，数据指出，相比其他种类，在女装时尚种类中，用户点击图片看源网站的概率要更小。

为了解决这个问题，Pinterest做出了一个叫做“Similar Looks”的产品，它可以对时尚目标定位和分类（图9）。使用目标识别技术来检测Pinterest图像中的目标，比如，包，鞋，裤子，手表，等等。从这些目标中，抽取出视觉和语义的特征，来生成产品推荐（“Similar Looks”）。一个用户将会通过一个在Pin上的目标中的红色斑点发现这些推荐（图1）。点击红色斑点，能够获取一个在视觉特征上非常相似的pin的瀑布流（比如，蓝色连衣裙的其他视觉相似图片）。

图9：一旦用户点击了红点，系统会展示对该目标具有相似外观的产品。

相关工作

目前，在学术界和工业中，已经有将应用视觉搜索技术到一些“软产品”上。Like.com, Google Shopping，和Zappos（亚马逊旗下）都是一些著名的计算视觉来进行时尚推荐的应用。Baidu和Alibaba最近也上线了视觉搜索系统来解决相似的问题。在基于视觉基础的时尚推荐搜索也有大量的提升。这类方式证明，为数千万Pinterest用户提供基于目标的视觉搜索系统的可行性，以及展示了一个关于被检测目标的交互搜索方式。

目标定位的静态评价

评价Similar Looks产品的第一步是调查目标定位和检测能力（即，位置准确性和识别准确性）。Pinterest选择专注于时尚目标，即因为上述的商业需求，也因为“软产品”往往具有具体的视觉形象（比如，短裤，包，墨镜，等等）。

通过从Pinterest的女装时尚种类中随机抽样一组图片来收集评价数据，并且在9个大类（鞋子，连衣裙，墨镜，包，手表，裤子，短裤，比基尼，耳环）中对2399个时尚目标进行人工打标。数据显示，鞋子，包，连衣裙和裤子在评价数据中是4个最大的分类。表2是时尚目标的分布，也是来自基于文本筛选的，基于图片检测的，和融合方法（先使用图片筛选，再使用目标检测）的图片检测准确率。

表2:目标检测／分类准确度（%）

深度剖析Pinterest的视觉搜索（Visual Search at Pinterest）

正如先前所说的，基于文本的方法应用人工创造的规则，比如，通用的描述，来将Pinterest大数据连接到图像中（这类称为weak lable）。比如，一个图片被注释：“春季时尚，tote（一个包的品牌）和花”，可能被分类为一个“包”，并且如果图片确实包含一个“包”的目标标签，这会被考虑成是一个确定的事例。在基于图片的评价中，计算了预测对象包围盒和同一类型的标记对象包围盒之间的交集，并计算了一个大于0.3或大于等于的交集作为一个正匹配。

表2表明了，无论是文本注释筛选，还是单独的目标定位，都不足以完成检测任务，由于二者相对较高的错误率（分别为6.7%和2.5%）。不出意料地，二者结合的方法极大的减少了错误率到1%以下。

具体来说，看到那些种类，比如眼镜，文本注释是不足够的，但是基于视觉分类却很优秀（可能是由于眼镜特殊的视觉形状）。对于其他种类，比如连衣裙，这就恰好相反（视觉搜索的错误率太高，12.3%，由于该种类经常被遮挡，以及样式的高度多样性，但是加入了文本筛选就显著的改变了结果）。除了减少需要用对象分类器处理的图像数量外，对于几个对象类（鞋子、包、裤子），数据显示文本过滤对于实现可接受的错误率（1%以下）是至关重要的。

线上体验

系统从Pinterest图片的分组中定义了超过八千万的“可点击”的目标。一个可点击的红点被放置在被检测出的目标上。一旦用户点击这个点，视觉搜索系统取回一个带有同一目标种类其他实体的pins的集合，然后用请求到的目标的视觉相似度进行排序。产品对一小部分Pinterest的用户发布了这一功能，收集在一个月内她们的参与度。具体来说，数据显示小点的点击通过率（CTR），在视觉搜索系统上的CTR，并且比较了在现有Related Pins推荐的参与度和Similar Looks中的参与度。

深度剖析Pinterest的视觉搜索（Visual Search at Pinterest）

图10：Similar Looks实验的参与率

图10表明，平均下，在某一天，12%的用户在看见一个带有小点的pin，点击了这个小点。这些用户愿意继续点击平均0.55个Similar Looks的结果。虽然这组数据很鼓舞人心，但是当比较所有在pin的点击大图的相关内容的参与度时（总和了Related PIns和Similar Looks的参与度作为变量组，只使用Related Pins的参与度作为控制组），Similar Looks事实上降低了在pin点击大图时的总体参与度，降低了4%。在新奇效果结束后，数据显示在红点上的CTR上的一个逐渐降低，最终稳定在10%左右。

为了测试Similar Looks的相关性，是独立于新UI（可点击点的目标点），产品进行了一组实验，直接将Similar Looks的结果混合到现有的Related Pins中。这是一个方式去直接计算是否用户发现视觉相似推荐是比现存在的非视觉推荐更相关。在检测到一个目标的pins上，这个实验增加了在Related Pins总体的参与度（repins和放大图片）达到5%。虽然初期为这个实验设置了一个初始的静态混合比例（每三个非视觉结果对一个视觉相似结果），但是稍后使用用户点击数据动态调整了这一比例。

5.总结和未来的工作

Pinterest证明了，利用可用的分布式计算平台，比如Amazon Web Services和开源工具，少数工程师或学术实验室可以使用非专有工具组合构建大规模视觉搜索系统。这篇文章表明，端对端的视觉搜索渠道，包含递增特征更新和两步式目标检测和定位方式，提高了搜索准确性，降低了研发和部署成本。线上产品经验表明，视觉搜索特征可以增加用户参与度。

Pinterest计划在接下来的领域中进一步提升系统。

对于在线上视觉搜索系统环境下，基于目标检测方式的CNN的表现和效率感兴趣；
对Pinterest的“策展图”来增强视觉搜索相关性的影响力感兴趣；
想尝试用于视觉搜索的交互式交互界面。

图像识别实例

深度剖析Pinterest的视觉搜索（Visual Search at Pinterest）

图11：以鞋为对象的搜索结果示例。检测到的对象的边界自动突出显示。顶层图像是查询图像。

深度剖析Pinterest的视觉搜索（Visual Search at Pinterest）

图12：以包为目标的检测和定位结果样本。[绿色：人工打标，蓝色：识别结果]

深度剖析Pinterest的视觉搜索（Visual Search at Pinterest）

图13：以鞋为目标的检测和定位结果样本。

深度剖析Pinterest的视觉搜索（Visual Search at Pinterest）

图13：以连衣裙为目标的检测和定位结果样本。

6.参考文献

Jing, Y., Liu, D., Kislyuk, D., Zhai, A., Xu, J., Donahue, J., & Tavel, S. (2015, August). Visual search at pinterest. In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1889-1898). ACM.

爱盈利-运营小咖秀(www.aiyingli.com) 始终坚持研究分享移动互联网App运营推广经验、策略、全案、渠道等纯干货知识内容；是广大App运营从业者的知识启蒙、成长指导、进阶学习的集聚平台；

想了解更多移动互联网干货知识，请关注微信公众号运营小咖秀（ID: yunyingshow）

微信扫码登录

绑定手机号

注册

忘记密码

绑定手机号

深度剖析Pinterest的视觉搜索（Visual Search at Pinterest）

评论

相关文章推荐

会员等级与权益该如何定义？

总结文 | 产品方法论体系完整篇，给你更全面的指导

电影站做CPA独门技法打破常规实现高效引爆流量

《智龙迷城》成为首款年收入破10亿美元的手游

GungHo近期公布了2013年财报，其中《智龙迷城》占据了2013年GungHo收入的91%。据官方数据透露，AppStore收入达到6.5亿美元，GooglePlay突破了7.75亿美元。换句话说，《智龙迷城》成为了有史以来首款年收入破10亿美元....

微博向左，推特往右

2018年第1季度中国手机银行客户交易规模为66.89万亿元，加强手机银行APP迭代升级

友情链接

微信扫码登录

绑定手机号

注册

忘记密码

绑定手机号

评论

相关文章推荐

会员等级与权益该如何定义？

总结文 | 产品方法论体系完整篇，给你更全面的指导

电影站做CPA独门技法 打破常规 实现高效引爆流量

《智龙迷城》成为首款年收入破10亿美元的手游

GungHo近期公布了2013年财报，其中《智龙迷城》占据了2013年GungHo收入的91%。据官方数据透露，AppStore收入达到6.5亿美元，GooglePlay突破了7.75亿美元。换句话说，《智龙迷城》成为了有史以来首款年收入破10亿美元....

微博向左，推特往右

2018年第1季度中国手机银行客户交易规模为66.89万亿元，加强手机银行APP迭代升级

友情链接

电影站做CPA独门技法打破常规实现高效引爆流量