另类zozozozozo交,国产区一区二区三区高清免费

Pinterest的視覺(jué)搜索,pinterest搜索圖

2022-05-01

770

Pinterest的視覺(jué)搜索,pinterest搜索圖Pinterest的視覺(jué)搜索閱讀背景：·為了發(fā)展目前項(xiàng)目的視覺(jué)搜索模塊，對(duì)Pinterest的Visual Search進(jìn)行研究；·筆者非CS／math相關(guān)出生，對(duì)于CNN與ML為初學(xué)者，若有不當(dāng)之處，請(qǐng)各位讀者指出斧正。文獻(xiàn)總結(jié)：1.利用一些便于使用的分布式計(jì)算平......

Pinterest的視覺(jué)搜索,pinterest搜索圖

Pinterest的視覺(jué)搜索

閱讀背景：

·為了發(fā)展目前項(xiàng)目的視覺(jué)搜索模塊，對(duì)Pinterest的Visual Search進(jìn)行研究；

·筆者非CS／math相關(guān)出生，對(duì)于CNN與ML為初學(xué)者，若有不當(dāng)之處，請(qǐng)各位讀者指出斧正。

文獻(xiàn)總結(jié)：

1.利用一些便于使用的分布式計(jì)算平臺(tái)，比如Amazon Web Services和開(kāi)源工具，少量研發(fā)人員也可以使用非專(zhuān)有工具組合構(gòu)建大規(guī)模視覺(jué)搜索系統(tǒng)；

2.利用遞增特征更新（Incremental Fingerprinting Service）和兩步式目標(biāo)檢測(cè)和定位（Twostep Object Detection and Localization），能夠有效提高搜索的準(zhǔn)確性，并且降低研發(fā)和部署的成本；

3.視覺(jué)搜索特征在圖片推薦系統(tǒng)中，能夠有效提高推薦的準(zhǔn)確度；

1.介紹

視覺(jué)搜索，又稱基于內(nèi)容的圖像檢索，是最近的熱門(mén)研究領(lǐng)域。這個(gè)領(lǐng)域主要由爆炸性增長(zhǎng)的在線圖片和搜索引擎的流行所驅(qū)動(dòng)。其中，Google Goggles（Google的照相搜索App）、Google Similar Images（Google的相似圖片搜索）和Amazon Flow（Amazon的增強(qiáng)現(xiàn)實(shí)購(gòu)物應(yīng)用）是幾個(gè)商業(yè)化視覺(jué)搜索系統(tǒng)中較為成功的案例。雖然在構(gòu)建網(wǎng)絡(luò)規(guī)模的視覺(jué)搜索系統(tǒng)上已經(jīng)取得了重要的進(jìn)展，但是很少有文章來(lái)介紹這些商業(yè)案例中，如何部署端對(duì)端（endtoend）的框架。這其中的原因，一部分是因?yàn)檎鎸?shí)的視覺(jué)搜索系統(tǒng)的復(fù)雜性，另一部分是因?yàn)榇蠊镜纳虡I(yè)考慮——對(duì)核心搜索技術(shù)的保密。

圖1：Similar Looks：我們應(yīng)用目標(biāo)檢測(cè)技術(shù)來(lái)定位產(chǎn)品，比如包和西子。在這個(gè)原型中，用戶點(diǎn)擊自動(dòng)標(biāo)記的目標(biāo)來(lái)查看視覺(jué)相似的產(chǎn)品。

在Pinterest上部署一個(gè)商業(yè)化搜索引擎，我們面臨著兩個(gè)主要挑戰(zhàn)。

·作為一個(gè)小公司，我們需要控制人力和計(jì)算資源的開(kāi)發(fā)成本。比如，當(dāng)你想要處理一個(gè)巨大、連續(xù)增長(zhǎng)的圖片集合時(shí)，特征計(jì)算將會(huì)變得很昂貴。并且，當(dāng)工程師不斷的試驗(yàn)新特征去部署系統(tǒng)時(shí)，可擴(kuò)展性和合理花費(fèi)就變成至關(guān)重要。

·作為一個(gè)商業(yè)應(yīng)用，評(píng)判成功的標(biāo)準(zhǔn)是它帶給用戶的效益（比如，提高了用戶的參與度）和它自身的研發(fā)、維護(hù)成本。

因此在最后，我們所研發(fā)的搜索引擎將需要通過(guò)A/B tests接受真實(shí)用戶的高頻度測(cè)試。

這篇文章將介紹，我們?nèi)绾蚊鎸?duì)前面兩個(gè)挑戰(zhàn)，并去發(fā)布、部署一個(gè)商業(yè)視覺(jué)搜索系統(tǒng)。我們做了兩個(gè)主要的成果。

·成果一，在研發(fā)視覺(jué)搜索時(shí)，我們通過(guò)使用廣泛使用的工具來(lái)實(shí)現(xiàn)可拓展性和控制成本。這些工具可以幫助一個(gè)小工程師團(tuán)隊(duì)去實(shí)現(xiàn)自己的想法。Section 2.1介紹我們簡(jiǎn)單、務(wù)實(shí)的方法來(lái)加速和提高目標(biāo)檢測(cè)和定位的準(zhǔn)確性。這個(gè)方法在Pinterest中開(kāi)發(fā)了豐富的可用的大數(shù)據(jù)資源。我們使用了一個(gè)巧的方法來(lái)減弱任務(wù)難度（和計(jì)算花費(fèi)）。

·首先，事先將目標(biāo)進(jìn)行檢測(cè)，確定到一個(gè)多類(lèi)別的分類(lèi)中；

·然后，我們只需要計(jì)算（昂貴的）高精準(zhǔn)度的圖像目標(biāo)檢測(cè)。

·Section 2.2介紹我們?cè)谧詈玫膹V泛利用的工具中，建立分布式索引和搜索基礎(chǔ)。

·成果二，把我們部署的視覺(jué)搜索基礎(chǔ)的成果利用在了兩個(gè)產(chǎn)品應(yīng)用中：Related Pins和Similar Looks。在每個(gè)應(yīng)用中，我們使用應(yīng)用特有的數(shù)據(jù)集來(lái)評(píng)估每個(gè)獨(dú)立視覺(jué)搜索模塊（目標(biāo)檢測(cè)，相似性的特征表示）的有效性。在部署端對(duì)端系統(tǒng)后，我們使用A/B tests來(lái)檢測(cè)現(xiàn)實(shí)中用戶的參與度。

圖2：Related Pins是一個(gè)產(chǎn)品特征，基于Pinterest的現(xiàn)有圖片展示推薦內(nèi)容。

·Related Pins（圖2）可以基于用戶正在瀏覽的Pins來(lái)推薦Pins。這些推薦主要來(lái)自于用戶、Borads和Pins的“策展圖”。但是，那些長(zhǎng)尾的較少被翻閱的圖片卻沒(méi)有推薦。利用視覺(jué)搜索，我們?yōu)镻interest上的幾乎所有圖片都創(chuàng)建了推薦。

·第二個(gè)應(yīng)用，Similar Looks（圖1）是在測(cè)試時(shí)，特別是測(cè)試時(shí)尚Pins時(shí)發(fā)現(xiàn)的經(jīng)驗(yàn)。它可以允許用戶對(duì)圖片內(nèi)感興趣的區(qū)域（比如，一個(gè)包，或一雙鞋）進(jìn)行一個(gè)視覺(jué)查詢，然后為用戶辨別出一個(gè)視覺(jué)相似的Pins。與傳統(tǒng)視覺(jué)搜索不同的是，Similar Looks不再使用一個(gè)完整的圖片，這里的視覺(jué)相似性是通過(guò)查詢中的局部目標(biāo)和數(shù)據(jù)庫(kù)中的圖片對(duì)比來(lái)進(jìn)行計(jì)算的。據(jù)我們所知，這是第一篇商業(yè)化視覺(jué)搜索系統(tǒng)中利用目標(biāo)檢測(cè)和定位的文獻(xiàn)。

我們的經(jīng)驗(yàn)表明：

·利用大數(shù)據(jù)的目標(biāo)檢測(cè)和定位方法，可以達(dá)到一個(gè)可觀的檢測(cè)率和極小的誤報(bào)率（不大于1%）；

·利用來(lái)自VGG模型的特征表達(dá)極大地提升了在Pinterest基準(zhǔn)數(shù)據(jù)庫(kù)的視覺(jué)搜索準(zhǔn)確性；

·當(dāng)使用視覺(jué)搜索來(lái)增強(qiáng)Related Pins和Similar Looks應(yīng)用時(shí)，我們觀察到用戶參與度巨大的增加。

2.Pinterest的視覺(jué)搜索結(jié)構(gòu)

Pinterest是一個(gè)視覺(jué)標(biāo)簽工具來(lái)幫助用戶發(fā)現(xiàn)和儲(chǔ)存創(chuàng)意。用戶pin圖片到Borads中，這一過(guò)程對(duì)一個(gè)特定的主題或話題創(chuàng)建了集合。這個(gè)「用戶—Borads—圖片」圖譜包含豐富的關(guān)于圖片和它們語(yǔ)義關(guān)系的信息。比如當(dāng)一個(gè)圖片被Pin到一個(gè)Borad中，表明在這個(gè)新borad和其他所有包含這個(gè)圖片的board有一個(gè)“策展聯(lián)系”。通過(guò)這些描述圖片、圖片的borad和其用戶的聯(lián)系，相關(guān)的大數(shù)據(jù)（比如，圖片的注釋?zhuān)┠軌虿粩嘣鲩L(zhǎng)。

因?yàn)閳D片是每個(gè)Pin的焦點(diǎn)，所以視覺(jué)特征在為用戶發(fā)現(xiàn)興趣，靈感和相關(guān)內(nèi)容上起到了非常重要的作用。在這一章中，我們介紹如何端對(duì)端執(zhí)行一個(gè)視覺(jué)搜索系統(tǒng)，來(lái)檢索Pinterest中的數(shù)十億圖片。我們致力于研發(fā)真實(shí)視覺(jué)搜索系統(tǒng)的挑戰(zhàn)——如何平衡經(jīng)費(fèi)限制和快速實(shí)現(xiàn)的需要。

我們將要介紹：

·從圖片中抽取的特征；

·為了分布式和增量式特征提取物所搭建的基礎(chǔ)；

·實(shí)時(shí)視覺(jué)搜索服務(wù)；

2.1.圖像的表現(xiàn)及特征

我們從圖片中抽取不同類(lèi)型的特征，包括：位置特征和“深度特征”（深度特征從深度卷積神經(jīng)網(wǎng)絡(luò)（CNNs）的活性中間層中提?。?。我們研究基于AlexNet和VGG的結(jié)構(gòu)，來(lái)提取fc6和fc8層的特征表現(xiàn)。這些特征為了有效地表現(xiàn)被二值化，并且用漢明距離（Hamming Distance）進(jìn)行比較。我們使用開(kāi)源的Caffe架構(gòu)，在多GPU機(jī)器上來(lái)訓(xùn)練和推算我們的CNNs。

這套系統(tǒng)也被用來(lái)從圖像中抽取顯著圖片顏色。顯著顏色是由圖像內(nèi)的第一檢測(cè)的顯著區(qū)域計(jì)算而來(lái)，然后應(yīng)用k均值聚類(lèi)法來(lái)計(jì)算顯著像素的實(shí)驗(yàn)室像素值，其中，聚類(lèi)中心和權(quán)值被儲(chǔ)存為圖像的顏色特征。

兩步式目標(biāo)檢測(cè)和定位

與Pinterest的特別相關(guān)的特征是有確切目標(biāo)分類(lèi)的存在，比如，包，鞋子，手表，禮服，和太陽(yáng)鏡。我們考慮到在Pinterest圖片中有海量的短文本標(biāo)簽，而采取兩步式檢測(cè)過(guò)程。當(dāng)圖片被多次pin到不同的borad中，pin的總體描述和borad的標(biāo)題提供了大量關(guān)于圖片的信息。在Pinterest中，文本處理通道從原始文本中為圖像抽取了相關(guān)的注釋?zhuān)a(chǎn)生了與每個(gè)圖像有關(guān)的短文本。

圖3：并不是運(yùn)用所有的目標(biāo)識(shí)別探測(cè)模型來(lái)識(shí)別所有的圖像，我們第一步會(huì)先用文本元數(shù)據(jù)來(lái)預(yù)測(cè)圖像分類(lèi)，然后運(yùn)用對(duì)應(yīng)的目標(biāo)檢測(cè)模型來(lái)識(shí)別圖像。

我們利用這些注釋來(lái)確定運(yùn)行哪一個(gè)目標(biāo)檢測(cè)器。在圖1中，我們首先確定這個(gè)圖像可能是包含包和鞋子，然后繼續(xù)用圖像目標(biāo)檢測(cè)器來(lái)檢測(cè)這些目標(biāo)種類(lèi)。經(jīng)過(guò)第一步的目標(biāo)預(yù)分類(lèi)，我們只需要在圖像上運(yùn)行一個(gè)最可能吻合的目標(biāo)檢測(cè)器。這個(gè)過(guò)濾步驟減小了大量的計(jì)算成本，降低了誤報(bào)率。

我們對(duì)目標(biāo)檢測(cè)的最初方法是對(duì)基于級(jí)聯(lián)的可變形部分模型（cascading deformable partbased models）的大量?jī)?yōu)化來(lái)實(shí)現(xiàn)。這個(gè)檢測(cè)器為每個(gè)被檢測(cè)到的目標(biāo)輸出一個(gè)有邊界的盒，并從中提取目標(biāo)的可視化描述。我們最近的工作主要集中在研究基于深度學(xué)習(xí)的目標(biāo)探測(cè)器的可行性和性能。

我們?cè)囼?yàn)結(jié)果在section 4，表明了我們的系統(tǒng)達(dá)到了非常低的誤報(bào)率（小于1%），這在我們的應(yīng)用中是必不可少的。這個(gè)兩步式方法也讓我們能并入其他信號(hào)到分類(lèi)中。這種在目標(biāo)檢測(cè)和定位時(shí)利用文本和視覺(jué)信號(hào)的方法已經(jīng)被廣泛運(yùn)用在Web圖像檢索和分類(lèi)中。

點(diǎn)擊預(yù)測(cè)

當(dāng)用戶在Pinterest上瀏覽，他們能通過(guò)點(diǎn)擊放大到全屏（“closeup”，特寫(xiě)）和隨后點(diǎn)擊來(lái)到內(nèi)容的站外來(lái)源（a clickthrough，點(diǎn)擊通過(guò)）來(lái)與一個(gè)Pin交互。對(duì)于每個(gè)圖像，我們基于它的視覺(jué)特征來(lái)預(yù)測(cè)被打開(kāi)全屏的概率（CUR）和被點(diǎn)擊到站外來(lái)源的概率（CTR）。我們訓(xùn)練一個(gè)CNN來(lái)從圖像中學(xué)習(xí)一個(gè)概率映射，關(guān)于一個(gè)用戶打開(kāi)圖片全屏和到達(dá)站外來(lái)源的概率。CUR和CTR對(duì)于應(yīng)用，比如搜索排序，推薦系統(tǒng)和廣告投放都是有用的，在這些應(yīng)用中我們經(jīng)常需要知道哪一張圖像更能獲取用戶的注意力。

CNNs最近成為許多語(yǔ)義預(yù)測(cè)任務(wù)，在涉及視覺(jué)輸入（包括分類(lèi)、檢測(cè)與分割）時(shí)的主要方法。訓(xùn)練一個(gè)完整的CNN來(lái)獲取一個(gè)好的結(jié)果將會(huì)是非常耗時(shí)間，也需要非常大量的數(shù)據(jù)。我們將轉(zhuǎn)移學(xué)習(xí)應(yīng)用到我們的模型中，通過(guò)保留來(lái)自其他計(jì)算視覺(jué)任務(wù)訓(xùn)練的模型的低層次的視覺(jué)表現(xiàn)。網(wǎng)絡(luò)的頂層為我們現(xiàn)在的具體任務(wù)進(jìn)行了細(xì)致的調(diào)整。這樣節(jié)省了大量的訓(xùn)練時(shí)間，并且利用了更大的庫(kù)中學(xué)習(xí)到的視覺(jué)特征，而不僅僅只是這次任務(wù)。我們使用Caffe來(lái)進(jìn)行這個(gè)遷移學(xué)習(xí)。

圖4：對(duì)于CUR預(yù)測(cè)（左）和CTR預(yù)測(cè)（右）的ROC曲線。

圖4描述了我們基于CNN方法的接受者操作特征（ROC）曲線和一個(gè)基于“傳統(tǒng)”計(jì)算機(jī)視覺(jué)途徑的基線的對(duì)比：一個(gè)在詞的金字塔直方圖（PHOW）中被二值標(biāo)簽訓(xùn)練的支持向量機(jī)（SVM），在目標(biāo)識(shí)別數(shù)據(jù)集（如，Caltech01）中表現(xiàn)的很好。我們的基于CNN的方法優(yōu)于基于PHOW的基線，從端對(duì)端微調(diào)CNN也帶來(lái)了顯著的性能提升。類(lèi)似的方法也適用于檢測(cè)上傳到Pinterest的色情圖像的任務(wù)。

2.2.指紋增量服務(wù)

我們大多數(shù)的視覺(jué)應(yīng)用依靠于擁有一個(gè)完整的視覺(jué)特征集合，這個(gè)集合以適合于批量處理的格式存儲(chǔ)。保持這個(gè)數(shù)據(jù)的更新是具有挑戰(zhàn)性的，因?yàn)槲覀兊募习^(guò)十億獨(dú)特的圖像，增量地更新特性集是至關(guān)重要的，并且盡可能避免不必要的重新計(jì)算。

我們建立了一個(gè)系統(tǒng)，叫做指紋增量服務(wù)，這個(gè)服務(wù)為Pinterest所有的圖像計(jì)算特征，通過(guò)使用在Amazon EC2上的工作群。它主要在兩個(gè)場(chǎng)景下逐步更新特征集合：

·上傳到Pinterest上的新圖片

·特征迭代（工程師增加／修改特征）

我們的方法是將圖片集劃分到由上傳時(shí)間確定的時(shí)代（epochs）組中，并且為每個(gè)特性類(lèi)型（全面的，本地的，深度特征）的每個(gè)版本維護(hù)一個(gè)單獨(dú)的特性存儲(chǔ)區(qū)。這些特征類(lèi)型被大量存貯在Amazon S3，以特征種類(lèi)，版本，時(shí)間來(lái)組織管理。當(dāng)數(shù)據(jù)完全更新時(shí)，每一個(gè)特征存儲(chǔ)都會(huì)包含所有的時(shí)代組。在每一次運(yùn)算中，系統(tǒng)發(fā)現(xiàn)每個(gè)特征的缺失時(shí)代組，并且把排隊(duì)工作變成一種分布式隊(duì)列來(lái)填充那些時(shí)代組。

這種存儲(chǔ)策略能夠如流水一般遞增升級(jí)。每一天，一個(gè)帶有當(dāng)天唯一上傳時(shí)間的新特征組被加入到我們的圖片集合中，然后我們?yōu)槟莻€(gè)日期生成缺失的特征。因?yàn)槔蠄D像不會(huì)改變，所以他們的特征也不會(huì)被重新計(jì)算。如果生成某個(gè)特征的算法或者參數(shù)被修改了，或者如果一個(gè)新的特征被增加，那么一個(gè)新的特征存儲(chǔ)將開(kāi)始工作，并且所有的年代組會(huì)為修改／新增特征重新計(jì)算。不改變的特征不受影響。

我們將這些特性復(fù)制到各種表單中，以方便其他工作訪問(wèn)：這些特征會(huì)合并，組成一個(gè)包含一張圖片所有可使用特征的指紋（fingerprint），然后指紋會(huì)被復(fù)制分享，形成為根據(jù)圖片特征（MD5 hash）隨機(jī)訪問(wèn)的排序文件。這些加入的指紋文件會(huì)定期地再實(shí)現(xiàn)，但是那些昂貴的特征計(jì)算只需要每張圖片計(jì)算一次。

圖5：增量式指紋更新渠道的輸出實(shí)例。初始運(yùn)行顯示為2014XXXX，其中包括在運(yùn)行之前創(chuàng)建的所有圖像。

圖5展示了一個(gè)增量指紋更新過(guò)程的流程圖。它包含5個(gè)主要工作：

·編輯新上傳圖片特征的列表，并且把它們按日期分組到時(shí)代組中。我們隨機(jī)將每個(gè)時(shí)代組劃分為大約20萬(wàn)張圖像的分類(lèi)碎片，以限制最終指紋文件的大小。

·定義每個(gè)特征存儲(chǔ)中缺失的時(shí)代組，并將工作排隊(duì)到PinLater（一個(gè)分布式隊(duì)列服務(wù)，類(lèi)似于Amazon SQS）。這個(gè)工作被再分為碎片到“工作塊”中，調(diào)整為這類(lèi)工作塊每個(gè)大約花費(fèi)30分鐘來(lái)計(jì)算。

·運(yùn)行在EC2 instances的自動(dòng)啟動(dòng)群集，其規(guī)模取決于更新的大小?？梢允褂肧pot instances；如果一個(gè)instances被終止了，它的工作將在其他的工作塊上重新排期。每個(gè)工作塊的產(chǎn)出都存儲(chǔ)到Amazon S3中，并且最終重組成為與原始碎片對(duì)應(yīng)的特征文件。

·將獨(dú)立的特征碎片融合為一個(gè)統(tǒng)一的包含每個(gè)圖像所有可利用特征的指紋文件。

·將所有的年代組（聯(lián)通其他元數(shù)據(jù)）的指紋融合到一個(gè)排序中，分片文件格式允許隨機(jī)存?。╒isualJoins）。

對(duì)所有圖片所有可利用特征的最初計(jì)算，使用了數(shù)百個(gè)32核機(jī)器，花費(fèi)一天多一點(diǎn)的時(shí)間，產(chǎn)生了大約5TB的數(shù)據(jù)信息。而增量處理新圖像的穩(wěn)態(tài)要求僅為5臺(tái)機(jī)器。

2.3.搜索基礎(chǔ)

在Pinterest，分布式可視化搜索系統(tǒng)有好幾個(gè)用例。其中一個(gè)用例是發(fā)掘相似外表的產(chǎn)品（PInterest Similar Looks），和其他包括近似重復(fù)檢測(cè)和內(nèi)容推薦。在所有這些應(yīng)用中，視覺(jué)相似結(jié)果是通過(guò)前一個(gè)章節(jié)的Visualjoins頂部的分布式索引來(lái)計(jì)算的。由于每個(gè)用例有不同的性能和成本需求，我們的搜索基礎(chǔ)被設(shè)計(jì)成靈活的和可重構(gòu)的。圖6展示了搜索基礎(chǔ)的流程圖。

圖6：分布式視覺(jué)搜索渠道的流程圖。

第一步，我們用Hadoop從Visualjoins創(chuàng)造了分布式圖像索引。每臺(tái)機(jī)器包含索引（和特征），這些索引和整個(gè)圖片集合的隨機(jī)分散的子集相關(guān)。這里使用了兩類(lèi)索引：

·第一種是基于磁盤(pán)（和部分內(nèi)存緩存）的token index，將每個(gè)矢量量化特性（比如，視覺(jué)詞匯token）與圖像文檔ID的展示列表關(guān)聯(lián)起來(lái)。這與基于文本的圖像檢索系統(tǒng)類(lèi)似，只是文本被視覺(jué)標(biāo)記所替代。

·第二個(gè)索引是一個(gè)視覺(jué)特性和元數(shù)據(jù)的內(nèi)存存儲(chǔ)，比如，圖像注釋?zhuān)约皬摹居脩鬮oard圖像】圖計(jì)算的“主題向量”。

第一類(lèi)適合于快速（但模糊）查表，第二類(lèi)適合于更精確（但較慢）排序優(yōu)化。

每一臺(tái)機(jī)器運(yùn)行一個(gè)leaf排序器，用來(lái)從使用視覺(jué)特征的索引中計(jì)算k最近鄰（knearest neighbors），然后使用額外的元數(shù)據(jù)重新排序頂部的候選數(shù)據(jù)。在某些情況下，leaf排序器跳過(guò)token索引，直接用類(lèi)似KNN方法從特征樹(shù)索引中檢索k最近鄰。另一臺(tái)機(jī)器上的一個(gè)根排序器將會(huì)從每個(gè)leaf排序器取回最高分?jǐn)?shù)的結(jié)果，并且將這些結(jié)果融合，然后返還給用戶。為了處理我們的實(shí)時(shí)特征提取器生成的新指紋，我們有一個(gè)可視化搜索渠道的線上版本，其中有一個(gè)非常相似的過(guò)程。即使在線上版本中，給定的指紋依然會(huì)在預(yù)生成的索引上查詢。

3.應(yīng)用1:RELATED PINS

Pinterest視覺(jué)搜索渠道的其中一個(gè)首批應(yīng)用是在一個(gè)叫做Related Pins的推薦產(chǎn)品，這個(gè)應(yīng)用中在用戶正在瀏覽一個(gè)Pin時(shí)推薦給其他可能感興趣的圖像。傳統(tǒng)上，我們使用了結(jié)合用戶創(chuàng)建的【圖像Board】的關(guān)系和基于內(nèi)容的信號(hào)來(lái)產(chǎn)生這些建議。然而，這套系統(tǒng)不能為不流行的pins（沒(méi)有很多聯(lián)系的pins）和新創(chuàng)建的pins（可能還沒(méi)有創(chuàng)建索引）提供推薦。結(jié)果，Pinterest上有6%的圖像只有極少或者沒(méi)有推薦。對(duì)于這些圖像，我們使用視覺(jué)搜索渠道來(lái)實(shí)時(shí)生成Visual Related Pins（圖7）。

圖7：在加入視覺(jué)相關(guān)搜索之前和之后的對(duì)比。

Visual Related Pins的第一步，是用從所有存在的Pinterest圖像建立的本地token索引，來(lái)檢測(cè)是否我們有重復(fù)或極相似的查詢圖像。具體地說(shuō)，給定一個(gè)查詢圖像，系統(tǒng)返回一組圖像，這些圖像是同一個(gè)圖像的變化，但通過(guò)一些轉(zhuǎn)換發(fā)生了變化，比如，調(diào)整大小、裁剪、旋轉(zhuǎn)、平移、添加、刪除和修改視覺(jué)內(nèi)容的次要部分。由于結(jié)果圖像看起來(lái)與查詢圖像完全相同，所以它們的建議很可能與查詢圖像相關(guān)。然而，在大多數(shù)情況下，我們發(fā)現(xiàn)有很多圖像沒(méi)有檢測(cè)到接近重復(fù)的圖像，或者相似的圖像沒(méi)有足夠的推薦。因此，我們的注意力主要集中在基于CNN特征的索引中產(chǎn)生的視覺(jué)搜索結(jié)果檢索。

搜索相關(guān)性的靜態(tài)評(píng)價(jià)

我們最初的視覺(jué)相關(guān)Pins實(shí)驗(yàn)利用來(lái)自AlexNet模型的原始和微調(diào)版本在它的搜索基礎(chǔ)中。然而，更深層次CNN架構(gòu)分類(lèi)的成功使我們調(diào)查來(lái)自各種CNN模型功能集的性能。

為了對(duì)視覺(jué)搜索進(jìn)行評(píng)估，我們使用與圖像相關(guān)聯(lián)的圖像注釋作為關(guān)聯(lián)性的指標(biāo)。除了人工評(píng)價(jià)外，這種方法通常用于視覺(jué)搜索系統(tǒng)的離線評(píng)價(jià)。在這項(xiàng)工作中，我們使用與每個(gè)圖像相關(guān)聯(lián)的頂級(jí)文本查詢作為標(biāo)簽。我們用Pinterest Search查詢1000次，每次3000個(gè)圖像，獲得了大約160萬(wàn)個(gè)獨(dú)特圖像的數(shù)據(jù)集。我們用生成它的查詢關(guān)鍵詞標(biāo)記每個(gè)圖像。如果兩個(gè)圖像共享一個(gè)標(biāo)簽，則可視搜索結(jié)果與查詢圖像相關(guān)。

利用這個(gè)數(shù)據(jù)集，我們基于如下幾個(gè)特征，為推薦系統(tǒng)計(jì)算精確的k最近鄰值：

·從普通的AlexNet模型的fc6層的激活（為ILSVRC的前期訓(xùn)練），這個(gè)AlexNet模型的fc6層激活微調(diào)到識(shí)別超過(guò)3000個(gè)Pinterest產(chǎn)品品類(lèi)；

·一個(gè)普通GoogleNet的loss3/classifier的激活；

·以及一個(gè)普通VGG16層模型的fc6層的激活。

表1：視覺(jué)搜索的相關(guān)性

表1展示了這些模型的p 5和p 10表現(xiàn)，隨著我們的視覺(jué)搜索服務(wù)的平均基于CPU的延遲，其中包括查詢圖像的特征提取和檢索。使用基于GPU的推算大大減少了這些延遲。當(dāng)使用VGG16層模型的FC6層特征，我們觀察到對(duì)比我們的預(yù)估數(shù)據(jù)集在精度上有極大的提升，為我們的應(yīng)用提供了一個(gè)可接受的延遲。

線上體驗(yàn)

我們建立了一個(gè)系統(tǒng)來(lái)檢測(cè)只有很少推薦的新Pins，查詢我們的視覺(jué)搜索系統(tǒng)，并在HBase中存儲(chǔ)，在Pin被點(diǎn)擊放大時(shí)提供服務(wù)。

對(duì)于這個(gè)應(yīng)用，當(dāng)大多數(shù)共享一個(gè)共同類(lèi)別時(shí)，我們會(huì)顯示視覺(jué)搜索結(jié)果（category conformity thresholding）。我們選擇以這種方式進(jìn)行覆蓋，以獲得更高的精度，以避免在我們對(duì)視覺(jué)搜索結(jié)果的信心相對(duì)較低時(shí)使用它。

我們最初對(duì)10%合適的實(shí)時(shí)通信量進(jìn)行了試驗(yàn)；當(dāng)用戶點(diǎn)開(kāi)一個(gè)Pin時(shí)，卻沒(méi)有足夠的推薦，這批用戶是合適的。合適的用戶將會(huì)觸發(fā)進(jìn)入兩個(gè)組中：實(shí)驗(yàn)組（用視覺(jué)搜索結(jié)果取代了related pin的部分）、控制組（不做處理）。我們計(jì)算在related pins模塊中，總repin行為的變化量。

通過(guò)只為6%的請(qǐng)求展示視覺(jué)相似的pin，其他給出空推薦，我們觀察到在related pins的總repin行為增加了2%。而且，我們也做了其他的實(shí)驗(yàn)，我們將所有使用深度CNN特征相似性的推薦進(jìn)行排序，在repin和點(diǎn)擊參與率方面提高了10%。

4.應(yīng)用2:SIMILAR LOOKS

女裝時(shí)尚是Pinterest上最受歡迎的種類(lèi)之一。然而，這類(lèi)pin有很大一部分比例沒(méi)有直接引導(dǎo)用戶去產(chǎn)生購(gòu)物的能力，因此并沒(méi)有導(dǎo)購(gòu)能力。在這里，為了讓這些pin具有導(dǎo)購(gòu)能力，我們有兩個(gè)挑戰(zhàn)：

·許多pin的標(biāo)簽僅僅有簡(jiǎn)短的描述，比如「街頭時(shí)尚」的服飾，這類(lèi)pin通常鏈接一個(gè)沒(méi)有對(duì)圖像中的目標(biāo)特征進(jìn)行多少描述的網(wǎng)站；

·pin圖像通常包含多個(gè)目標(biāo)（比如，一個(gè)女人走在街道上，提著豹紋包，穿著靴子，戴著墨鏡，穿著超短牛仔褲，等等）。

一個(gè)用戶查看某個(gè)pin，可能對(duì)其中的包特別感興趣，然而其他用戶可能會(huì)想要購(gòu)買(mǎi)那個(gè)墨鏡。

用戶研究表明這種事情是非常常見(jiàn)的挫折感，我們的數(shù)據(jù)指出，相比其他種類(lèi)，在女裝時(shí)尚種類(lèi)中，用戶點(diǎn)擊圖片看源網(wǎng)站的概率要更小。

為了解決這個(gè)問(wèn)題，我們做出了一個(gè)叫做“Similar Looks”的產(chǎn)品，它可以對(duì)時(shí)尚目標(biāo)定位和分類(lèi)（圖8）。我們使用目標(biāo)識(shí)別技術(shù)來(lái)檢測(cè)Pinterest圖像中的目標(biāo)，比如，包，鞋，褲子，手表，等等。從這些目標(biāo)中，我們抽取出視覺(jué)和語(yǔ)義的特征，來(lái)生成產(chǎn)品推薦（“Similar Looks”）。一個(gè)用戶將會(huì)通過(guò)一個(gè)在Pin上的目標(biāo)中的紅色斑點(diǎn)發(fā)現(xiàn)這些推薦（圖1）。點(diǎn)擊紅色斑點(diǎn)，能夠獲取一個(gè)在視覺(jué)特征上非常相似的pin的瀑布流（比如，藍(lán)色連衣裙的其他視覺(jué)相似圖片）。

圖8：一旦用戶點(diǎn)擊了紅點(diǎn)，系統(tǒng)會(huì)展示對(duì)該目標(biāo)具有相似外觀的產(chǎn)品。

相關(guān)工作

目前，在學(xué)術(shù)界和工業(yè)中，已經(jīng)有將應(yīng)用視覺(jué)搜索技術(shù)到一些“軟產(chǎn)品”上。Like.com,Google Shopping，和Zappos（亞馬遜旗下）都是一些著名的計(jì)算視覺(jué)來(lái)進(jìn)行時(shí)尚推薦的應(yīng)用。Baidu和Alibaba最近也上線了視覺(jué)搜索系統(tǒng)來(lái)解決相似的問(wèn)題。在基于視覺(jué)基礎(chǔ)的時(shí)尚推薦搜索也有大量的提升。我們的方式證明，為數(shù)千萬(wàn)Pinterest用戶提供基于目標(biāo)的視覺(jué)搜索系統(tǒng)的可行性，以及展示了一個(gè)關(guān)于被檢測(cè)目標(biāo)的交互搜索方式。

目標(biāo)定位的靜態(tài)評(píng)價(jià)

評(píng)價(jià)我們Similar Looks產(chǎn)品的第一步是調(diào)查我們的目標(biāo)定位和檢測(cè)能力（即，位置準(zhǔn)確性和識(shí)別準(zhǔn)確性）。我們選擇專(zhuān)注于時(shí)尚目標(biāo)，即因?yàn)樯鲜龅纳虡I(yè)需求，也因?yàn)椤败洰a(chǎn)品”往往具有具體的視覺(jué)形象（比如，短褲，包，墨鏡，等等）。

我們通過(guò)從Pinterest的女裝時(shí)尚種類(lèi)中隨機(jī)抽樣一組圖片來(lái)收集我們的評(píng)價(jià)數(shù)據(jù)，并且在9個(gè)大類(lèi)（鞋子，連衣裙，墨鏡，包，手表，褲子，短褲，比基尼，耳環(huán)）中對(duì)2399個(gè)時(shí)尚目標(biāo)進(jìn)行人工打標(biāo)。我們觀察到，鞋子，包，連衣裙和褲子在我們的評(píng)價(jià)數(shù)據(jù)中是4個(gè)最大的分類(lèi)。表2是時(shí)尚目標(biāo)的分布，也是來(lái)自基于文本篩選的，基于圖片檢測(cè)的，和融合方法（先使用圖片篩選，再使用目標(biāo)檢測(cè)）的圖片檢測(cè)準(zhǔn)確率。

表2:目標(biāo)檢測(cè)／分類(lèi)準(zhǔn)確度（%）

正如先前所說(shuō)的，基于文本的方法應(yīng)用人工創(chuàng)造的規(guī)則，比如，通用的描述，來(lái)將Pinterest大數(shù)據(jù)連接到圖像中（這類(lèi)我們叫他們weak lable）。比如，一個(gè)圖片被注釋?zhuān)骸按杭緯r(shí)尚，tote（一個(gè)包的品牌）和花”，可能被分類(lèi)為一個(gè)“包”，并且如果圖片確實(shí)包含一個(gè)“包”的目標(biāo)標(biāo)簽，這會(huì)被考慮成是一個(gè)確定的事例。在基于圖片的評(píng)價(jià)中，我們計(jì)算了預(yù)測(cè)對(duì)象包圍盒和同一類(lèi)型的標(biāo)記對(duì)象包圍盒之間的交集，并計(jì)算了一個(gè)大于0.3或大于等于的交集作為一個(gè)正匹配。

表2表明了，無(wú)論是文本注釋篩選，還是單獨(dú)的目標(biāo)定位，都不足以完成我們的檢測(cè)任務(wù)，由于二者相對(duì)較高的錯(cuò)誤率（分別為6.7%和2.5%）。不出意料地，結(jié)合二者的方法極大的減少了我們的錯(cuò)誤率到1%以下。

具體來(lái)說(shuō)，我們看到那些種類(lèi)，比如眼鏡，文本注釋是不足夠的，但是基于視覺(jué)分類(lèi)卻很優(yōu)秀（可能是由于眼鏡特殊的視覺(jué)形狀）。對(duì)于其他種類(lèi)，比如連衣裙，這就恰好相反（視覺(jué)搜索的錯(cuò)誤率太高，12.3%，由于該種類(lèi)經(jīng)常被遮擋，以及樣式的高度多樣性，但是加入了文本篩選就顯著的改變了結(jié)果）。除了減少我們需要用對(duì)象分類(lèi)器處理的圖像數(shù)量外，對(duì)于幾個(gè)對(duì)象類(lèi)（鞋子、包、褲子），我們觀察到文本過(guò)濾對(duì)于實(shí)現(xiàn)可接受的錯(cuò)誤率（1%以下）是至關(guān)重要的。

線上體驗(yàn)

我們的系統(tǒng)從Pinterest圖片的分組中定義了超過(guò)八千萬(wàn)的“可點(diǎn)擊”的目標(biāo)。一個(gè)可點(diǎn)擊的紅點(diǎn)被放置在被檢測(cè)出的目標(biāo)上。一旦用戶點(diǎn)擊這個(gè)點(diǎn)，我們的視覺(jué)搜索系統(tǒng)取回一個(gè)帶有同一目標(biāo)種類(lèi)其他實(shí)體的pins的集合，然后用請(qǐng)求到的目標(biāo)的視覺(jué)相似度進(jìn)行排序。我們對(duì)一小部分Pinterest的用戶發(fā)布了這一功能，收集在一個(gè)月內(nèi)她們的參與度。具體來(lái)說(shuō)，我們觀察小點(diǎn)的點(diǎn)擊通過(guò)率（CTR），在我們的視覺(jué)搜索系統(tǒng)上的CTR，并且我們比較了在現(xiàn)有Related Pins推薦的參與度和Similar Looks中的參與度。

圖9：Similar Looks實(shí)驗(yàn)的參與率

圖9表明，平均下，在某一天，12%的用戶在看見(jiàn)一個(gè)帶有小點(diǎn)的pin，點(diǎn)擊了這個(gè)小點(diǎn)。這些用戶愿意繼續(xù)點(diǎn)擊平均0.55個(gè)Similar Looks的結(jié)果。雖然這組數(shù)據(jù)很鼓舞人心，但是當(dāng)我們比較所有在pin的點(diǎn)擊大圖的相關(guān)內(nèi)容的參與度時(shí)（總和了Related PIns和Similar Looks的參與度作為變量組，只使用Related Pins的參與度作為控制組），Similar Looks事實(shí)上降低了在pin點(diǎn)擊大圖時(shí)的總體參與度，降低了4%。在新奇效果結(jié)束后，我們觀察到在紅點(diǎn)上的CTR上的一個(gè)逐漸降低，最終穩(wěn)定在10%左右。

為了測(cè)試我們Similar Looks的相關(guān)性，是獨(dú)立于新UI（可點(diǎn)擊點(diǎn)的目標(biāo)點(diǎn)），我們進(jìn)行了一組實(shí)驗(yàn)，我們直接將Similar Looks的結(jié)果混合到現(xiàn)有的Related Pins中。這給我們一個(gè)方式去直接計(jì)算是否用戶發(fā)現(xiàn)我們的視覺(jué)相似推薦是比我們現(xiàn)存在的非視覺(jué)推薦更相關(guān)。在我們檢測(cè)到一個(gè)目標(biāo)的pins傷，這個(gè)實(shí)驗(yàn)增加了在Related Pins總體的參與度（repins和放大圖片）達(dá)到5%。雖然我們?yōu)檫@個(gè)實(shí)驗(yàn)設(shè)置了一個(gè)初始的靜態(tài)混合比例（每三個(gè)非視覺(jué)結(jié)果對(duì)一個(gè)視覺(jué)相似結(jié)果），我們稍后使用用戶點(diǎn)擊數(shù)據(jù)動(dòng)態(tài)調(diào)整了這一比例。

5.總結(jié)和未來(lái)的工作

我們證明了，利用可用的分布式計(jì)算平臺(tái)，比如Amazon Web Services和開(kāi)源工具，少數(shù)工程師或?qū)W術(shù)實(shí)驗(yàn)室可以使用非專(zhuān)有工具組合構(gòu)建大規(guī)模視覺(jué)搜索系統(tǒng)。這篇文章表明，我們端對(duì)端的視覺(jué)搜索渠道，包含遞增特征更新和兩步式目標(biāo)檢測(cè)和定位方式，提高了搜索準(zhǔn)確性，降低了研發(fā)和部署成本。我們的線上產(chǎn)品經(jīng)驗(yàn)表明，視覺(jué)搜索特征可以增加用戶參與度。

我們計(jì)劃在接下來(lái)的領(lǐng)域中進(jìn)一步提升我們的系統(tǒng)。

·我們對(duì)于在線上視覺(jué)搜索系統(tǒng)環(huán)境下，基于目標(biāo)檢測(cè)方式的CNN的表現(xiàn)和效率感興趣；

·我們對(duì)Pinterest的“策展圖”來(lái)增強(qiáng)視覺(jué)搜索相關(guān)性的影響力感興趣；

·我們想嘗試用于視覺(jué)搜索的交互式交互界面。

圖像識(shí)別實(shí)例

圖10：以鞋為對(duì)象的搜索結(jié)果示例。檢測(cè)到的對(duì)象的邊界自動(dòng)突出顯示。頂層圖像是查詢圖像。

圖11：以包為目標(biāo)的檢測(cè)和定位結(jié)果樣本。[綠色：人工打標(biāo)，藍(lán)色：識(shí)別結(jié)果]

圖12：以鞋為目標(biāo)的檢測(cè)和定位結(jié)果樣本。

圖13：以連衣裙為目標(biāo)的檢測(cè)和定位結(jié)果樣本。

本文譯自

Jing,Y.,Liu,D.,Kislyuk,D.,Zhai,A.,Xu,J.,Donahue,J.,Tavel,S.(2015,August).Visual search at pinterest.In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(pp.1889898).ACM.

文章推薦
美國(guó)專(zhuān)線怎么收費(fèi)適合走哪些物品,美國(guó)專(zhuān)線收費(fèi)標(biāo)準(zhǔn)
Shopify成功案例分析,shopify成功案例分析
跨境電商三種物流模式優(yōu)劣勢(shì)分析,跨境出口物流模式對(duì)比及分析
shopify封店為什么還是賣(mài)家,shopify的店鋪全被封了是怎么回事

特別聲明：以上文章內(nèi)容僅代表作者本人觀點(diǎn)，不代表ESG跨境電商觀點(diǎn)或立場(chǎng)。如有關(guān)于作品內(nèi)容、版權(quán)或其它問(wèn)題請(qǐng)于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。