Pinterest的視覺(jué)搜索,pinterest搜索圖-ESG跨境

Pinterest的視覺(jué)搜索,pinterest搜索圖

來(lái)源網(wǎng)絡(luò)
來(lái)源網(wǎng)絡(luò)
2022-05-01
點(diǎn)贊icon 0
查看icon 770

Pinterest的視覺(jué)搜索,pinterest搜索圖Pinterest的視覺(jué)搜索閱讀背景:·為了發(fā)展目前項(xiàng)目的視覺(jué)搜索模塊,對(duì)Pinterest的Visual Search進(jìn)行研究;·筆者非CS/math相關(guān)出生,對(duì)于CNN與ML為初學(xué)者,若有不當(dāng)之處,請(qǐng)各位讀者指出斧正。文獻(xiàn)總結(jié):1.利用一些便于使用的分布式計(jì)算平......

Pinterest的視覺(jué)搜索,pinterest搜索圖




Pinterest的視覺(jué)搜索

閱讀背景:

·為了發(fā)展目前項(xiàng)目的視覺(jué)搜索模塊,對(duì)Pinterest的Visual Search進(jìn)行研究;

·筆者非CS/math相關(guān)出生,對(duì)于CNN與ML為初學(xué)者,若有不當(dāng)之處,請(qǐng)各位讀者指出斧正。

文獻(xiàn)總結(jié):

1.利用一些便于使用的分布式計(jì)算平臺(tái),比如Amazon Web Services和開(kāi)源工具,少量研發(fā)人員也可以使用非專(zhuān)有工具組合構(gòu)建大規(guī)模視覺(jué)搜索系統(tǒng);

2.利用遞增特征更新(Incremental Fingerprinting Service)和兩步式目標(biāo)檢測(cè)和定位(Twostep Object Detection and Localization),能夠有效提高搜索的準(zhǔn)確性,并且降低研發(fā)和部署的成本;

3.視覺(jué)搜索特征在圖片推薦系統(tǒng)中,能夠有效提高推薦的準(zhǔn)確度;

1.介紹

視覺(jué)搜索,又稱基于內(nèi)容的圖像檢索,是最近的熱門(mén)研究領(lǐng)域。這個(gè)領(lǐng)域主要由爆炸性增長(zhǎng)的在線圖片和搜索引擎的流行所驅(qū)動(dòng)。其中,Google Goggles(Google的照相搜索App)、Google Similar Images(Google的相似圖片搜索)和Amazon Flow(Amazon的增強(qiáng)現(xiàn)實(shí)購(gòu)物應(yīng)用)是幾個(gè)商業(yè)化視覺(jué)搜索系統(tǒng)中較為成功的案例。雖然在構(gòu)建網(wǎng)絡(luò)規(guī)模的視覺(jué)搜索系統(tǒng)上已經(jīng)取得了重要的進(jìn)展,但是很少有文章來(lái)介紹這些商業(yè)案例中,如何部署端對(duì)端(endtoend)的框架。這其中的原因,一部分是因?yàn)檎鎸?shí)的視覺(jué)搜索系統(tǒng)的復(fù)雜性,另一部分是因?yàn)榇蠊镜纳虡I(yè)考慮——對(duì)核心搜索技術(shù)的保密。

圖1:Similar Looks:我們應(yīng)用目標(biāo)檢測(cè)技術(shù)來(lái)定位產(chǎn)品,比如包和西子。在這個(gè)原型中,用戶點(diǎn)擊自動(dòng)標(biāo)記的目標(biāo)來(lái)查看視覺(jué)相似的產(chǎn)品。

在Pinterest上部署一個(gè)商業(yè)化搜索引擎,我們面臨著兩個(gè)主要挑戰(zhàn)。

·作為一個(gè)小公司,我們需要控制人力和計(jì)算資源的開(kāi)發(fā)成本。比如,當(dāng)你想要處理一個(gè)巨大、連續(xù)增長(zhǎng)的圖片集合時(shí),特征計(jì)算將會(huì)變得很昂貴。并且,當(dāng)工程師不斷的試驗(yàn)新特征去部署系統(tǒng)時(shí),可擴(kuò)展性和合理花費(fèi)就變成至關(guān)重要。

·作為一個(gè)商業(yè)應(yīng)用,評(píng)判成功的標(biāo)準(zhǔn)是它帶給用戶的效益(比如,提高了用戶的參與度)和它自身的研發(fā)、維護(hù)成本。

因此在最后,我們所研發(fā)的搜索引擎將需要通過(guò)A/B tests接受真實(shí)用戶的高頻度測(cè)試。

這篇文章將介紹,我們?nèi)绾蚊鎸?duì)前面兩個(gè)挑戰(zhàn),并去發(fā)布、部署一個(gè)商業(yè)視覺(jué)搜索系統(tǒng)。我們做了兩個(gè)主要的成果。

·成果一,在研發(fā)視覺(jué)搜索時(shí),我們通過(guò)使用廣泛使用的工具來(lái)實(shí)現(xiàn)可拓展性和控制成本。這些工具可以幫助一個(gè)小工程師團(tuán)隊(duì)去實(shí)現(xiàn)自己的想法。Section 2.1介紹我們簡(jiǎn)單、務(wù)實(shí)的方法來(lái)加速和提高目標(biāo)檢測(cè)和定位的準(zhǔn)確性。這個(gè)方法在Pinterest中開(kāi)發(fā)了豐富的可用的大數(shù)據(jù)資源。我們使用了一個(gè)巧的方法來(lái)減弱任務(wù)難度(和計(jì)算花費(fèi))。

·首先,事先將目標(biāo)進(jìn)行檢測(cè),確定到一個(gè)多類(lèi)別的分類(lèi)中;

·然后,我們只需要計(jì)算(昂貴的)高精準(zhǔn)度的圖像目標(biāo)檢測(cè)。

·Section 2.2介紹我們?cè)谧詈玫膹V泛利用的工具中,建立分布式索引和搜索基礎(chǔ)。

·成果二,把我們部署的視覺(jué)搜索基礎(chǔ)的成果利用在了兩個(gè)產(chǎn)品應(yīng)用中:Related Pins和Similar Looks。在每個(gè)應(yīng)用中,我們使用應(yīng)用特有的數(shù)據(jù)集來(lái)評(píng)估每個(gè)獨(dú)立視覺(jué)搜索模塊(目標(biāo)檢測(cè),相似性的特征表示)的有效性。在部署端對(duì)端系統(tǒng)后,我們使用A/B tests來(lái)檢測(cè)現(xiàn)實(shí)中用戶的參與度。

圖2:Related Pins是一個(gè)產(chǎn)品特征,基于Pinterest的現(xiàn)有圖片展示推薦內(nèi)容。

·Related Pins(圖2)可以基于用戶正在瀏覽的Pins來(lái)推薦Pins。這些推薦主要來(lái)自于用戶、Borads和Pins的“策展圖”。但是,那些長(zhǎng)尾的較少被翻閱的圖片卻沒(méi)有推薦。利用視覺(jué)搜索,我們?yōu)镻interest上的幾乎所有圖片都創(chuàng)建了推薦。

·第二個(gè)應(yīng)用,Similar Looks(圖1)是在測(cè)試時(shí),特別是測(cè)試時(shí)尚Pins時(shí)發(fā)現(xiàn)的經(jīng)驗(yàn)。它可以允許用戶對(duì)圖片內(nèi)感興趣的區(qū)域(比如,一個(gè)包,或一雙鞋)進(jìn)行一個(gè)視覺(jué)查詢,然后為用戶辨別出一個(gè)視覺(jué)相似的Pins。與傳統(tǒng)視覺(jué)搜索不同的是,Similar Looks不再使用一個(gè)完整的圖片,這里的視覺(jué)相似性是通過(guò)查詢中的局部目標(biāo)和數(shù)據(jù)庫(kù)中的圖片對(duì)比來(lái)進(jìn)行計(jì)算的。據(jù)我們所知,這是第一篇商業(yè)化視覺(jué)搜索系統(tǒng)中利用目標(biāo)檢測(cè)和定位的文獻(xiàn)。

我們的經(jīng)驗(yàn)表明:

·利用大數(shù)據(jù)的目標(biāo)檢測(cè)和定位方法,可以達(dá)到一個(gè)可觀的檢測(cè)率和極小的誤報(bào)率(不大于1%);

·利用來(lái)自VGG模型的特征表達(dá)極大地提升了在Pinterest基準(zhǔn)數(shù)據(jù)庫(kù)的視覺(jué)搜索準(zhǔn)確性;

·當(dāng)使用視覺(jué)搜索來(lái)增強(qiáng)Related Pins和Similar Looks應(yīng)用時(shí),我們觀察到用戶參與度巨大的增加。

2.Pinterest的視覺(jué)搜索結(jié)構(gòu)

Pinterest是一個(gè)視覺(jué)標(biāo)簽工具來(lái)幫助用戶發(fā)現(xiàn)和儲(chǔ)存創(chuàng)意。用戶pin圖片到Borads中,這一過(guò)程對(duì)一個(gè)特定的主題或話題創(chuàng)建了集合。這個(gè)「用戶—Borads—圖片」圖譜包含豐富的關(guān)于圖片和它們語(yǔ)義關(guān)系的信息。比如當(dāng)一個(gè)圖片被Pin到一個(gè)Borad中,表明在這個(gè)新borad和其他所有包含這個(gè)圖片的board有一個(gè)“策展聯(lián)系”。通過(guò)這些描述圖片、圖片的borad和其用戶的聯(lián)系,相關(guān)的大數(shù)據(jù)(比如,圖片的注釋?zhuān)┠軌虿粩嘣鲩L(zhǎng)。

因?yàn)閳D片是每個(gè)Pin的焦點(diǎn),所以視覺(jué)特征在為用戶發(fā)現(xiàn)興趣,靈感和相關(guān)內(nèi)容上起到了非常重要的作用。在這一章中,我們介紹如何端對(duì)端執(zhí)行一個(gè)視覺(jué)搜索系統(tǒng),來(lái)檢索Pinterest中的數(shù)十億圖片。我們致力于研發(fā)真實(shí)視覺(jué)搜索系統(tǒng)的挑戰(zhàn)——如何平衡經(jīng)費(fèi)限制和快速實(shí)現(xiàn)的需要。

我們將要介紹:

·從圖片中抽取的特征;

·為了分布式和增量式特征提取物所搭建的基礎(chǔ);

·實(shí)時(shí)視覺(jué)搜索服務(wù);

2.1.圖像的表現(xiàn)及特征

我們從圖片中抽取不同類(lèi)型的特征,包括:位置特征和“深度特征”(深度特征從深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的活性中間層中提?。?。我們研究基于AlexNet和VGG的結(jié)構(gòu),來(lái)提取fc6和fc8層的特征表現(xiàn)。這些特征為了有效地表現(xiàn)被二值化,并且用漢明距離(Hamming Distance)進(jìn)行比較。我們使用開(kāi)源的Caffe架構(gòu),在多GPU機(jī)器上來(lái)訓(xùn)練和推算我們的CNNs。

這套系統(tǒng)也被用來(lái)從圖像中抽取顯著圖片顏色。顯著顏色是由圖像內(nèi)的第一檢測(cè)的顯著區(qū)域計(jì)算而來(lái),然后應(yīng)用k均值聚類(lèi)法來(lái)計(jì)算顯著像素的實(shí)驗(yàn)室像素值,其中,聚類(lèi)中心和權(quán)值被儲(chǔ)存為圖像的顏色特征。

兩步式目標(biāo)檢測(cè)和定位

與Pinterest的特別相關(guān)的特征是有確切目標(biāo)分類(lèi)的存在,比如,包,鞋子,手表,禮服,和太陽(yáng)鏡。我們考慮到在Pinterest圖片中有海量的短文本標(biāo)簽,而采取兩步式檢測(cè)過(guò)程。當(dāng)圖片被多次pin到不同的borad中,pin的總體描述和borad的標(biāo)題提供了大量關(guān)于圖片的信息。在Pinterest中,文本處理通道從原始文本中為圖像抽取了相關(guān)的注釋?zhuān)a(chǎn)生了與每個(gè)圖像有關(guān)的短文本。

圖3:并不是運(yùn)用所有的目標(biāo)識(shí)別探測(cè)模型來(lái)識(shí)別所有的圖像,我們第一步會(huì)先用文本元數(shù)據(jù)來(lái)預(yù)測(cè)圖像分類(lèi),然后運(yùn)用對(duì)應(yīng)的目標(biāo)檢測(cè)模型來(lái)識(shí)別圖像。

我們利用這些注釋來(lái)確定運(yùn)行哪一個(gè)目標(biāo)檢測(cè)器。在圖1中,我們首先確定這個(gè)圖像可能是包含包和鞋子,然后繼續(xù)用圖像目標(biāo)檢測(cè)器來(lái)檢測(cè)這些目標(biāo)種類(lèi)。經(jīng)過(guò)第一步的目標(biāo)預(yù)分類(lèi),我們只需要在圖像上運(yùn)行一個(gè)最可能吻合的目標(biāo)檢測(cè)器。這個(gè)過(guò)濾步驟減小了大量的計(jì)算成本,降低了誤報(bào)率。

我們對(duì)目標(biāo)檢測(cè)的最初方法是對(duì)基于級(jí)聯(lián)的可變形部分模型(cascading deformable partbased models)的大量?jī)?yōu)化來(lái)實(shí)現(xiàn)。這個(gè)檢測(cè)器為每個(gè)被檢測(cè)到的目標(biāo)輸出一個(gè)有邊界的盒,并從中提取目標(biāo)的可視化描述。我們最近的工作主要集中在研究基于深度學(xué)習(xí)的目標(biāo)探測(cè)器的可行性和性能。

我們?cè)囼?yàn)結(jié)果在section 4,表明了我們的系統(tǒng)達(dá)到了非常低的誤報(bào)率(小于1%),這在我們的應(yīng)用中是必不可少的。這個(gè)兩步式方法也讓我們能并入其他信號(hào)到分類(lèi)中。這種在目標(biāo)檢測(cè)和定位時(shí)利用文本和視覺(jué)信號(hào)的方法已經(jīng)被廣泛運(yùn)用在Web圖像檢索和分類(lèi)中。

點(diǎn)擊預(yù)測(cè)

當(dāng)用戶在Pinterest上瀏覽,他們能通過(guò)點(diǎn)擊放大到全屏(“closeup”,特寫(xiě))和隨后點(diǎn)擊來(lái)到內(nèi)容的站外來(lái)源(a clickthrough,點(diǎn)擊通過(guò))來(lái)與一個(gè)Pin交互。對(duì)于每個(gè)圖像,我們基于它的視覺(jué)特征來(lái)預(yù)測(cè)被打開(kāi)全屏的概率(CUR)和被點(diǎn)擊到站外來(lái)源的概率(CTR)。我們訓(xùn)練一個(gè)CNN來(lái)從圖像中學(xué)習(xí)一個(gè)概率映射,關(guān)于一個(gè)用戶打開(kāi)圖片全屏和到達(dá)站外來(lái)源的概率。CUR和CTR對(duì)于應(yīng)用,比如搜索排序,推薦系統(tǒng)和廣告投放都是有用的,在這些應(yīng)用中我們經(jīng)常需要知道哪一張圖像更能獲取用戶的注意力。

CNNs最近成為許多語(yǔ)義預(yù)測(cè)任務(wù),在涉及視覺(jué)輸入(包括分類(lèi)、檢測(cè)與分割)時(shí)的主要方法。訓(xùn)練一個(gè)完整的CNN來(lái)獲取一個(gè)好的結(jié)果將會(huì)是非常耗時(shí)間,也需要非常大量的數(shù)據(jù)。我們將轉(zhuǎn)移學(xué)習(xí)應(yīng)用到我們的模型中,通過(guò)保留來(lái)自其他計(jì)算視覺(jué)任務(wù)訓(xùn)練的模型的低層次的視覺(jué)表現(xiàn)。網(wǎng)絡(luò)的頂層為我們現(xiàn)在的具體任務(wù)進(jìn)行了細(xì)致的調(diào)整。這樣節(jié)省了大量的訓(xùn)練時(shí)間,并且利用了更大的庫(kù)中學(xué)習(xí)到的視覺(jué)特征,而不僅僅只是這次任務(wù)。我們使用Caffe來(lái)進(jìn)行這個(gè)遷移學(xué)習(xí)。

圖4:對(duì)于CUR預(yù)測(cè)(左)和CTR預(yù)測(cè)(右)的ROC曲線。

圖4描述了我們基于CNN方法的接受者操作特征(ROC)曲線和一個(gè)基于“傳統(tǒng)”計(jì)算機(jī)視覺(jué)途徑的基線的對(duì)比:一個(gè)在詞的金字塔直方圖(PHOW)中被二值標(biāo)簽訓(xùn)練的支持向量機(jī)(SVM),在目標(biāo)識(shí)別數(shù)據(jù)集(如,Caltech01)中表現(xiàn)的很好。我們的基于CNN的方法優(yōu)于基于PHOW的基線,從端對(duì)端微調(diào)CNN也帶來(lái)了顯著的性能提升。類(lèi)似的方法也適用于檢測(cè)上傳到Pinterest的色情圖像的任務(wù)。

2.2.指紋增量服務(wù)

我們大多數(shù)的視覺(jué)應(yīng)用依靠于擁有一個(gè)完整的視覺(jué)特征集合,這個(gè)集合以適合于批量處理的格式存儲(chǔ)。保持這個(gè)數(shù)據(jù)的更新是具有挑戰(zhàn)性的,因?yàn)槲覀兊募习^(guò)十億獨(dú)特的圖像,增量地更新特性集是至關(guān)重要的,并且盡可能避免不必要的重新計(jì)算。

我們建立了一個(gè)系統(tǒng),叫做指紋增量服務(wù),這個(gè)服務(wù)為Pinterest所有的圖像計(jì)算特征,通過(guò)使用在Amazon EC2上的工作群。它主要在兩個(gè)場(chǎng)景下逐步更新特征集合:

·上傳到Pinterest上的新圖片

·特征迭代(工程師增加/修改特征)

我們的方法是將圖片集劃分到由上傳時(shí)間確定的時(shí)代(epochs)組中,并且為每個(gè)特性類(lèi)型(全面的,本地的,深度特征)的每個(gè)版本維護(hù)一個(gè)單獨(dú)的特性存儲(chǔ)區(qū)。這些特征類(lèi)型被大量存貯在Amazon S3,以特征種類(lèi),版本,時(shí)間來(lái)組織管理。當(dāng)數(shù)據(jù)完全更新時(shí),每一個(gè)特征存儲(chǔ)都會(huì)包含所有的時(shí)代組。在每一次運(yùn)算中,系統(tǒng)發(fā)現(xiàn)每個(gè)特征的缺失時(shí)代組,并且把排隊(duì)工作變成一種分布式隊(duì)列來(lái)填充那些時(shí)代組。

這種存儲(chǔ)策略能夠如流水一般遞增升級(jí)。每一天,一個(gè)帶有當(dāng)天唯一上傳時(shí)間的新特征組被加入到我們的圖片集合中,然后我們?yōu)槟莻€(gè)日期生成缺失的特征。因?yàn)槔蠄D像不會(huì)改變,所以他們的特征也不會(huì)被重新計(jì)算。如果生成某個(gè)特征的算法或者參數(shù)被修改了,或者如果一個(gè)新的特征被增加,那么一個(gè)新的特征存儲(chǔ)將開(kāi)始工作,并且所有的年代組會(huì)為修改/新增特征重新計(jì)算。不改變的特征不受影響。

我們將這些特性復(fù)制到各種表單中,以方便其他工作訪問(wèn):這些特征會(huì)合并,組成一個(gè)包含一張圖片所有可使用特征的指紋(fingerprint),然后指紋會(huì)被復(fù)制分享,形成為根據(jù)圖片特征(MD5 hash)隨機(jī)訪問(wèn)的排序文件。這些加入的指紋文件會(huì)定期地再實(shí)現(xiàn),但是那些昂貴的特征計(jì)算只需要每張圖片計(jì)算一次。

圖5:增量式指紋更新渠道的輸出實(shí)例。初始運(yùn)行顯示為2014XXXX,其中包括在運(yùn)行之前創(chuàng)建的所有圖像。

圖5展示了一個(gè)增量指紋更新過(guò)程的流程圖。它包含5個(gè)主要工作:

·編輯新上傳圖片特征的列表,并且把它們按日期分組到時(shí)代組中。我們隨機(jī)將每個(gè)時(shí)代組劃分為大約20萬(wàn)張圖像的分類(lèi)碎片,以限制最終指紋文件的大小。

·定義每個(gè)特征存儲(chǔ)中缺失的時(shí)代組,并將工作排隊(duì)到PinLater(一個(gè)分布式隊(duì)列服務(wù),類(lèi)似于Amazon SQS)。這個(gè)工作被再分為碎片到“工作塊”中,調(diào)整為這類(lèi)工作塊每個(gè)大約花費(fèi)30分鐘來(lái)計(jì)算。

·運(yùn)行在EC2 instances的自動(dòng)啟動(dòng)群集,其規(guī)模取決于更新的大小??梢允褂肧pot instances;如果一個(gè)instances被終止了,它的工作將在其他的工作塊上重新排期。每個(gè)工作塊的產(chǎn)出都存儲(chǔ)到Amazon S3中,并且最終重組成為與原始碎片對(duì)應(yīng)的特征文件。

·將獨(dú)立的特征碎片融合為一個(gè)統(tǒng)一的包含每個(gè)圖像所有可利用特征的指紋文件。

·將所有的年代組(聯(lián)通其他元數(shù)據(jù))的指紋融合到一個(gè)排序中,分片文件格式允許隨機(jī)存?。╒isualJoins)。

對(duì)所有圖片所有可利用特征的最初計(jì)算,使用了數(shù)百個(gè)32核機(jī)器,花費(fèi)一天多一點(diǎn)的時(shí)間,產(chǎn)生了大約5TB的數(shù)據(jù)信息。而增量處理新圖像的穩(wěn)態(tài)要求僅為5臺(tái)機(jī)器。

2.3.搜索基礎(chǔ)

在Pinterest,分布式可視化搜索系統(tǒng)有好幾個(gè)用例。其中一個(gè)用例是發(fā)掘相似外表的產(chǎn)品(PInterest Similar Looks),和其他包括近似重復(fù)檢測(cè)和內(nèi)容推薦。在所有這些應(yīng)用中,視覺(jué)相似結(jié)果是通過(guò)前一個(gè)章節(jié)的Visualjoins頂部的分布式索引來(lái)計(jì)算的。由于每個(gè)用例有不同的性能和成本需求,我們的搜索基礎(chǔ)被設(shè)計(jì)成靈活的和可重構(gòu)的。圖6展示了搜索基礎(chǔ)的流程圖。

圖6:分布式視覺(jué)搜索渠道的流程圖。

第一步,我們用Hadoop從Visualjoins創(chuàng)造了分布式圖像索引。每臺(tái)機(jī)器包含索引(和特征),這些索引和整個(gè)圖片集合的隨機(jī)分散的子集相關(guān)。這里使用了兩類(lèi)索引:

·第一種是基于磁盤(pán)(和部分內(nèi)存緩存)的token index,將每個(gè)矢量量化特性(比如,視覺(jué)詞匯token)與圖像文檔ID的展示列表關(guān)聯(lián)起來(lái)。這與基于文本的圖像檢索系統(tǒng)類(lèi)似,只是文本被視覺(jué)標(biāo)記所替代。

·第二個(gè)索引是一個(gè)視覺(jué)特性和元數(shù)據(jù)的內(nèi)存存儲(chǔ),比如,圖像注釋?zhuān)约皬摹居脩鬮oard圖像】圖計(jì)算的“主題向量”。

第一類(lèi)適合于快速(但模糊)查表,第二類(lèi)適合于更精確(但較慢)排序優(yōu)化。

每一臺(tái)機(jī)器運(yùn)行一個(gè)leaf排序器,用來(lái)從使用視覺(jué)特征的索引中計(jì)算k最近鄰(knearest neighbors),然后使用額外的元數(shù)據(jù)重新排序頂部的候選數(shù)據(jù)。在某些情況下,leaf排序器跳過(guò)token索引,直接用類(lèi)似KNN方法從特征樹(shù)索引中檢索k最近鄰。另一臺(tái)機(jī)器上的一個(gè)根排序器將會(huì)從每個(gè)leaf排序器取回最高分?jǐn)?shù)的結(jié)果,并且將這些結(jié)果融合,然后返還給用戶。為了處理我們的實(shí)時(shí)特征提取器生成的新指紋,我們有一個(gè)可視化搜索渠道的線上版本,其中有一個(gè)非常相似的過(guò)程。即使在線上版本中,給定的指紋依然會(huì)在預(yù)生成的索引上查詢。

3.應(yīng)用1:RELATED PINS

Pinterest視覺(jué)搜索渠道的其中一個(gè)首批應(yīng)用是在一個(gè)叫做Related Pins的推薦產(chǎn)品,這個(gè)應(yīng)用中在用戶正在瀏覽一個(gè)Pin時(shí)推薦給其他可能感興趣的圖像。傳統(tǒng)上,我們使用了結(jié)合用戶創(chuàng)建的【圖像Board】的關(guān)系和基于內(nèi)容的信號(hào)來(lái)產(chǎn)生這些建議。然而,這套系統(tǒng)不能為不流行的pins(沒(méi)有很多聯(lián)系的pins)和新創(chuàng)建的pins(可能還沒(méi)有創(chuàng)建索引)提供推薦。結(jié)果,Pinterest上有6%的圖像只有極少或者沒(méi)有推薦。對(duì)于這些圖像,我們使用視覺(jué)搜索渠道來(lái)實(shí)時(shí)生成Visual Related Pins(圖7)。

圖7:在加入視覺(jué)相關(guān)搜索之前和之后的對(duì)比。

Visual Related Pins的第一步,是用從所有存在的Pinterest圖像建立的本地token索引,來(lái)檢測(cè)是否我們有重復(fù)或極相似的查詢圖像。具體地說(shuō),給定一個(gè)查詢圖像,系統(tǒng)返回一組圖像,這些圖像是同一個(gè)圖像的變化,但通過(guò)一些轉(zhuǎn)換發(fā)生了變化,比如,調(diào)整大小、裁剪、旋轉(zhuǎn)、平移、添加、刪除和修改視覺(jué)內(nèi)容的次要部分。由于結(jié)果圖像看起來(lái)與查詢圖像完全相同,所以它們的建議很可能與查詢圖像相關(guān)。然而,在大多數(shù)情況下,我們發(fā)現(xiàn)有很多圖像沒(méi)有檢測(cè)到接近重復(fù)的圖像,或者相似的圖像沒(méi)有足夠的推薦。因此,我們的注意力主要集中在基于CNN特征的索引中產(chǎn)生的視覺(jué)搜索結(jié)果檢索。

搜索相關(guān)性的靜態(tài)評(píng)價(jià)

我們最初的視覺(jué)相關(guān)Pins實(shí)驗(yàn)利用來(lái)自AlexNet模型的原始和微調(diào)版本在它的搜索基礎(chǔ)中。然而,更深層次CNN架構(gòu)分類(lèi)的成功使我們調(diào)查來(lái)自各種CNN模型功能集的性能。

為了對(duì)視覺(jué)搜索進(jìn)行評(píng)估,我們使用與圖像相關(guān)聯(lián)的圖像注釋作為關(guān)聯(lián)性的指標(biāo)。除了人工評(píng)價(jià)外,這種方法通常用于視覺(jué)搜索系統(tǒng)的離線評(píng)價(jià)。在這項(xiàng)工作中,我們使用與每個(gè)圖像相關(guān)聯(lián)的頂級(jí)文本查詢作為標(biāo)簽。我們用Pinterest Search查詢1000次,每次3000個(gè)圖像,獲得了大約160萬(wàn)個(gè)獨(dú)特圖像的數(shù)據(jù)集。我們用生成它的查詢關(guān)鍵詞標(biāo)記每個(gè)圖像。如果兩個(gè)圖像共享一個(gè)標(biāo)簽,則可視搜索結(jié)果與查詢圖像相關(guān)。

利用這個(gè)數(shù)據(jù)集,我們基于如下幾個(gè)特征,為推薦系統(tǒng)計(jì)算精確的k最近鄰值:

·從普通的AlexNet模型的fc6層的激活(為ILSVRC的前期訓(xùn)練),這個(gè)AlexNet模型的fc6層激活微調(diào)到識(shí)別超過(guò)3000個(gè)Pinterest產(chǎn)品品類(lèi);

·一個(gè)普通GoogleNet的loss3/classifier的激活;

·以及一個(gè)普通VGG16層模型的fc6層的激活。

表1:視覺(jué)搜索的相關(guān)性

表1展示了這些模型的p 5和p 10表現(xiàn),隨著我們的視覺(jué)搜索服務(wù)的平均基于CPU的延遲,其中包括查詢圖像的特征提取和檢索。使用基于GPU的推算大大減少了這些延遲。當(dāng)使用VGG16層模型的FC6層特征,我們觀察到對(duì)比我們的預(yù)估數(shù)據(jù)集在精度上有極大的提升,為我們的應(yīng)用提供了一個(gè)可接受的延遲。

線上體驗(yàn)

我們建立了一個(gè)系統(tǒng)來(lái)檢測(cè)只有很少推薦的新Pins,查詢我們的視覺(jué)搜索系統(tǒng),并在HBase中存儲(chǔ),在Pin被點(diǎn)擊放大時(shí)提供服務(wù)。

對(duì)于這個(gè)應(yīng)用,當(dāng)大多數(shù)共享一個(gè)共同類(lèi)別時(shí),我們會(huì)顯示視覺(jué)搜索結(jié)果(category conformity thresholding)。我們選擇以這種方式進(jìn)行覆蓋,以獲得更高的精度,以避免在我們對(duì)視覺(jué)搜索結(jié)果的信心相對(duì)較低時(shí)使用它。

我們最初對(duì)10%合適的實(shí)時(shí)通信量進(jìn)行了試驗(yàn);當(dāng)用戶點(diǎn)開(kāi)一個(gè)Pin時(shí),卻沒(méi)有足夠的推薦,這批用戶是合適的。合適的用戶將會(huì)觸發(fā)進(jìn)入兩個(gè)組中:實(shí)驗(yàn)組(用視覺(jué)搜索結(jié)果取代了related pin的部分)、控制組(不做處理)。我們計(jì)算在related pins模塊中,總repin行為的變化量。

通過(guò)只為6%的請(qǐng)求展示視覺(jué)相似的pin,其他給出空推薦,我們觀察到在related pins的總repin行為增加了2%。而且,我們也做了其他的實(shí)驗(yàn),我們將所有使用深度CNN特征相似性的推薦進(jìn)行排序,在repin和點(diǎn)擊參與率方面提高了10%。

4.應(yīng)用2:SIMILAR LOOKS

女裝時(shí)尚是Pinterest上最受歡迎的種類(lèi)之一。然而,這類(lèi)pin有很大一部分比例沒(méi)有直接引導(dǎo)用戶去產(chǎn)生購(gòu)物的能力,因此并沒(méi)有導(dǎo)購(gòu)能力。在這里,為了讓這些pin具有導(dǎo)購(gòu)能力,我們有兩個(gè)挑戰(zhàn):

·許多pin的標(biāo)簽僅僅有簡(jiǎn)短的描述,比如「街頭時(shí)尚」的服飾,這類(lèi)pin通常鏈接一個(gè)沒(méi)有對(duì)圖像中的目標(biāo)特征進(jìn)行多少描述的網(wǎng)站;

·pin圖像通常包含多個(gè)目標(biāo)(比如,一個(gè)女人走在街道上,提著豹紋包,穿著靴子,戴著墨鏡,穿著超短牛仔褲,等等)。

一個(gè)用戶查看某個(gè)pin,可能對(duì)其中的包特別感興趣,然而其他用戶可能會(huì)想要購(gòu)買(mǎi)那個(gè)墨鏡。

用戶研究表明這種事情是非常常見(jiàn)的挫折感,我們的數(shù)據(jù)指出,相比其他種類(lèi),在女裝時(shí)尚種類(lèi)中,用戶點(diǎn)擊圖片看源網(wǎng)站的概率要更小。

為了解決這個(gè)問(wèn)題,我們做出了一個(gè)叫做“Similar Looks”的產(chǎn)品,它可以對(duì)時(shí)尚目標(biāo)定位和分類(lèi)(圖8)。我們使用目標(biāo)識(shí)別技術(shù)來(lái)檢測(cè)Pinterest圖像中的目標(biāo),比如,包,鞋,褲子,手表,等等。從這些目標(biāo)中,我們抽取出視覺(jué)和語(yǔ)義的特征,來(lái)生成產(chǎn)品推薦(“Similar Looks”)。一個(gè)用戶將會(huì)通過(guò)一個(gè)在Pin上的目標(biāo)中的紅色斑點(diǎn)發(fā)現(xiàn)這些推薦(圖1)。點(diǎn)擊紅色斑點(diǎn),能夠獲取一個(gè)在視覺(jué)特征上非常相似的pin的瀑布流(比如,藍(lán)色連衣裙的其他視覺(jué)相似圖片)。

圖8:一旦用戶點(diǎn)擊了紅點(diǎn),系統(tǒng)會(huì)展示對(duì)該目標(biāo)具有相似外觀的產(chǎn)品。

相關(guān)工作

目前,在學(xué)術(shù)界和工業(yè)中,已經(jīng)有將應(yīng)用視覺(jué)搜索技術(shù)到一些“軟產(chǎn)品”上。Like.com,Google Shopping,和Zappos(亞馬遜旗下)都是一些著名的計(jì)算視覺(jué)來(lái)進(jìn)行時(shí)尚推薦的應(yīng)用。Baidu和Alibaba最近也上線了視覺(jué)搜索系統(tǒng)來(lái)解決相似的問(wèn)題。在基于視覺(jué)基礎(chǔ)的時(shí)尚推薦搜索也有大量的提升。我們的方式證明,為數(shù)千萬(wàn)Pinterest用戶提供基于目標(biāo)的視覺(jué)搜索系統(tǒng)的可行性,以及展示了一個(gè)關(guān)于被檢測(cè)目標(biāo)的交互搜索方式。

目標(biāo)定位的靜態(tài)評(píng)價(jià)

評(píng)價(jià)我們Similar Looks產(chǎn)品的第一步是調(diào)查我們的目標(biāo)定位和檢測(cè)能力(即,位置準(zhǔn)確性和識(shí)別準(zhǔn)確性)。我們選擇專(zhuān)注于時(shí)尚目標(biāo),即因?yàn)樯鲜龅纳虡I(yè)需求,也因?yàn)椤败洰a(chǎn)品”往往具有具體的視覺(jué)形象(比如,短褲,包,墨鏡,等等)。

我們通過(guò)從Pinterest的女裝時(shí)尚種類(lèi)中隨機(jī)抽樣一組圖片來(lái)收集我們的評(píng)價(jià)數(shù)據(jù),并且在9個(gè)大類(lèi)(鞋子,連衣裙,墨鏡,包,手表,褲子,短褲,比基尼,耳環(huán))中對(duì)2399個(gè)時(shí)尚目標(biāo)進(jìn)行人工打標(biāo)。我們觀察到,鞋子,包,連衣裙和褲子在我們的評(píng)價(jià)數(shù)據(jù)中是4個(gè)最大的分類(lèi)。表2是時(shí)尚目標(biāo)的分布,也是來(lái)自基于文本篩選的,基于圖片檢測(cè)的,和融合方法(先使用圖片篩選,再使用目標(biāo)檢測(cè))的圖片檢測(cè)準(zhǔn)確率。

表2:目標(biāo)檢測(cè)/分類(lèi)準(zhǔn)確度(%)

正如先前所說(shuō)的,基于文本的方法應(yīng)用人工創(chuàng)造的規(guī)則,比如,通用的描述,來(lái)將Pinterest大數(shù)據(jù)連接到圖像中(這類(lèi)我們叫他們weak lable)。比如,一個(gè)圖片被注釋?zhuān)骸按杭緯r(shí)尚,tote(一個(gè)包的品牌)和花”,可能被分類(lèi)為一個(gè)“包”,并且如果圖片確實(shí)包含一個(gè)“包”的目標(biāo)標(biāo)簽,這會(huì)被考慮成是一個(gè)確定的事例。在基于圖片的評(píng)價(jià)中,我們計(jì)算了預(yù)測(cè)對(duì)象包圍盒和同一類(lèi)型的標(biāo)記對(duì)象包圍盒之間的交集,并計(jì)算了一個(gè)大于0.3或大于等于的交集作為一個(gè)正匹配。

表2表明了,無(wú)論是文本注釋篩選,還是單獨(dú)的目標(biāo)定位,都不足以完成我們的檢測(cè)任務(wù),由于二者相對(duì)較高的錯(cuò)誤率(分別為6.7%和2.5%)。不出意料地,結(jié)合二者的方法極大的減少了我們的錯(cuò)誤率到1%以下。

具體來(lái)說(shuō),我們看到那些種類(lèi),比如眼鏡,文本注釋是不足夠的,但是基于視覺(jué)分類(lèi)卻很優(yōu)秀(可能是由于眼鏡特殊的視覺(jué)形狀)。對(duì)于其他種類(lèi),比如連衣裙,這就恰好相反(視覺(jué)搜索的錯(cuò)誤率太高,12.3%,由于該種類(lèi)經(jīng)常被遮擋,以及樣式的高度多樣性,但是加入了文本篩選就顯著的改變了結(jié)果)。除了減少我們需要用對(duì)象分類(lèi)器處理的圖像數(shù)量外,對(duì)于幾個(gè)對(duì)象類(lèi)(鞋子、包、褲子),我們觀察到文本過(guò)濾對(duì)于實(shí)現(xiàn)可接受的錯(cuò)誤率(1%以下)是至關(guān)重要的。

線上體驗(yàn)

我們的系統(tǒng)從Pinterest圖片的分組中定義了超過(guò)八千萬(wàn)的“可點(diǎn)擊”的目標(biāo)。一個(gè)可點(diǎn)擊的紅點(diǎn)被放置在被檢測(cè)出的目標(biāo)上。一旦用戶點(diǎn)擊這個(gè)點(diǎn),我們的視覺(jué)搜索系統(tǒng)取回一個(gè)帶有同一目標(biāo)種類(lèi)其他實(shí)體的pins的集合,然后用請(qǐng)求到的目標(biāo)的視覺(jué)相似度進(jìn)行排序。我們對(duì)一小部分Pinterest的用戶發(fā)布了這一功能,收集在一個(gè)月內(nèi)她們的參與度。具體來(lái)說(shuō),我們觀察小點(diǎn)的點(diǎn)擊通過(guò)率(CTR),在我們的視覺(jué)搜索系統(tǒng)上的CTR,并且我們比較了在現(xiàn)有Related Pins推薦的參與度和Similar Looks中的參與度。

圖9:Similar Looks實(shí)驗(yàn)的參與率

圖9表明,平均下,在某一天,12%的用戶在看見(jiàn)一個(gè)帶有小點(diǎn)的pin,點(diǎn)擊了這個(gè)小點(diǎn)。這些用戶愿意繼續(xù)點(diǎn)擊平均0.55個(gè)Similar Looks的結(jié)果。雖然這組數(shù)據(jù)很鼓舞人心,但是當(dāng)我們比較所有在pin的點(diǎn)擊大圖的相關(guān)內(nèi)容的參與度時(shí)(總和了Related PIns和Similar Looks的參與度作為變量組,只使用Related Pins的參與度作為控制組),Similar Looks事實(shí)上降低了在pin點(diǎn)擊大圖時(shí)的總體參與度,降低了4%。在新奇效果結(jié)束后,我們觀察到在紅點(diǎn)上的CTR上的一個(gè)逐漸降低,最終穩(wěn)定在10%左右。

為了測(cè)試我們Similar Looks的相關(guān)性,是獨(dú)立于新UI(可點(diǎn)擊點(diǎn)的目標(biāo)點(diǎn)),我們進(jìn)行了一組實(shí)驗(yàn),我們直接將Similar Looks的結(jié)果混合到現(xiàn)有的Related Pins中。這給我們一個(gè)方式去直接計(jì)算是否用戶發(fā)現(xiàn)我們的視覺(jué)相似推薦是比我們現(xiàn)存在的非視覺(jué)推薦更相關(guān)。在我們檢測(cè)到一個(gè)目標(biāo)的pins傷,這個(gè)實(shí)驗(yàn)增加了在Related Pins總體的參與度(repins和放大圖片)達(dá)到5%。雖然我們?yōu)檫@個(gè)實(shí)驗(yàn)設(shè)置了一個(gè)初始的靜態(tài)混合比例(每三個(gè)非視覺(jué)結(jié)果對(duì)一個(gè)視覺(jué)相似結(jié)果),我們稍后使用用戶點(diǎn)擊數(shù)據(jù)動(dòng)態(tài)調(diào)整了這一比例。

5.總結(jié)和未來(lái)的工作

我們證明了,利用可用的分布式計(jì)算平臺(tái),比如Amazon Web Services和開(kāi)源工具,少數(shù)工程師或?qū)W術(shù)實(shí)驗(yàn)室可以使用非專(zhuān)有工具組合構(gòu)建大規(guī)模視覺(jué)搜索系統(tǒng)。這篇文章表明,我們端對(duì)端的視覺(jué)搜索渠道,包含遞增特征更新和兩步式目標(biāo)檢測(cè)和定位方式,提高了搜索準(zhǔn)確性,降低了研發(fā)和部署成本。我們的線上產(chǎn)品經(jīng)驗(yàn)表明,視覺(jué)搜索特征可以增加用戶參與度。

我們計(jì)劃在接下來(lái)的領(lǐng)域中進(jìn)一步提升我們的系統(tǒng)。

·我們對(duì)于在線上視覺(jué)搜索系統(tǒng)環(huán)境下,基于目標(biāo)檢測(cè)方式的CNN的表現(xiàn)和效率感興趣;

·我們對(duì)Pinterest的“策展圖”來(lái)增強(qiáng)視覺(jué)搜索相關(guān)性的影響力感興趣;

·我們想嘗試用于視覺(jué)搜索的交互式交互界面。

圖像識(shí)別實(shí)例

圖10:以鞋為對(duì)象的搜索結(jié)果示例。檢測(cè)到的對(duì)象的邊界自動(dòng)突出顯示。頂層圖像是查詢圖像。

圖11:以包為目標(biāo)的檢測(cè)和定位結(jié)果樣本。[綠色:人工打標(biāo),藍(lán)色:識(shí)別結(jié)果]

圖12:以鞋為目標(biāo)的檢測(cè)和定位結(jié)果樣本。

圖13:以連衣裙為目標(biāo)的檢測(cè)和定位結(jié)果樣本。

本文譯自

Jing,Y.,Liu,D.,Kislyuk,D.,Zhai,A.,Xu,J.,Donahue,J.,Tavel,S.(2015,August).Visual search at pinterest.In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(pp.1889898).ACM.


文章推薦
美國(guó)專(zhuān)線怎么收費(fèi)適合走哪些物品,美國(guó)專(zhuān)線收費(fèi)標(biāo)準(zhǔn)
Shopify成功案例分析,shopify成功案例分析
跨境電商三種物流模式優(yōu)劣勢(shì)分析,跨境出口物流模式對(duì)比及分析
shopify封店為什么還是賣(mài)家,shopify的店鋪全被封了是怎么回事


特別聲明:以上文章內(nèi)容僅代表作者本人觀點(diǎn),不代表ESG跨境電商觀點(diǎn)或立場(chǎng)。如有關(guān)于作品內(nèi)容、版權(quán)或其它問(wèn)題請(qǐng)于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。

搜索 放大鏡
韓國(guó)平臺(tái)交流群
加入
韓國(guó)平臺(tái)交流群
掃碼進(jìn)群
歐洲多平臺(tái)交流群
加入
歐洲多平臺(tái)交流群
掃碼進(jìn)群
美國(guó)賣(mài)家交流群
加入
美國(guó)賣(mài)家交流群
掃碼進(jìn)群
ESG跨境專(zhuān)屬福利分享群
加入
ESG跨境專(zhuān)屬福利分享群
掃碼進(jìn)群
拉美電商交流群
加入
拉美電商交流群
掃碼進(jìn)群
亞馬遜跨境增長(zhǎng)交流群
加入
亞馬遜跨境增長(zhǎng)交流群
掃碼進(jìn)群
亞馬遜跨境增長(zhǎng)交流群
加入
亞馬遜跨境增長(zhǎng)交流群
掃碼進(jìn)群
拉美電商交流群
加入
拉美電商交流群
掃碼進(jìn)群
ESG獨(dú)家招商-PHH GROUP賣(mài)家交流群
加入
ESG獨(dú)家招商-PHH GROUP賣(mài)家交流群
掃碼進(jìn)群
《TikTok官方運(yùn)營(yíng)干貨合集》
《TikTok綜合運(yùn)營(yíng)手冊(cè)》
《TikTok短視頻運(yùn)營(yíng)手冊(cè)》
《TikTok直播運(yùn)營(yíng)手冊(cè)》
《TikTok全球趨勢(shì)報(bào)告》
《韓國(guó)節(jié)日營(yíng)銷(xiāo)指南》
《開(kāi)店大全-全球合集》
《開(kāi)店大全-主流平臺(tái)篇》
《開(kāi)店大全-東南亞篇》
《CD平臺(tái)自注冊(cè)指南》
通過(guò)ESG入駐平臺(tái),您將解鎖
綠色通道,更高的入駐成功率
專(zhuān)業(yè)1v1客戶經(jīng)理服務(wù)
運(yùn)營(yíng)實(shí)操指導(dǎo)
運(yùn)營(yíng)提效資源福利
平臺(tái)官方專(zhuān)屬優(yōu)惠

立即登記,定期獲得更多資訊

訂閱
聯(lián)系顧問(wèn)

平臺(tái)顧問(wèn)

平臺(tái)顧問(wèn) 平臺(tái)顧問(wèn)

微信掃一掃
馬上聯(lián)系在線顧問(wèn)

icon icon

小程序

微信小程序

ESG跨境小程序
手機(jī)入駐更便捷

icon icon

返回頂部

【免費(fèi)領(lǐng)取】全球跨境電商運(yùn)營(yíng)干貨 關(guān)閉
進(jìn)行中
進(jìn)行中
【活動(dòng)報(bào)名】2024年歐洲多藍(lán)海平臺(tái)招商沙龍
官方親臨,拆解phh group/eMAG/worten三個(gè)平臺(tái)商機(jī)
立即報(bào)名
進(jìn)行中
進(jìn)行中
TikTok運(yùn)營(yíng)必備干貨包
包含8個(gè)TikTok最新運(yùn)營(yíng)指南(市場(chǎng)趨勢(shì)、運(yùn)營(yíng)手冊(cè)、節(jié)日攻略等),官方出品,專(zhuān)業(yè)全面!
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
韓國(guó)電商節(jié)日營(yíng)銷(xiāo)指南
10+韓國(guó)電商重要營(yíng)銷(xiāo)節(jié)點(diǎn)詳細(xì)解讀;2024各節(jié)日熱度選品助力引爆訂單增長(zhǎng);8大節(jié)日營(yíng)銷(xiāo)技巧輕松撬動(dòng)大促流量密碼。
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——全球合集
涵括全球100+個(gè)電商平臺(tái)的核心信息,包括平臺(tái)精煉簡(jiǎn)介、競(jìng)爭(zhēng)優(yōu)勢(shì)、熱銷(xiāo)品類(lèi)、入駐要求以及入駐須知等關(guān)鍵內(nèi)容。
立即領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——主流平臺(tái)篇
火爆全球的跨境電商平臺(tái)合集,平臺(tái)優(yōu)勢(shì)、開(kāi)店選品、入駐條件盡在掌握
立即領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——拉美篇
涵蓋9大熱門(mén)拉美電商平臺(tái),成熟的市場(chǎng)是跨境賣(mài)家的熱門(mén)選擇!
立即領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——日韓篇
涵蓋10+日韓電商平臺(tái),入駐條件一看就懂,優(yōu)勢(shì)熱銷(xiāo)品應(yīng)有盡有
立即領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——?dú)W洲篇
涵蓋20+歐洲電商平臺(tái),詳細(xì)解讀優(yōu)勢(shì)、入駐條件、熱銷(xiāo)品等
立即領(lǐng)取