大數(shù)據(jù)時(shí)代的精準(zhǔn)內(nèi)容推薦系統(tǒng)[大數(shù)據(jù)培訓(xùn)]

更新時(shí)間:2019年09月03日17時(shí)49分來(lái)源:傳智播客瀏覽次數(shù):

隨著全球數(shù)字化、5G通信技術(shù)的成熟、互聯(lián)網(wǎng)應(yīng)用于各行各業(yè)，累積的數(shù)據(jù)量越來(lái)越大，越來(lái)越多企業(yè)、行業(yè)和國(guó)家發(fā)現(xiàn)，可以利用類似的技術(shù)更好地服務(wù)客戶、發(fā)現(xiàn)新商業(yè)機(jī)會(huì)、擴(kuò)大新市場(chǎng)以及提升效率，由此引發(fā)了一場(chǎng)新的技術(shù)革命。

科技進(jìn)步極大豐富人類生活的同時(shí)，也給我們的生活帶來(lái)了選擇的困擾--如何快速的從頭繁雜的數(shù)據(jù)中獲取有價(jià)值的信息，推薦系統(tǒng)作為解決信息負(fù)載問題的有效方法，正在發(fā)揮著顯著的作用;傳統(tǒng)的推薦系統(tǒng)在處理大數(shù)據(jù)時(shí)存在的問題正在限制其性能的發(fā)揮。為了充分挖掘數(shù)據(jù)價(jià)值，提高推薦系統(tǒng)的性能和實(shí)時(shí)性，進(jìn)一步有效緩解信息過載的問題，我們今天對(duì)大數(shù)據(jù)時(shí)代下的精準(zhǔn)推薦系統(tǒng)進(jìn)行探討。

大數(shù)據(jù)技術(shù)

傳統(tǒng)推薦系統(tǒng)特點(diǎn)：

傳統(tǒng)推薦系統(tǒng)生成推薦項(xiàng)的過程中有2個(gè)重要階段：數(shù)據(jù)預(yù)處理階段和推薦生成階段。在數(shù)據(jù)預(yù)處理階段，推薦系統(tǒng)需要從數(shù)據(jù)中獲取用戶偏好;推薦生成階段，推薦系統(tǒng)根據(jù)用戶偏好信息，利用推薦算法，從數(shù)據(jù)集中生成用戶推薦項(xiàng)目。偏好獲取技術(shù)是指通過跟蹤、學(xué)習(xí)用戶的興趣、偏好以及性格特征等信息，實(shí)時(shí)、準(zhǔn)確地發(fā)現(xiàn)不同用戶對(duì)各種網(wǎng)絡(luò)服務(wù)的需求，并對(duì)其變化做出適應(yīng)和調(diào)整。傳統(tǒng)的用戶偏好獲取技術(shù)通過顯式或隱式的方式獲取用戶的偏好，主要分為啟發(fā)式和建模兩類。前者利用一些具有直觀意義的啟發(fā)式方法來(lái)獲取用戶需求，如最近鄰算法、聚類(K-Means算法)、相似度計(jì)算等;后者通過引入機(jī)器學(xué)習(xí)技術(shù)學(xué)習(xí)一個(gè)模型，如決策樹歸納、貝葉斯分類、聚類等。針對(duì)用戶偏好隨時(shí)間遷移的問題，研究者使用一些自適應(yīng)方法，如信息增補(bǔ)技術(shù)、遺傳算法和神經(jīng)網(wǎng)絡(luò)技術(shù)，來(lái)解決此問題。從信息過濾的角度來(lái)看，傳統(tǒng)的推薦系統(tǒng)主要分協(xié)同過濾推薦系統(tǒng)(CF， collaborative filtering recommendation)、基于內(nèi)容推薦系統(tǒng)、混合推薦系統(tǒng)。隨著移動(dòng)端設(shè)備的發(fā)展，又出現(xiàn)了上下文感知推薦系統(tǒng)。

數(shù)字化時(shí)代下的推薦系統(tǒng)和傳統(tǒng)的推薦系統(tǒng)的差異：

大數(shù)據(jù)由于有如下的特點(diǎn)：體量大(volume)、速度快(velocity)、模態(tài)多(variety)、難辨別(veracity)和價(jià)值大密度低(value)，所以與傳統(tǒng)推薦系統(tǒng)相比，數(shù)字化推薦系統(tǒng)系統(tǒng)面臨更加復(fù)雜的信息提供環(huán)境和數(shù)據(jù)特征;只有在充分、準(zhǔn)確提取和預(yù)測(cè)用戶在大數(shù)據(jù)環(huán)境下產(chǎn)生的各種數(shù)據(jù)中蘊(yùn)含的用戶偏好后，才能有效生成準(zhǔn)確度更高的推薦。因此，盡管大數(shù)據(jù)環(huán)境下推薦系統(tǒng)的基本思想與傳統(tǒng)推薦系統(tǒng)是相似的，但著重考慮大數(shù)據(jù)環(huán)境給推薦系統(tǒng)帶來(lái)的影響：數(shù)據(jù)產(chǎn)生的速度更快，數(shù)據(jù)高維稀疏，內(nèi)容采樣渠道更多，多源數(shù)據(jù)在融合時(shí)由于結(jié)構(gòu)和采集方式的不同會(huì)引入更高的噪聲和冗余，數(shù)據(jù)結(jié)構(gòu)比例發(fā)生變化，非結(jié)構(gòu)數(shù)據(jù)、半結(jié)構(gòu)數(shù)據(jù)成為主要數(shù)據(jù)，流式數(shù)據(jù)也成為常見數(shù)據(jù)類型。數(shù)據(jù)內(nèi)容變得豐富，推薦系統(tǒng)可以采集到豐富的用戶隱式反饋數(shù)據(jù)。移動(dòng)網(wǎng)絡(luò)的快速發(fā)展，促使移動(dòng)應(yīng)用變得豐富多彩，用戶使用移動(dòng)設(shè)備或登錄移動(dòng)應(yīng)用產(chǎn)生豐富的移動(dòng)社會(huì)化網(wǎng)絡(luò)數(shù)據(jù)，尤其是基于位置的GPS數(shù)據(jù)成為重要的數(shù)據(jù)。以數(shù)據(jù)處理為主的諸多大數(shù)據(jù)問題使推薦系統(tǒng)對(duì)數(shù)據(jù)處理能力的要求更高，同時(shí)豐富的數(shù)據(jù)使得用戶對(duì)推薦系統(tǒng)的實(shí)時(shí)性和準(zhǔn)確性要求更高，從而使得適合傳統(tǒng)推薦系統(tǒng)的方法并不能直接應(yīng)用到大數(shù)據(jù)環(huán)境下的移動(dòng)推薦中，需要進(jìn)行算法的改進(jìn)和擴(kuò)展，才能較好地滿足大數(shù)據(jù)環(huán)境下推薦系統(tǒng)的需求。

大數(shù)據(jù)時(shí)代下推薦系統(tǒng)的關(guān)鍵技術(shù)：

如下是推薦系統(tǒng)的基本架構(gòu)：

內(nèi)容推薦系統(tǒng)

大數(shù)據(jù)環(huán)境下推薦系統(tǒng)框架被劃分為4層，分別為源數(shù)據(jù)采集層、數(shù)據(jù)預(yù)處理層、推薦生成層以及效用評(píng)價(jià)層。其中，在數(shù)據(jù)預(yù)處理層把采集到的相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理計(jì)算，其數(shù)據(jù)處理結(jié)果作為推薦系統(tǒng)數(shù)學(xué)形式的輸入，主要工作為用戶偏好獲取、社會(huì)化網(wǎng)絡(luò)構(gòu)建、上下文用戶偏好獲取等;推薦生成層是推薦系統(tǒng)的核心，在大數(shù)據(jù)環(huán)境下，該層主要任務(wù)就是引入和充分處理大數(shù)據(jù)，并且生成實(shí)時(shí)性強(qiáng)、精準(zhǔn)度高以及用戶滿意的推薦結(jié)果，目前主要的推薦技術(shù)有大數(shù)據(jù)環(huán)境下基于矩陣分解的推薦系統(tǒng)、基于隱式反饋的推薦系統(tǒng)、基于社會(huì)化推薦系統(tǒng)以及組推薦系統(tǒng);在效用評(píng)價(jià)層，在將推薦結(jié)果呈現(xiàn)給用戶時(shí)，需要結(jié)合用戶的反饋數(shù)據(jù)，利用準(zhǔn)確性、實(shí)時(shí)性、新穎性、多樣性等評(píng)價(jià)指標(biāo)評(píng)價(jià)推薦系統(tǒng)的性能，并根據(jù)需求對(duì)其進(jìn)行擴(kuò)展、改進(jìn)等。

今天我們重點(diǎn)分析下基于隱式反饋數(shù)據(jù)的推薦系統(tǒng)：

大數(shù)據(jù)環(huán)境下，隱式反饋數(shù)據(jù)(如用戶視頻點(diǎn)擊、瀏覽網(wǎng)頁(yè)、轉(zhuǎn)發(fā)微博、購(gòu)買商品等行為數(shù)據(jù))是主要的輸入數(shù)據(jù)形式，這類數(shù)據(jù)不需要用戶投入更多的精力，同時(shí)也不會(huì)影響用戶正常生活，收集成本低、應(yīng)用場(chǎng)景廣泛，數(shù)據(jù)規(guī)模也更大，而用戶評(píng)分?jǐn)?shù)據(jù)只有非常稀疏的數(shù)據(jù)量。這些條件決定了在大數(shù)據(jù)環(huán)境下，基于隱式反饋數(shù)據(jù)的推薦系統(tǒng)將成為推薦系統(tǒng)的主要形式之一。

傳統(tǒng)的推薦系統(tǒng)忽視了大量的隱式反饋信息，而只關(guān)注于分析用戶評(píng)分?jǐn)?shù)據(jù)，這不僅浪費(fèi)了寶貴的大數(shù)據(jù)資源，更限制了大數(shù)據(jù)環(huán)境下推薦系統(tǒng)的發(fā)展。

隱式反饋數(shù)據(jù)分為“選擇”和“未選擇”兩類，其中“選擇”數(shù)據(jù)數(shù)量較少，該數(shù)據(jù)能直接反映用戶偏好;“未選擇”數(shù)據(jù)數(shù)量眾多，卻不能直接解釋為用戶不喜歡，而是無(wú)法確定用戶偏好。目前，研究者主要使用正隱式反饋數(shù)據(jù)，如Pálovics等使用用戶收聽音樂的行為數(shù)據(jù)，而浪費(fèi)了大量用戶未收聽音樂的數(shù)據(jù)。針對(duì)該問題，印鑒等提出一種隱式反饋推薦模型(IFRM， implicit feedback recommendation model)，將推薦任務(wù)轉(zhuǎn)化為用戶選擇行為發(fā)生概率的最大化問題，達(dá)到直接對(duì)隱式反饋數(shù)據(jù)進(jìn)行建模的目的，這樣既利用了“未選擇”信息，又避免引入負(fù)例的同時(shí)引入噪聲，提升了推薦質(zhì)量。同時(shí)，借鑒了降維方法解決高維稀疏數(shù)據(jù)的噪聲問題，進(jìn)一步采用分桶的并行化隱式反饋模型p-IFRM，提高了算法的效率。隱式信任數(shù)據(jù)是一種由用戶間交互行為反映的用戶關(guān)系，F(xiàn)azali等使用隱式信任數(shù)據(jù)預(yù)測(cè)用戶信任值評(píng)分，實(shí)驗(yàn)證明與采用用戶評(píng)分?jǐn)?shù)據(jù)獲取結(jié)果相似，但其數(shù)據(jù)采集成本更低，有很好的應(yīng)用前景。

相比于用戶評(píng)分?jǐn)?shù)據(jù)，隱式反饋數(shù)據(jù)能直觀反映用戶的行為偏好。大數(shù)據(jù)環(huán)境下，豐富的隱式反饋數(shù)據(jù)使得短期局部用戶偏好的捕捉也成為可能，當(dāng)前短期偏好可以較好預(yù)測(cè)用戶未來(lái)一個(gè)時(shí)間段內(nèi)的偏好，生成實(shí)時(shí)性強(qiáng)的推薦結(jié)果。 Yang等提出基于局域隱式反饋大數(shù)據(jù)的推薦算法，模型利用局部和全局的隱式反饋數(shù)據(jù)，基于用戶未來(lái)短期內(nèi)的音樂偏好受到當(dāng)前用戶偏好影響的思想，把用戶時(shí)間劃分為多個(gè)時(shí)間切片，在每個(gè)時(shí)間切片內(nèi)，綜合考慮用戶的上下文環(huán)境(如休息、工作或跑步)對(duì)用戶歌曲選擇的影響，根據(jù)當(dāng)前時(shí)間切片內(nèi)獲取的用戶音樂偏好預(yù)測(cè)下一個(gè)時(shí)間切片內(nèi)用戶的音樂偏好，進(jìn)而為用戶準(zhǔn)確推薦歌曲，并且使用SGD優(yōu)化算法，提高算法實(shí)時(shí)性，同時(shí)調(diào)節(jié)時(shí)間切片的粒度，從而獲取用戶長(zhǎng)期穩(wěn)定偏好和用戶短期易變偏好。

傳統(tǒng)的推薦方法在處理評(píng)分?jǐn)?shù)據(jù)時(shí)有良好性能，但隱式反饋數(shù)據(jù)沒有直接的評(píng)分，不同于基于評(píng)分預(yù)測(cè)的方法，直接的基于排序的方法在處理隱式反饋數(shù)據(jù)時(shí)有更好的效果。 Zhao等把微博中提取的用戶對(duì)商品反饋信息加入排序算法，取得了良好的電子商務(wù)推薦效果。但是傳統(tǒng)的排序方法目標(biāo)函數(shù)最小化需要付出很大代價(jià)，需要在目標(biāo)采樣上犧牲一定精度來(lái)改善算法的計(jì)算效率，而大數(shù)據(jù)時(shí)這種犧牲往往不能容忍。有研究者認(rèn)為，在大數(shù)據(jù)環(huán)境下，數(shù)據(jù)采樣的方式不再重要，甚至不需要采樣?；谶@樣的思想，Takács等提出RankALS，該算法不進(jìn)行采樣，直接對(duì)排序目標(biāo)函數(shù)最小化，提高了數(shù)據(jù)處理效率。

最后我們對(duì)推薦系統(tǒng)做一下展望：為了緩解更加嚴(yán)峻的“信息過載”問題，推薦系統(tǒng)受到工業(yè)界和學(xué)術(shù)界越來(lái)越多的關(guān)注。大數(shù)據(jù)環(huán)境下，數(shù)據(jù)規(guī)模更大，更新速度更快，數(shù)據(jù)類型更多，傳統(tǒng)的推薦系統(tǒng)無(wú)法直接滿足對(duì)大數(shù)據(jù)環(huán)境數(shù)據(jù)的處理需求，因此在相同的框架下，提出了大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)，其對(duì)大規(guī)模數(shù)據(jù)處理能力的需求更高，對(duì)推薦結(jié)果的準(zhǔn)確性和實(shí)時(shí)性要求也更高。同時(shí)，大規(guī)模數(shù)據(jù)也為進(jìn)一步提高推薦系統(tǒng)的準(zhǔn)確性提供了機(jī)遇。目前，采集的主要用戶數(shù)據(jù)是隱式反饋數(shù)據(jù)，相比于傳統(tǒng)推薦系統(tǒng)主要輸入數(shù)據(jù)——用戶評(píng)分?jǐn)?shù)據(jù)，隱式反饋數(shù)據(jù)數(shù)量大、成本低，同時(shí)對(duì)用戶干擾小，其中從移動(dòng)網(wǎng)絡(luò)中采集到的移動(dòng)社會(huì)化網(wǎng)絡(luò)數(shù)據(jù)，尤其是用戶位置數(shù)據(jù)，有很大的使用價(jià)值。同時(shí)，大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)應(yīng)用領(lǐng)域還有很多亟待解決的問題，例如，如何利用大數(shù)據(jù)緩解推薦結(jié)果多樣性，如何在保護(hù)用戶隱私安全的同時(shí)充分利用大數(shù)據(jù)帶來(lái)的價(jià)值等。因此，大數(shù)據(jù)環(huán)境下推薦系統(tǒng)仍然有重要的研究意義和巨大的應(yīng)用價(jià)值。

本文來(lái)自傳智播客，轉(zhuǎn)載請(qǐng)注明。

推薦了解：
大數(shù)據(jù)培訓(xùn)課程
 python+人工智能課程

上一篇：應(yīng)屆生如何快速找到互聯(lián)網(wǎng)工作？ 下一篇：大數(shù)據(jù)培訓(xùn)課程哪家的好？大數(shù)據(jù)培訓(xùn)課程推薦