教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

大數(shù)據(jù)時代的精準內容推薦系統(tǒng)[大數(shù)據(jù)培訓]

更新時間:2019年09月03日17時49分 來源:傳智播客 瀏覽次數(shù):

隨著全球數(shù)字化、5G通信技術的成熟、互聯(lián)網(wǎng)應用于各行各業(yè),累積的數(shù)據(jù)量越來越大,越來越多企業(yè)、行業(yè)和國家發(fā)現(xiàn),可以利用類似的技術更好地服務客戶、發(fā)現(xiàn)新商業(yè)機會、擴大新市場以及提升效率,由此引發(fā)了一場新的技術革命。

科技進步極大豐富人類生活的同時,也給我們的生活帶來了選擇的困擾--如何快速的從頭繁雜的數(shù)據(jù)中獲取有價值的信息,推薦系統(tǒng)作為解決信息負載問題的有效方法,正在發(fā)揮著顯著的作用;傳統(tǒng)的推薦系統(tǒng)在處理大數(shù)據(jù)時存在的問題正在限制其性能的發(fā)揮。為了充分挖掘數(shù)據(jù)價值,提高推薦系統(tǒng)的性能和實時性,進一步有效緩解信息過載的問題,我們今天對大數(shù)據(jù)時代下的精準推薦系統(tǒng)進行探討。


大數(shù)據(jù)技術

傳統(tǒng)推薦系統(tǒng)特點:

傳統(tǒng)推薦系統(tǒng)生成推薦項的過程中有2個重要階段:數(shù)據(jù)預處理階段和推薦生成階段。在數(shù)據(jù)預處理階段,推薦系統(tǒng)需要從數(shù)據(jù)中獲取用戶偏好;推薦生成階段,推薦系統(tǒng)根據(jù)用戶偏好信息,利用推薦算法,從數(shù)據(jù)集中生成用戶推薦項目。偏好獲取技術是指通過跟蹤、學習用戶的興趣、偏好以及性格特征等信息,實時、準確地發(fā)現(xiàn)不同用戶對各種網(wǎng)絡服務的需求,并對其變化做出適應和調整。傳統(tǒng)的用戶偏好獲取技術通過顯式或隱式的方式獲取用戶的偏好,主要分為啟發(fā)式和建模兩類。前者利用一些具有直觀意義的啟發(fā)式方法來獲取用戶需求,如最近鄰算法、聚類(K-Means算法)、相似度計算等;后者通過引入機器學習技術學習一個模型,如決策樹歸納、貝葉斯分類、聚類等。針對用戶偏好隨時間遷移的問題,研究者使用一些自適應方法,如信息增補技術、遺傳算法和神經(jīng)網(wǎng)絡技術,來解決此問題。從信息過濾的角度來看,傳統(tǒng)的推薦系統(tǒng)主要分協(xié)同過濾推薦系統(tǒng)(CF, collaborative filtering recommendation)、基于內容推薦系統(tǒng)、混合推薦系統(tǒng)。隨著移動端設備的發(fā)展,又出現(xiàn)了上下文感知推薦系統(tǒng)。

數(shù)字化時代下的推薦系統(tǒng)和傳統(tǒng)的推薦系統(tǒng)的差異:

大數(shù)據(jù)由于有如下的特點:體量大(volume)、速度快(velocity)、模態(tài)多(variety)、難辨別(veracity)和價值大密度低(value),所以與傳統(tǒng)推薦系統(tǒng)相比,數(shù)字化推薦系統(tǒng)系統(tǒng)面臨更加復雜的信息提供環(huán)境和數(shù)據(jù)特征;只有在充分、準確提取和預測用戶在大數(shù)據(jù)環(huán)境下產(chǎn)生的各種數(shù)據(jù)中蘊含的用戶偏好后,才能有效生成準確度更高的推薦。因此,盡管大數(shù)據(jù)環(huán)境下推薦系統(tǒng)的基本思想與傳統(tǒng)推薦系統(tǒng)是相似的,但著重考慮大數(shù)據(jù)環(huán)境給推薦系統(tǒng)帶來的影響:數(shù)據(jù)產(chǎn)生的速度更快,數(shù)據(jù)高維稀疏,內容采樣渠道更多,多源數(shù)據(jù)在融合時由于結構和采集方式的不同會引入更高的噪聲和冗余,數(shù)據(jù)結構比例發(fā)生變化,非結構數(shù)據(jù)、半結構數(shù)據(jù)成為主要數(shù)據(jù),流式數(shù)據(jù)也成為常見數(shù)據(jù)類型。數(shù)據(jù)內容變得豐富,推薦系統(tǒng)可以采集到豐富的用戶隱式反饋數(shù)據(jù)。移動網(wǎng)絡的快速發(fā)展,促使移動應用變得豐富多彩,用戶使用移動設備或登錄移動應用產(chǎn)生豐富的移動社會化網(wǎng)絡數(shù)據(jù),尤其是基于位置的GPS數(shù)據(jù)成為重要的數(shù)據(jù)。以數(shù)據(jù)處理為主的諸多大數(shù)據(jù)問題使推薦系統(tǒng)對數(shù)據(jù)處理能力的要求更高,同時豐富的數(shù)據(jù)使得用戶對推薦系統(tǒng)的實時性和準確性要求更高,從而使得適合傳統(tǒng)推薦系統(tǒng)的方法并不能直接應用到大數(shù)據(jù)環(huán)境下的移動推薦中,需要進行算法的改進和擴展,才能較好地滿足大數(shù)據(jù)環(huán)境下推薦系統(tǒng)的需求。

大數(shù)據(jù)時代下推薦系統(tǒng)的關鍵技術:


如下是推薦系統(tǒng)的基本架構:


內容推薦系統(tǒng)

大數(shù)據(jù)環(huán)境下推薦系統(tǒng)框架被劃分為4層,分別為源數(shù)據(jù)采集層、數(shù)據(jù)預處理層、推薦生成層以及效用評價層。其中,在數(shù)據(jù)預處理層把采集到的相關數(shù)據(jù)進行預處理計算,其數(shù)據(jù)處理結果作為推薦系統(tǒng)數(shù)學形式的輸入,主要工作為用戶偏好獲取、社會化網(wǎng)絡構建、上下文用戶偏好獲取等;推薦生成層是推薦系統(tǒng)的核心,在大數(shù)據(jù)環(huán)境下,該層主要任務就是引入和充分處理大數(shù)據(jù),并且生成實時性強、精準度高以及用戶滿意的推薦結果,目前主要的推薦技術有大數(shù)據(jù)環(huán)境下基于矩陣分解的推薦系統(tǒng)、基于隱式反饋的推薦系統(tǒng)、基于社會化推薦系統(tǒng)以及組推薦系統(tǒng);在效用評價層,在將推薦結果呈現(xiàn)給用戶時,需要結合用戶的反饋數(shù)據(jù),利用準確性、實時性、新穎性、多樣性等評價指標評價推薦系統(tǒng)的性能,并根據(jù)需求對其進行擴展、改進等。

今天我們重點分析下基于隱式反饋數(shù)據(jù)的推薦系統(tǒng):

大數(shù)據(jù)環(huán)境下,隱式反饋數(shù)據(jù)(如用戶視頻點擊、瀏覽網(wǎng)頁、轉發(fā)微博、購買商品等行為數(shù)據(jù))是主要的輸入數(shù)據(jù)形式,這類數(shù)據(jù)不需要用戶投入更多的精力,同時也不會影響用戶正常生活,收集成本低、應用場景廣泛,數(shù)據(jù)規(guī)模也更大,而用戶評分數(shù)據(jù)只有非常稀疏的數(shù)據(jù)量。這些條件決定了在大數(shù)據(jù)環(huán)境下,基于隱式反饋數(shù)據(jù)的推薦系統(tǒng)將成為推薦系統(tǒng)的主要形式之一。

傳統(tǒng)的推薦系統(tǒng)忽視了大量的隱式反饋信息,而只關注于分析用戶評分數(shù)據(jù),這不僅浪費了寶貴的大數(shù)據(jù)資源,更限制了大數(shù)據(jù)環(huán)境下推薦系統(tǒng)的發(fā)展。

隱式反饋數(shù)據(jù)分為“選擇”和“未選擇”兩類,其中“選擇”數(shù)據(jù)數(shù)量較少,該數(shù)據(jù)能直接反映用戶偏好;“未選擇”數(shù)據(jù)數(shù)量眾多,卻不能直接解釋為用戶不喜歡,而是無法確定用戶偏好。目前,研究者主要使用正隱式反饋數(shù)據(jù),如Pálovics等使用用戶收聽音樂的行為數(shù)據(jù),而浪費了大量用戶未收聽音樂的數(shù)據(jù)。針對該問題,印鑒等提出一種隱式反饋推薦模型(IFRM, implicit feedback recommendation model),將推薦任務轉化為用戶選擇行為發(fā)生概率的最大化問題,達到直接對隱式反饋數(shù)據(jù)進行建模的目的,這樣既利用了“未選擇”信息,又避免引入負例的同時引入噪聲,提升了推薦質量。同時,借鑒了降維方法解決高維稀疏數(shù)據(jù)的噪聲問題,進一步采用分桶的并行化隱式反饋模型p-IFRM,提高了算法的效率。隱式信任數(shù)據(jù)是一種由用戶間交互行為反映的用戶關系,F(xiàn)azali等使用隱式信任數(shù)據(jù)預測用戶信任值評分,實驗證明與采用用戶評分數(shù)據(jù)獲取結果相似,但其數(shù)據(jù)采集成本更低,有很好的應用前景。

相比于用戶評分數(shù)據(jù),隱式反饋數(shù)據(jù)能直觀反映用戶的行為偏好。大數(shù)據(jù)環(huán)境下,豐富的隱式反饋數(shù)據(jù)使得短期局部用戶偏好的捕捉也成為可能,當前短期偏好可以較好預測用戶未來一個時間段內的偏好,生成實時性強的推薦結果。 Yang等提出基于局域隱式反饋大數(shù)據(jù)的推薦算法,模型利用局部和全局的隱式反饋數(shù)據(jù),基于用戶未來短期內的音樂偏好受到當前用戶偏好影響的思想,把用戶時間劃分為多個時間切片,在每個時間切片內,綜合考慮用戶的上下文環(huán)境(如休息、工作或跑步)對用戶歌曲選擇的影響,根據(jù)當前時間切片內獲取的用戶音樂偏好預測下一個時間切片內用戶的音樂偏好,進而為用戶準確推薦歌曲,并且使用SGD優(yōu)化算法,提高算法實時性,同時調節(jié)時間切片的粒度,從而獲取用戶長期穩(wěn)定偏好和用戶短期易變偏好。

傳統(tǒng)的推薦方法在處理評分數(shù)據(jù)時有良好性能,但隱式反饋數(shù)據(jù)沒有直接的評分,不同于基于評分預測的方法,直接的基于排序的方法在處理隱式反饋數(shù)據(jù)時有更好的效果。 Zhao等把微博中提取的用戶對商品反饋信息加入排序算法,取得了良好的電子商務推薦效果。但是傳統(tǒng)的排序方法目標函數(shù)最小化需要付出很大代價,需要在目標采樣上犧牲一定精度來改善算法的計算效率,而大數(shù)據(jù)時這種犧牲往往不能容忍。有研究者認為,在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)采樣的方式不再重要,甚至不需要采樣?;谶@樣的思想,Takács等提出RankALS,該算法不進行采樣,直接對排序目標函數(shù)最小化,提高了數(shù)據(jù)處理效率。

最后我們對推薦系統(tǒng)做一下展望:為了緩解更加嚴峻的“信息過載”問題,推薦系統(tǒng)受到工業(yè)界和學術界越來越多的關注。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)規(guī)模更大,更新速度更快,數(shù)據(jù)類型更多,傳統(tǒng)的推薦系統(tǒng)無法直接滿足對大數(shù)據(jù)環(huán)境數(shù)據(jù)的處理需求,因此在相同的框架下,提出了大數(shù)據(jù)環(huán)境下的推薦系統(tǒng),其對大規(guī)模數(shù)據(jù)處理能力的需求更高,對推薦結果的準確性和實時性要求也更高。同時,大規(guī)模數(shù)據(jù)也為進一步提高推薦系統(tǒng)的準確性提供了機遇。目前,采集的主要用戶數(shù)據(jù)是隱式反饋數(shù)據(jù),相比于傳統(tǒng)推薦系統(tǒng)主要輸入數(shù)據(jù)——用戶評分數(shù)據(jù),隱式反饋數(shù)據(jù)數(shù)量大、成本低,同時對用戶干擾小,其中從移動網(wǎng)絡中采集到的移動社會化網(wǎng)絡數(shù)據(jù),尤其是用戶位置數(shù)據(jù),有很大的使用價值。同時,大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)應用領域還有很多亟待解決的問題,例如,如何利用大數(shù)據(jù)緩解推薦結果多樣性,如何在保護用戶隱私安全的同時充分利用大數(shù)據(jù)帶來的價值等。因此,大數(shù)據(jù)環(huán)境下推薦系統(tǒng)仍然有重要的研究意義和巨大的應用價值。

本文來自傳智播客,轉載請注明。


推薦了解:
大數(shù)據(jù)培訓課程
python+人工智能課程

0 分享到:
和我們在線交談!