教育行業(yè)A股IPO第一股(股票代碼 003032)

全國(guó)咨詢(xún)/投訴熱線:400-618-4000

機(jī)器學(xué)習(xí)中入門(mén)級(jí)必學(xué)的算法有哪些?

更新時(shí)間:2021年08月26日17時(shí)44分 來(lái)源:傳智教育 瀏覽次數(shù):

好口碑IT培訓(xùn)

K-近鄰算法
什么是k-近鄰算法?
機(jī)器學(xué)習(xí)中入門(mén)級(jí)必學(xué)的算法
就是根據(jù)你的鄰居推斷出你的類(lèi)別
概念:
K Nearest Neighbor算法又叫KNN算法,這個(gè)算法是機(jī)器學(xué)習(xí)里面一個(gè)比較經(jīng)典的算法, 總體來(lái)說(shuō)KNN算法是相對(duì)比較容易理解的算法
定義
如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別。
來(lái)源:KNN算法最早是由Cover和Hart提出的一種分類(lèi)算法
距離公式
兩個(gè)樣本的距離可以通過(guò)如下公式計(jì)算,又叫歐式距離 ,關(guān)于距離公式會(huì)在后面進(jìn)行討論

線性回歸

應(yīng)用場(chǎng)景為:房?jī)r(jià)預(yù)測(cè)、銷(xiāo)售額度預(yù)測(cè)、貸款額度預(yù)測(cè)

機(jī)器學(xué)習(xí)中入門(mén)級(jí)必學(xué)的算法

什么是線性回歸?

(1)定義與公式

線性回歸(Linear regression)是利用回歸方程(函數(shù))對(duì)一個(gè)或多個(gè)自變量(特征值)和因變量(目標(biāo)值)之間關(guān)系進(jìn)行建模的一種分析方式。

特點(diǎn):只有一個(gè)自變量的情況稱(chēng)為單變量回歸,多于一個(gè)自變量情況的叫做多元回歸。

機(jī)器學(xué)習(xí)中入門(mén)級(jí)必學(xué)的算法

線性回歸用矩陣表示舉例:
那么怎么理解呢?我們來(lái)看幾個(gè)例子
期末成績(jī):0.7×考試成績(jī)+0.3×平時(shí)成績(jī)
房子價(jià)格 = 0.02×中心區(qū)域的距離 + 0.04×城市一氧化氮濃度 + (-0.12×自住房平均房?jī)r(jià)) + 0.254×城鎮(zhèn)犯罪率
上面兩個(gè)例子,我們看到特征值與目標(biāo)值之間建立了一個(gè)關(guān)系,這個(gè)關(guān)系可以理解為線性模型。

邏輯回歸

邏輯回歸(Logistic Regression)是機(jī)器學(xué)習(xí)中的一種分類(lèi)模型,邏輯回歸是一種分類(lèi)算法,雖然名字中帶有回歸。由于算法的簡(jiǎn)單和高效,在實(shí)際中應(yīng)用非常廣泛。
應(yīng)用場(chǎng)景:廣告點(diǎn)擊率、是否為垃圾郵件、是否患病、金融詐騙,虛假賬號(hào)。
這里就可以發(fā)現(xiàn)一個(gè)特點(diǎn)了,就是兩個(gè)類(lèi)別之間都屬于判斷,邏輯回歸就是解決二分類(lèi)問(wèn)題的利器。
要想掌握邏輯回歸,必須掌握兩點(diǎn):
邏輯回歸中,其輸入值是什么
如何判斷邏輯回歸的輸出
輸入:
機(jī)器學(xué)習(xí)中入門(mén)級(jí)必學(xué)的算法
激活函數(shù):sigmoid函數(shù)

判斷標(biāo)準(zhǔn)
回歸的結(jié)果輸入到sigmoid函數(shù)當(dāng)中
輸出結(jié)果:[0, 1]區(qū)間中的一個(gè)概率值,默認(rèn)為0.5為閾值

機(jī)器學(xué)習(xí)中入門(mén)級(jí)必學(xué)的算法
邏輯回歸最終的分類(lèi)是通過(guò)屬于某個(gè)類(lèi)別的概率值來(lái)判斷是否屬于某個(gè)類(lèi)別,并且這個(gè)類(lèi)別默認(rèn)標(biāo)記為1(正例),另外的一個(gè)類(lèi)別會(huì)標(biāo)記為0(反例)。(方便損失計(jì)算)
輸出結(jié)果解釋(重要):假設(shè)有兩個(gè)類(lèi)別A,B,并且假設(shè)我們的概率值為屬于A(1)這個(gè)類(lèi)別的概率值?,F(xiàn)在有一個(gè)樣本的輸入到邏輯回歸輸出結(jié)果0.55,那么這個(gè)概率值超過(guò)0.5,意味著我們訓(xùn)練或者預(yù)測(cè)的結(jié)果就是A(1)類(lèi)別。那么反之,如果得出結(jié)果為0.3那么,訓(xùn)練或者預(yù)測(cè)結(jié)果就為B(0)類(lèi)別。
關(guān)于邏輯回歸的閾值是可以進(jìn)行改變的,比如上面舉例中,如果你把閾值設(shè)置為0.6,那么輸出的結(jié)果0.55,就屬于B類(lèi)。
決策樹(shù)算法

決策樹(shù)思想的來(lái)源非常樸素,程序設(shè)計(jì)中的條件分支結(jié)構(gòu)就是if-else結(jié)構(gòu),最早的決策樹(shù)就是利用這類(lèi)結(jié)構(gòu)分割數(shù)據(jù)的一種分類(lèi)學(xué)習(xí)方法
決策樹(shù):是一種樹(shù)形結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的判斷,每個(gè)分支代表一個(gè)判斷結(jié)果的輸出,最后每個(gè)葉節(jié)點(diǎn)代表一種分類(lèi)結(jié)果,本質(zhì)是一顆由多個(gè)判斷節(jié)點(diǎn)組成的樹(shù)。
怎么理解這句話?通過(guò)一個(gè)對(duì)話例子
機(jī)器學(xué)習(xí)中入門(mén)級(jí)必學(xué)的算法

上面案例是女生通過(guò)定性的主觀意識(shí),把年齡放到最上面,那么如果需要對(duì)這一過(guò)程進(jìn)行量化,該如何處理呢?

此時(shí)需要用到信息論中的知識(shí):信息熵,信息增益。

集成算法

機(jī)器學(xué)習(xí)中入門(mén)級(jí)必學(xué)的算法

集成學(xué)習(xí)通過(guò)建立幾個(gè)模型來(lái)解決單一預(yù)測(cè)問(wèn)題。它的工作原理是生成多個(gè)分類(lèi)器/模型,各自獨(dú)立地學(xué)習(xí)和作出預(yù)測(cè)。這些預(yù)測(cè)最后結(jié)合成組合預(yù)測(cè),因此優(yōu)于任何一個(gè)單分類(lèi)的做出預(yù)測(cè)。

聚類(lèi)算法

機(jī)器學(xué)習(xí)中入門(mén)級(jí)必學(xué)的算法
實(shí)際應(yīng)用:
用戶(hù)畫(huà)像,廣告推薦,Data Segmentation,搜索引擎的流量推薦,惡意流量識(shí)別
基于位置信息的商業(yè)推送,新聞聚類(lèi),篩選排序
圖像分割,降維,識(shí)別;離群點(diǎn)檢測(cè);信用卡異常消費(fèi);發(fā)掘相同功能的基因片段
聚類(lèi)算法:
一種典型的無(wú)監(jiān)督學(xué)習(xí)算法,主要用于將相似的樣本自動(dòng)歸到一個(gè)類(lèi)別中。
在聚類(lèi)算法中根據(jù)樣本之間的相似性,將樣本劃分到不同的類(lèi)別中,對(duì)于不同的相似度計(jì)算方法,會(huì)得到不同的聚類(lèi)結(jié)果,常用的相似度計(jì)算方法有歐式距離法。







猜你喜歡:

什么是聚類(lèi)算法?【機(jī)器學(xué)習(xí)入門(mén)】

Python機(jī)器學(xué)習(xí)入門(mén)教程全套視頻下載【傳智播客】

完整機(jī)器學(xué)習(xí)項(xiàng)目的流程介紹

傳智教育ai人工智能培訓(xùn)

0 分享到:
和我們?cè)诰€交談!