文本數(shù)據(jù)分析能夠有效幫助我們理解數(shù)據(jù)語(yǔ)料, 快速檢查出語(yǔ)料可能存在的問(wèn)題, 并指導(dǎo)之后模型訓(xùn)練過(guò)程中一些超參數(shù)的選擇。我們基于真實(shí)的中文酒店評(píng)論語(yǔ)料來(lái)講解常用的幾種文本數(shù)據(jù)分析方法。 查看全文>>
人工智能技術(shù)資訊2022-02-09 |傳智教育 |文本數(shù)據(jù)分析,文本數(shù)據(jù)分析方法
ndarray對(duì)象提供了一些可以便捷地改變數(shù)組基礎(chǔ)形狀的屬性和方法,例如,將一個(gè)3行4列的二維數(shù)組轉(zhuǎn)換成6行2列的二維數(shù)組,關(guān)于這些屬性和方法的具體說(shuō)明如表9-3所示。 查看全文>>
人工智能技術(shù)資訊2021-12-09 |傳智教育 |Numpy基礎(chǔ)操作
交叉驗(yàn)證就是將拿到的訓(xùn)練數(shù)據(jù),分為訓(xùn)練和驗(yàn)證集。以下圖為例:將數(shù)據(jù)分成4份,其中一份作為驗(yàn)證集。然后經(jīng)過(guò)4次(組)的測(cè)試,每次都更換不同的驗(yàn)證集。即得到4組模型的結(jié)果,取平均值作為最終結(jié)果。又稱4折交叉驗(yàn)證。 查看全文>>
人工智能技術(shù)資訊2021-10-28 |傳智教育 |交叉驗(yàn)證,網(wǎng)格搜索
如果不是有放回的抽樣,那么每棵樹的訓(xùn)練樣本都是不同的,都是沒(méi)有交集的,這樣每棵樹都是“有偏的”,都是絕對(duì)“片面的”(當(dāng)然這樣說(shuō)可能不對(duì)),也就是說(shuō)每棵樹訓(xùn)練出來(lái)都是有很大的差異的;而隨機(jī)森林最后分類取決于多棵樹(弱分類器)的投票表決。 查看全文>>
人工智能技術(shù)資訊2021-09-16 |傳智教育 |隨機(jī)森林
實(shí)際上,信息增益準(zhǔn)則對(duì)可取值數(shù)目較多的屬性有所偏好,為減少這種偏好可能帶來(lái)的不利影響,著名的 C4.5 決策樹算法 [Quinlan, 1993J 不直接使用信息增益,而是使用"增益率" (gain ratio) 來(lái)選擇最優(yōu)劃分屬性.增益率:增益率是用前面的信息增益Gain(D, a)和屬性a對(duì)應(yīng)的"固有值"(intrinsic value) [Quinlan , 1993J的比值來(lái)共同定義的。 查看全文>>
人工智能技術(shù)資訊2021-09-16 |傳智教育 |決策樹的劃分依據(jù),信息增益率
信息增益:以某特征劃分?jǐn)?shù)據(jù)集前后的熵的差值。熵可以表示樣本集合的不確定性,熵越大,樣本的不確定性就越大。因此可以使用劃分前后集合熵的差值來(lái)衡量使用當(dāng)前特征對(duì)于樣本集合D劃分效果的好壞。 查看全文>>
人工智能技術(shù)資訊2021-09-16 |傳智教育 |決策樹,決策樹,決策樹的劃分依據(jù)
K Nearest Neighbor算法又叫KNN算法,這個(gè)算法是機(jī)器學(xué)習(xí)里面一個(gè)比較經(jīng)典的算法, 總體來(lái)說(shuō)KNN算法是相對(duì)比較容易理解的算法,如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。 查看全文>>
人工智能技術(shù)資訊2021-08-26 |傳智教育 |機(jī)器學(xué)習(xí)中入門級(jí)必學(xué)的算法
OPenCV中如何實(shí)現(xiàn)ORB算法?在OPenCV中實(shí)現(xiàn)ORB算法,使用的是: 查看全文>>
人工智能技術(shù)資訊2021-07-30 |傳智教育 |OPenCV中如何實(shí)現(xiàn)ORB算法
北京校區(qū)