knn算法
用于分類(lèi)的近鄰方法是通過(guò)knn算法實(shí)現(xiàn)的。
理解:對(duì)于測(cè)試數(shù)據(jù)集中的每一個(gè)記錄,knn確定訓(xùn)練數(shù)據(jù)集中與該記錄相似度“最近”的k條記錄,其中k是一個(gè)預(yù)先指定的整數(shù),未標(biāo)記的測(cè)試實(shí)例被分配到k個(gè)近鄰中占比最/大的那個(gè)類(lèi)中。
應(yīng)用例子:腫/瘤良性還是惡性的預(yù)測(cè)
計(jì)算距離
定義近鄰需要一個(gè)距離函數(shù)或者一個(gè)用來(lái)衡量?jī)蓚€(gè)實(shí)例之間相似性的公式。knn算法一般使用歐式距離:即用尺子連接兩個(gè)實(shí)例(類(lèi)似于二維平面中兩個(gè)點(diǎn)之間的距離)
選擇一個(gè)合適的k
k是指,我們要在測(cè)試點(diǎn)周?chē)x取多少個(gè)近鄰點(diǎn)進(jìn)行投/票表決(比如k=10,在該點(diǎn)最近的10個(gè)近鄰點(diǎn)中,有6個(gè)點(diǎn)歸類(lèi)于a,4個(gè)歸類(lèi)于b,那么測(cè)試點(diǎn)就也應(yīng)該歸類(lèi)于a)k過(guò)大或過(guò)小都會(huì)增大噪聲對(duì)模型的影響,可能會(huì)出現(xiàn)過(guò)度擬合的情況(對(duì)訓(xùn)練集模擬的非常好,對(duì)測(cè)試集的結(jié)果卻表現(xiàn)非常差,類(lèi)似于,學(xué)xi學(xué)死了那樣。。。)。常見(jiàn)做法是,k等于訓(xùn)練集中案例數(shù)量的平方根,一般取奇數(shù),盡量避免可能投/票表決相等的情況。
準(zhǔn)備算法使用數(shù)據(jù)
我們需要一種“收縮”或者重新縮放各種特征的方法,使得每個(gè)特征對(duì)于距離公式的貢獻(xiàn)相對(duì)平均。一種傳統(tǒng)的方法是min-max標(biāo)準(zhǔn)化:
x=(x-min(x))/(max(x)-min(x)),另一種是z-score標(biāo)準(zhǔn)化:
x=(x-mean(x))/標(biāo)準(zhǔn)差。
懶惰學(xué)xi不是真正在學(xué)些什么,而是一字不差地存儲(chǔ)訓(xùn)練數(shù)據(jù),不利因素是進(jìn)行預(yù)測(cè)的過(guò)程相對(duì)較慢。
備注:提高性能
可以選擇使用不同的標(biāo)準(zhǔn)化方法(min-max標(biāo)準(zhǔn)化和z-score標(biāo)準(zhǔn)化)可以測(cè)試其他的k值
西安飛凡網(wǎng)絡(luò)技術(shù)咨詢(xún)有限公司
400 011 2010
馬陸鎮(zhèn)南翔鎮(zhèn)江橋木箱木包裝箱鍍鋅鋼帶無(wú)釘卡扣木箱
供應(yīng)鑄鐵平板、鑄鐵平臺(tái)、劃線(xiàn)平板、劃線(xiàn)平臺(tái)
供應(yīng)防遙控?cái)?shù)字汽車(chē)衡
北京懷能 太陽(yáng)能燈箱廣告燈箱公交廣告牌候車(chē)亭
上海工業(yè)廢料處置,焚燒,回收
機(jī)器學(xué)xi:懶惰學(xué)xi-近鄰分量
中山膠原蛋白腸衣、膠原蛋白腸衣供應(yīng)、志通腸衣(優(yōu)質(zhì)商家)
批發(fā)進(jìn)口銅錠、銅棒、銅帶、純銅、銅泥、光亮銅、銅線(xiàn)
廣州新鮮有機(jī)的學(xué)校蔬菜配送
中宣 上海鉑熱電阻
Rab7 (D95F2) XP(R) Rabbit mAb
廠(chǎng)家直供柱式稱(chēng)重傳感器
鮑店煤礦原煤裝卸除塵霧炮機(jī)KCS400全自動(dòng)防爆除塵噴霧風(fēng)機(jī)
訂購(gòu)姜茶|優(yōu)新(在線(xiàn)咨詢(xún))|姜茶
蘇州惠民環(huán)保專(zhuān)業(yè)于清洗清理保潔的商務(wù)生活服務(wù)公司
韓國(guó)地暖身邊的節(jié)能專(zhuān)家
供應(yīng)GAC調(diào)速板ESD5111
洗紋身機(jī)、激光洗紋身機(jī)、石光科技廠(chǎng)家
供應(yīng)庭院燈、景觀(guān)燈、道路燈、壁燈、草坪燈、柱頭燈等等
OCA專(zhuān)用離型膜廠(chǎng)家報(bào)道PET離型膜產(chǎn)品資訊