在互聯(lián)網(wǎng)中,很多業(yè)務(wù)對(duì)數(shù)據(jù)的訪問(wèn)并不是均勻的,而是呈現(xiàn)相對(duì)的數(shù)據(jù)訪問(wèn)傾斜(skewed workloads),會(huì)出現(xiàn)相對(duì)的hotspot,因此對(duì)冷熱數(shù)據(jù)的研究還是很有必要的。按照數(shù)據(jù)被使用的頻繁程度,數(shù)據(jù)可以被分為熱數(shù)據(jù)、溫?cái)?shù)據(jù)和冷數(shù)據(jù)。熱數(shù)據(jù)就是在一段時(shí)間內(nèi)訪問(wèn)的較多的數(shù)據(jù),它們?cè)诮酉聛?lái)的時(shí)間內(nèi)訪問(wèn)的概率也會(huì)非常大。
(1)、訪問(wèn)的頻繁度。 即在一段時(shí)間內(nèi)對(duì)一個(gè)數(shù)據(jù)訪問(wèn)的越多,常理上我們?cè)桨阉?dāng)成hot data。這個(gè)標(biāo)準(zhǔn)非常符合我們?cè)谥暗亩x,也非常好理解。
(2)、訪問(wèn)的時(shí)效性。 即訪問(wèn)的數(shù)據(jù)越接近當(dāng)前時(shí)間點(diǎn),我們也可以從某種程度上把其當(dāng)成hot data。因?yàn)榇蠖鄶?shù)應(yīng)用場(chǎng)景,都具有時(shí)間和空間的局部性(尤其是對(duì)于計(jì)算機(jī)領(lǐng)域來(lái)說(shuō)),當(dāng)前訪問(wèn)的數(shù)據(jù),接下來(lái)訪問(wèn)的概率相對(duì)要較大些。
以上就是基本的判別標(biāo)準(zhǔn),一些具體的應(yīng)用算法也大都是根據(jù)上面的兩個(gè)標(biāo)準(zhǔn)來(lái)劃分冷熱數(shù)據(jù)的。