詳細說明
信息指紋:就是提取一個信息的特征,通常是一組詞或者一組詞+權(quán)重,然后根據(jù)這組詞調(diào)用特別的算法,例如MD5,將之轉(zhuǎn)化為一組代碼,這組代碼就成為標識這個信息的指紋信息指紋可以用于去重,不過這個也是到現(xiàn)在才有所清楚.信息指紋的定義:任何一段信息文字,都可以對應(yīng)一個不太長的隨機數(shù),作為區(qū)別它和其它信息的指紋(Fingerprint),這個隨機數(shù)就是信息指紋.網(wǎng)絡(luò)爬蟲在下載網(wǎng)頁時,它將訪問過的網(wǎng)頁的網(wǎng)址都變成一個個信息指紋,存到哈希表中,每當(dāng)遇到一個新網(wǎng)址時,計算機就計算出它的指紋,然后比較該指紋是否已經(jīng)在哈希表中,來決定是否下載這個網(wǎng)頁。這種整數(shù)的查找比原來字符串查找,可以快幾倍到幾十倍。
基于指紋信息的方法主要是在網(wǎng)頁中抽取特征,通過特征匹配的方法,來確定網(wǎng)頁是否重復(fù)。對于指紋信息的抽取研究的很多,它的目的也就是盡量抽取的指紋信息受噪音信息干擾越少越好,這樣就盡可能避免噪音信息對準確率的影響。抽取出指紋信息后。因為指紋信息本身就是表征網(wǎng)頁的,所以通過對指紋信息的比較,就可以達到對網(wǎng)頁去重的目的。這種方法要較之聚類等方法速度更快,因為它所用的信息更少,可能是一段文字,而不是整篇文章,準確率也更高,因為它在選取指紋信息的過程中會盡量地避免網(wǎng)頁噪音信息的干擾。注意:聚類方法不合適,因為每次新來網(wǎng)頁可能會使得聚類的中心發(fā)生變化,代價太大,同時還存在兩兩比對的情,這個效率也很低,所以就排除了.
?