頂尖時代推出的互聯網大(dà)數據“一鍵采集”雲服務是定向針對互聯網進行網頁信息采集、處理(lǐ)、加工(gōng)、分(fēn)類的雲服務。
雲采集平台采用的核心技術(shù)是分(fēn)布式網頁爬蟲系統。分(fēn)布式爬蟲系統采取主從(cóng)方式的體(tǐ)系結構。即有一個主節點控制所有從(cóng)節點執行抓取任務,這個主節點負責分(fēn)配URL,保證集群中所有節點的負載均衡。網頁采集爬蟲系統将網頁的非結構化信息采集後, 自(zì)動提取網頁屬性信息進行結構化的處理(lǐ),字段提取(包括站(zhàn)點、來(lái)源、日(rì)期、标題、内容、包含圖片等)。
頂尖采集雲範圍
頂尖采集雲架構
頂尖采用雲特點