產(chǎn)品介紹 Product introduction
網(wǎng)絡(luò)資源采集與歸檔系統(tǒng)軟件是一款針對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行采集與挖掘的專業(yè)工具。它可將瀏覽器瀏覽到的任何數(shù)據(jù)進(jìn)行采集獲取,并可按照用戶的需求將數(shù)據(jù)進(jìn)行加工、保存,還可根據(jù)用戶的需求對(duì)采集到的數(shù)據(jù)進(jìn)行發(fā)布管理。
系統(tǒng)支持多機(jī)并行爬取、分布式存儲(chǔ)、爬蟲(chóng)控制、全文檢索、站點(diǎn)原版原貌展現(xiàn)、自動(dòng)查重去重等功能。數(shù)據(jù)采集系統(tǒng)能夠?yàn)閿?shù)字圖書(shū)館的建設(shè)提供更新和增加圖書(shū)、期刊數(shù)據(jù)庫(kù)信息,對(duì)廠商提供的數(shù)據(jù)進(jìn)行采集分析提取有用信息入庫(kù)或全文檢索。
產(chǎn)品功能 Product function
主要包括:采集管理、存儲(chǔ)管理、發(fā)布管理以及系統(tǒng)平臺(tái)管理等。
操作界面由菜單、工具欄、樹(shù)形菜單、系統(tǒng)信息、分類顯示數(shù)據(jù)頁(yè)簽、監(jiān)控雷達(dá)、狀態(tài)欄等幾部分構(gòu)成。
產(chǎn)品特點(diǎn) Product feature
系統(tǒng)支持使用正則表示式去匹配需采集的數(shù)據(jù)
支持對(duì)學(xué)術(shù)站點(diǎn)的周期性保存,并以原版進(jìn)行展現(xiàn)
系統(tǒng)支持信息采集、存儲(chǔ)、展現(xiàn),可伸縮式三層架構(gòu)
信息采集層支持熱插拔
針對(duì)不同站點(diǎn),存儲(chǔ)層支持異構(gòu)數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)
異構(gòu)數(shù)據(jù)庫(kù)存儲(chǔ)使資源能夠進(jìn)行主題應(yīng)用的同時(shí)保持互聯(lián)網(wǎng)資源原貌展現(xiàn)