網友評分: 5分
SysNucleus WebHarvy 是一款非常好用的網頁數據采集軟件,它可以幫助用戶輕松的從網頁上提取數據并保存為不同的格式,還支持提取視頻、圖片等各種類型的文件。
1、SysNucleus WebHarvy可以讓您分析網頁上的數據
2、可以顯示從一個HTML地址上分析連接數據
3、可以延伸到下一個網頁頁面
4、可以指定搜索數據的范圍以及內容
5、可以將掃描的圖片下載保存
6、支持在瀏覽器上復制鏈接搜索
7、支持配置對應資源項目搜索
8、可以使用項目名稱以及資源名稱查找
9、SysNucleus WebHarvy可以輕松提取數據
10、提供更高級的多詞語搜索以及多頁搜索
簡易網頁搜刮:WebHarvy的指向和點擊界面使Web Scraping很容易。絕對不需要編寫任何代碼或腳本來刮取數據。您將使用WebHarvy的內置瀏覽器加載網站,并且可以通過單擊鼠標來選擇要提取的數據。就這么簡單!(視頻)
智能模式檢測:自動識別網頁中出現的數據模式。因此,如果您需要從網頁上抓取項目列表(名稱,地址,電子郵件,價格等),則無需進行任何其他配置。如果數據重復,WebHarvy將自動對其進行刮擦。 保存到文件或數據庫
您可以用多種格式保存從網站提取的數據。當前版本的WebHarvy Web搜尋軟件允許您將提取的數據另存為Excel,XML,CSV,JSON或TSV文件。您也可以將抓取的數據導出到SQL數據庫。(了解更多)
抓取多頁:網站通常會在多個頁面中顯示諸如產品列表或搜索結果之類的數據。WebHarvy可以自動爬網并從多個頁面提取數據。只需指出“加載下一頁的鏈接”,WebHarvy Web Scraper就會自動從所有頁面抓取數據。(了解更多)
提交關鍵字:通過自動提交輸入關鍵字列表以搜索表單來擦除數據。可以將任意數量的輸入關鍵字提交到多個輸入文本字段以執行搜索。可以從輸入關鍵字所有組合的搜索結果中提取數據。(了解更多)(視頻)
保護隱私:為了匿名抓取并防止Web抓取軟件被Web服務器阻止,您可以選擇通過代理服務器或VPN訪問目標網站。可以使用單個代理服務器地址或代理服務器地址列表。(了解更多)
類別抓取:抓取工具使您可以從鏈接列表中抓取數據,這些鏈接會導致網站中出現類似的頁面/列表。這使您可以使用單一配置在網站內抓取類別和子類別。(了解更多)(視頻)
常用表達:允許您在網頁的文本或HTML源上應用正則表達式(RegEx)并抓取匹配的部分。這項功能強大的技術可在您抓取數據時提供更大的靈活性。(了解更多) (RegEx教程)
JavaScript支持:提取數據之前,請在瀏覽器中運行您自己的JavaScript代碼。它可用于與頁面元素進行交互,修改DOM或調用已在目標頁面中實現的JavaScript函數。(了解更多)
圖像提取:可以下載圖像或提取圖像URL。WebHarvy可以自動提取顯示在電子商務網站產品詳細信息頁面中的多個圖像。(了解更多)
自動化瀏覽器任務:WebHarvy可以輕松配置為執行諸如單擊鏈接,選擇列表/下拉選項,向字段輸入文本,滾動頁面,打開彈出窗口等任務。
技術援助:購買WebHarvy后,您將在購買之日起的1年內獲得我們的免費更新和免費支持。