SemaltがWebスクレイピングツールのテスト結果を提供

すべてのユーザーは、Webスクレイピングツールを使用するときに2つのオプションに直面します。既製のウェブスクレーパーまたはカスタムスクレーパーを使用します。カスタムスクレーパーの方が適していますが、コストが高いため、多くの人がそれを避けています。このツールは、ビジネスや好みに合わせて開発する必要があるため、多くの作業が必要です。

一方、既製のWebスクレーパーは、一般的なWebスクレイピングタスク用に設計されているため、汎用的すぎます。彼らは通常、いくつかのウェブスクレイピングプロジェクトで優れており、他の人では手抜きの仕事をしています。あなたが正しい選択をするのを助けるために、いくつかのウェブスクレーパーは徹底的なウェブスクレーピングテストにかけられ、結果が下に表示されました。

テスト基準

Webスクレイパーは、次の一般的なデータ抽出タスクでテストされました。表形式のレポート、テキストリスト、およびログインフォームをスクレイピングする能力についてテストされました。さらに、Webスクレイパーは、AJAXで構築された動的Webページからデータを抽出する機能についてもテストされました。これは通常、多くのWebスクレイパーにとって最も難しいタスクの1つです。 Captchaを処理する彼らの能力もテストされました。最後に、ブロックレイアウトを処理する能力についてテストされました。

試験結果

テストされたWebスクレイピングツールは、Content Grabber、Visual Web Ripper、Helium Scraper、Screen Scraper、OutWit Hub、Mozenda、WebSundew Extractor、Web Content Extractor、Easy Web Extractorです。

結果は、Content Grabberがテストされたすべての領域で優れたパフォーマンスを発揮するため、最高であることを示しました。したがって、それは最高の平均評価を獲得しました。また、すべてのWebスクレイピングツールがログインフォームをスクレイピングしたり、AJAXで構築されたWebページからデータをスクレイピングしたりすることもできました。したがって、これらがWebスクレーパーを必要とする2つの理由である場合は、それらのいずれかを選択できます。彼らは両方の分野で非常にうまくいきました。

Content Grabberのパフォーマンスの次はVisual Web Ripperです。すべての分野で優れたパフォーマンスを発揮しましたが、コンテンツグラバーほどではなかったため、平均評価は4.5でした。次のWebツールはヘリウムスクレーパーです。そのパフォーマンスは、Visual Web Ripperとほぼ同じです。ヘリウムスクレーパーの唯一の問題は、ブロックレイアウトの処理におけるパフォーマンスの低下です。

テスト結果によると、次の順序で実行されるWebスクレイピングツール:コンテンツグラバー、ビジュアルWebリッパー、ヘリウムスクレイパー、スクリーンスクレイパー、OutWitハブ、Mozenda、WebSundew Extractor、Web Content Extractor、Easy Web Extractor 。

結論

上記で分析したテスト結果を考慮すると、Content Grabberはすべてのテストカテゴリで5の評価を得ました。ですから、それは明らかに最高です。あなたもそれを試してみる必要があるかもしれません。残念ながら、さまざまな理由で2つのWebスクレイパーがテストから除外されました。 Web Data ExtractorとWebHarvyの開発者は、自社の製品をテストから除外しました。

テストには参加していませんが、両方についていくつかのことがわかりました。 WebHarvyは、適切にフォーマットされたページ付けされたリストからデータをスクレイピングするように設計されていますが、Web Data Extractorは、電子メール、URLなどを収集することのみを目的としています。

mass gmail