スクレイピングツールを活用して中国マーケットを探る!中国不動産物件データ抽出 ~その2~

Pocket

 

皆さんこんにちわ!
Ataroです。

前回はスクレイピングツールを活用したデータ抽出をご紹介しました。
例として中国不動産サイト”搜房网”から
上海の賃貸物件を抽出する方法を取り上げました。

そこで、

1. Octoparseをダウンロード・インストールする
2. 抽出したいサイトを選択し、入力。
3. 抽出したいページのプログラムコードをみなくても視覚的に選択していく。


ここまでご紹介しました。
詳しくは、以下;
スクレイピングツールを活用して中国マーケットを探る! ~その1導入編~
ここを読んでいただけると幸いです。

さて今回2回目は、
不動産サイトのデータを実際に抽出してみることにします。
それでは行ってみましょう!

まずは、繰り返しになりますが、前回の復習です。

1. 不動産サイトを開く
2. 複数のページにまたがるので、
   1ページが読み込んだら次のページへ遷移するように設定する。
3. 各物件詳細ページ入口のテキストリンクをクリック、ループクリック設定。

でした。
さて、ループクリックを設定すると、
以下のワークフローページにプログラムが追加されます。



ここで注意しなければならないのが、
ワークフロー上ページで

“ページネーション”を選択(クリック)した直後に、3の作業を行うことです。

つまりページネーションの枠内に
入れ子状態として設定しなければなりません。

次のステップは、

4.抽出したい項目を選択する。


それでは、実際に抽出したい情報をピックアップしてみましょう!

各抽出したい要素をマウスオーバーすると、
要素部分が青く変化します。
それをクリックすると、緑色に変化。

右側の”操作ヒント”の”フィールド欄”に項目が追加されます。
今回は、フィールド1から順に、
不動産物件名
家賃
部屋割り
階層
住所…
の並びで抽出してみることにします

そしてすべて選択し終わったら、
“操作ヒント”にある、データを抽出する。
をクリックします。
すると、

ワークフローページにフィールドが取り込まれました。
“要素が見つからない場合”は、いったんこのままでよいと思います。

5.抽出設定


次に“保存”をクリックしてから、


“設定”をクリックします。



“抽出設定” の
”画像の読み込みを無効にする”、
”広告をブロックする”

にチェックをいれます。
理由として、読み込み速度をアップさせるためです。

少し話がそれますが、

有料プランの場合、
クラウド抽出が選択でき、
読み込むスピードが速い一方、

無料の場合ローカル抽出しか選択できません。

少しでも抽出速度を速めるための設定です。

6.抽出開始


次に抽出開始を行います。
すると、新たなページが開き、抽出が開始されます。

7. 抽出完了



ひとまず、30分放置した結果、
31件のデータが抽出されました。

今回フィールド名は変更しませんでしたが、
要素を選択時に名称は変更可能です。

やはり無料プランの場合はスピードが遅いですね。。。

今回はホテルWIFI環境(しかも中国)でテストしたので、
ネット環境要因もあってか、
検出状況がよくありませんでした。
(無料であっても本来ならもう少し速いです)

さて、検出結果をみてみます。
こうしてみると、平均物件単価は、日本円で20万。
中央値で10万。
かなりの高額物件が価格を釣り上げているのがわかりますね。

東京港区が22万なので、
ほぼ上海物件は同額です。

とこんな風にいろいろな角度から調べてみるのも
面白いですね!!

それでは今日はこの辺で~!
また!

 

Powered by RSSリスティング

 

 

Leave a Reply

Your email address will not be published. Required fields are marked *