カテゴリー
ビジネス

スクレイピングツールを活用して中国マーケットを探る!中国不動産物件データ抽出 ~その2~

 

皆さんこんにちわ!
Ataroです。

前回はスクレイピングツールを活用したデータ抽出をご紹介しました。
例として中国不動産サイト”搜房网”から
上海の賃貸物件を抽出する方法を取り上げました。

そこで、

1. Octoparseをダウンロード・インストールする
2. 抽出したいサイトを選択し、入力。
3. 抽出したいページのプログラムコードをみなくても視覚的に選択していく。


ここまでご紹介しました。
詳しくは、以下;
スクレイピングツールを活用して中国マーケットを探る! ~その1導入編~
ここを読んでいただけると幸いです。

さて今回2回目は、
不動産サイトのデータを実際に抽出してみることにします。
それでは行ってみましょう!

まずは、繰り返しになりますが、前回の復習です。

1. 不動産サイトを開く
2. 複数のページにまたがるので、
   1ページが読み込んだら次のページへ遷移するように設定する。
3. 各物件詳細ページ入口のテキストリンクをクリック、ループクリック設定。

でした。
さて、ループクリックを設定すると、
以下のワークフローページにプログラムが追加されます。



ここで注意しなければならないのが、
ワークフロー上ページで

“ページネーション”を選択(クリック)した直後に、3の作業を行うことです。

つまりページネーションの枠内に
入れ子状態として設定しなければなりません。

次のステップは、

4.抽出したい項目を選択する。


それでは、実際に抽出したい情報をピックアップしてみましょう!

各抽出したい要素をマウスオーバーすると、
要素部分が青く変化します。
それをクリックすると、緑色に変化。

右側の”操作ヒント”の”フィールド欄”に項目が追加されます。
今回は、フィールド1から順に、
不動産物件名
家賃
部屋割り
階層
住所…
の並びで抽出してみることにします

そしてすべて選択し終わったら、
“操作ヒント”にある、データを抽出する。
をクリックします。
すると、

ワークフローページにフィールドが取り込まれました。
“要素が見つからない場合”は、いったんこのままでよいと思います。

5.抽出設定


次に“保存”をクリックしてから、


“設定”をクリックします。



“抽出設定” の
”画像の読み込みを無効にする”、
”広告をブロックする”

にチェックをいれます。
理由として、読み込み速度をアップさせるためです。

少し話がそれますが、

有料プランの場合、
クラウド抽出が選択でき、
読み込むスピードが速い一方、

無料の場合ローカル抽出しか選択できません。

少しでも抽出速度を速めるための設定です。

6.抽出開始


次に抽出開始を行います。
すると、新たなページが開き、抽出が開始されます。

7. 抽出完了

ひとまず、30分放置した結果、
31件のデータが抽出されました。

今回フィールド名は変更しませんでしたが、
要素を選択時に名称は変更可能です。

やはり無料プランの場合はスピードが遅いですね。。。

今回はホテルWIFI環境(しかも中国)でテストしたので、
ネット環境要因もあってか、
検出状況がよくありませんでした。
(無料であっても本来ならもう少し速いです)

さて、検出結果をみてみます。
こうしてみると、平均物件単価は、日本円で20万。
中央値で10万。
かなりの高額物件が価格を釣り上げているのがわかりますね。

東京港区が22万なので、
ほぼ上海物件は同額です。

とこんな風にいろいろな角度から調べてみるのも
面白いですね!!

それでは今日はこの辺で~!
また!

 

Powered by RSSリスティング

 

作成者: ataro

中国人妻、長男(上の子)、長女(下の子)の4人家族。

4年制大学時代に中国上海へ1年間の留学期間を経て、卒業後一旦は日本企業に就職。
その後日本企業体質が合わず、上海へ。
広告系ベンチャー企業に在籍しつつ、2015年に長男出産を機に日本に本帰国。

現在は中国系某大手流通企業に在籍。

現在の趣味は子供と遊ぶこと。
ランニング。
ブログ執筆。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です