カテゴリー
ビジネス

スクレイピングツールを活用して中国マーケットを探る! ~その1導入編~

こんにちわ!

Ataroです。
ブログを更新するのが約3か月ぶりとなりました!

なぜブログを更新できなかったかというと、、、

この期間転職いたしまして。

しかも単身赴任で名古屋勤務となりました!

ようやく落ち着いたのがここ最近でして。

ここから定期的に発信していこうと思います。

本日お伝えしたいのは、

【スクレイピングツール】

についてです。

・スクレイピングとは?

すごく簡単にいうと
ウェブ情報を自動的に巡回し、
ほしい情報を引っ張ってくる技術です。

つまりいちいち1ページずつコピペして、
情報をまとめる。。。
みたいなことをしなくても済みます。

・どんなことに使えるの?

 

1)例えば株価など刻々と変動しているデータを瞬時に把握するため。
2)アマゾンやメルカリなど競合商品を調べたり、
3)SNSを調べて企業間のマーケティングに役立てたり。

ビッグデータを取り扱ってマーケティングに生かす。
ことができます。

・octoparseがおすすめ


とはいえ、
『スクレイピングなんてウェブ言語がわからないと
できないよ~』

とお困りのあなた。
“Octoparse”ウェブスクレイピングツールを使えば、
簡単に、コードがわからなくともウェブデータを抽出することができます。

しかも無料!

有料プランは75ドル〜/月となっております。
ちなみに有料プランの場合得られるメリットとして、

1.抽出スピードが無料プランと比べて、速い。
2.抽出時間の自動設定が出来る。
3.タスク保有数が無料と比べて多い。

とあります。
が、無料でも十分使いこなせるものとなっています。

と話はされましたが、ユーザビリティにつあては実際に私も触ってから2時間程度でおおまかに把握し、
シンプルなロジックで情報を抽出することができました。

これでビッグデータをとりたいけど、
時間がかかってしまう。。

のお困りごとを解決することができます!

それではどのように使うのか?
順に解説していきましょう!

 

・ツールをダウンロードする。


まずはこちらから
1.IDを作成
2.ツールのダウンロードをします。
3.”カスタマイズモード”を選択します。

4.抽出したいサイトページURLを入力します。

 

実践!


ここでは中国不動産サイト、”搜房网”から、
不動産情報を抽出したいと思います!


まずは上海地区から、賃貸物件ページを選択し、
こちらURLを張り付けてみます。

ブラウザ内蔵ページにURLが埋め込まれました。
これで準備完了です。

ここから、抽出したいプログラムを作っていきたいと思います。
まずは、”ワークフロー”をオンにします。


ワークフローページが出てきましたね。
左側のスペースがいわゆるプログラムの進行コードのようなものです。

さて、
不動産検索ページでは最下部に2ページ目に遷移するボタンがあります。
プログラムの順番として、
1ページ目から情報を抽出したら、
2ページ目に移動。
2ページ目の情報を抽出したら、
3ページ目に… といった具合に全ページを読み込む必要があります。

まずそのフレームを作成します。


この”ページネーション”の中にほしいデータを抽出する命令を加えていきます。

①から順番に説明していきます。

①次に抽出したいテキストリンクを選択します。

②すると抽出したいテキストリンクをクリックすると、
類似のテキストフォームが赤く変更します。

③全て選択をクリックすると、”②”で赤くなっていた部分が全選択されます。

④選択したリンクをループクリック
これで、各詳細ページに入る準備が整いました。

今回はここでひとまず終了です。

続きはまた~!

Powered by RSSリスティング

 

作成者: ataro

中国人妻、長男(上の子)、長女(下の子)の4人家族。

4年制大学時代に中国上海へ1年間の留学期間を経て、卒業後一旦は日本企業に就職。
その後日本企業体質が合わず、上海へ。
広告系ベンチャー企業に在籍しつつ、2015年に長男出産を機に日本に本帰国。

現在は中国系某大手流通企業に在籍。

現在の趣味は子供と遊ぶこと。
ランニング。
ブログ執筆。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です