【スクレイピング】LINEのタイムラインをすべて取得してみる②

前回の記事の続きです。

今回は作業する環境と使用するツールを定義します。

具体的には以下のような準備をします。

・Chromeをインストール

・Chromeの拡張機能のブラウザ版LINEをインストール

・ChromeDriverのインストール

実行環境はJupyterNotebookですがPythonが実行できる環境なら何でもいいです。

作業環境

windows10

※仮想マシンは使用しない方向で作業していきます。

ブラウザ版LINEをインストール

ブラウザ上のページのソースからスクレイピングするため、LINEをブラウザで表示する必要があります。

ChromeにLINE公式の拡張機能があります。

こちらからインストールしました。

TLにアクセス

ChromeのメニューバーにLINEのアイコンが表示されました。

起動すると、LINEが別ウィンドウで出ますが、TLのアイコンを押すとブラウザに移り変わって表示されます。

TLが表示されますが、今回取得したいのはユーザーの投稿なので自分のプロフィールに飛びます。

飛んだらURLをコピーしておいてください。

ChromeDriverを入手

ChromeDrive + selenium + pythonでWebスクレイピングをすることができます。

こちらからChromeDriverをダウンロードして、インストールしました。インストール後はパスを通しておきます。

Shellを開いて、

を実行し、バージョン情報の結果が帰ってきたら成功です。エラーが出てきたら環境変数のパスを通す作業で間違えている可能性が高いです。

開発環境はこんな感じで終了です。後は適当にPythonを実行できる環境にしてください。(私の場合は主にJupyterNotebookを使用しています)

 







1 Comment

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です