【スクレイピング】LINEのタイムラインをすべて取得してみる④

前回の記事の続きです

TLの内容を取得するスクリプト

contentsというリストを作り、その中に時間、投稿文、コメント、写真(URL)を入れていきます。

動画に関しては、リンク先のaタグがjsでサムネイルのクリック後に出現するようになっているのでループに時間がかかるようなので省きました。投稿文やコメントの「もっと見る」も同様の理由で展開には対応しないことにしました。

以下がソースコードです。

リストの中に辞書型で内容を保存しています。また、原因が分かりませんが、空白内容が辞書に挿入されていく現象が起きたので空白の内容の際はcontinueするようにしています。

ループする回数はfor _ in range(10)の部分でrangeの引数*10が取得できる投稿数になっています。この部分は変数にして他で定義しようと思っています。

driver.execute_script(‘scroll(0, document.body.scrollHeight)’)で画面を最下層までスクロールさせて続きの内容を読み込んでいます。

また、スクリプト実行中に取得数を知りたかったので、getting_postを定義して

この部分で作業中に進捗状況が分かるようにしています。

スクレイピングして情報取得内容をリスト内に入れることができたので、次はリストを整形や並び替えする工程に移りたいと思います。







コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です