【スクレイピング】LINEのタイムラインをすべて取得してみる⑤

前回の記事の続きです。

得られたリストの中身を整理したいと思います。このリストには問題点がいくつかあります。

・今年の投稿には年の日付が書いていない

・いくつか重複した要素が存在する

・空白のテキストが存在する

・時間が日付型になっていない

・順番がめちゃくちゃ

これらの点を順を追って整形していきたいと思います。

今年の投稿に「2019」をつける

本当は今年の投稿をだけを選択して修正したかったのですが、正規表現が面倒くさくて、今年の投稿までのインデックス番号までループして処理する原始的な処理をしました。後でちゃんとしたコードに直しときます。

重複した要素を削除

import jsonは後で1番上に記述しなおします。

textが空白の辞書を削除

リスト内包表記を使用してtextが空白になっている要素だけ削除しています。

timeを日付型に変換

datetimeを使用しています。これも後で1番上に表記しなおします。

これまでtimeはstr型でしたが、これをdatetime型に変換しています。

日付順に並び替え

最後に、バラバラになっている配列の順番を日付順にソートしなおします。

次回は作ったスクリプトを関数に定義して綺麗にしたいと思います。







コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です