ランダムにクローリングして適当にテキストを抽出してtwitterに投稿するだけのBotの要件

概要

  • 初期設定したURLからランダムにリンクを1つ選んでアクセスする
  • アクセスしたページ内のテキストノードからテキストをランダムに選ぶ
  • テキストとURLをくっつけてtwitterに投稿する
  • アクセス先のページからまたランダムにリンクを1つ選んでまたテキストを選んでtwitterに投稿する
  • ひたすら繰り返す
  • 別途Webアプリを作って履歴を見られるようにする

各機能の概要

URLにアクセスしページ内から次にアクセスするURLを取得する

  • 基本的にはページ内のリンク全てからランダムに1つ選択するだけ。aタグのhref以外は辿らない。
  • ただし、なるべくいろんなページにいって欲しいので、過去にアクセスしたURLとドメインが等しいページには遷移しない
  • 次に遷移できるURLが見つからなくなった場合は、そのことをtwitterに投稿する(「死亡した」と呼ぶ)。その際、別のURLを選択して再度クローリングを開始する//TODO 選択基準は? //TODO html以外のページに飛んでしまうと確実に死亡するのでは?

ページ内からランダムにテキストを選ぶ

  • //TODO どうやって選ぶ?なるべくセリフっぽいものを抽出したい
  • テキストがないページに行ったらどうする?
  • とりあえずDOMからテキストを保持していてかつ子を持っていないノードをランダムに1つ抽出するだけでいいかな・・・

URLとテキストをくっつけてtwitterに投稿する

  • フォーマットだけ決める。基本的にはひたすら投稿するだけ

履歴閲覧

  • アクセスしたページ、抽出したテキスト及び、死亡の履歴が閲覧できる
  • 日時での抽出、ページングくらいはできるようにしたい
  • テキストでの検索はいらない。出てきた単語数のランキングとか見れると楽しいかも