概要
- 初期設定したURLからランダムにリンクを1つ選んでアクセスする
- アクセスしたページ内のテキストノードからテキストをランダムに選ぶ
- テキストとURLをくっつけてtwitterに投稿する
- アクセス先のページからまたランダムにリンクを1つ選んでまたテキストを選んでtwitterに投稿する
- ひたすら繰り返す
- 別途Webアプリを作って履歴を見られるようにする
各機能の概要
URLにアクセスしページ内から次にアクセスするURLを取得する
- 基本的にはページ内のリンク全てからランダムに1つ選択するだけ。aタグのhref以外は辿らない。
- ただし、なるべくいろんなページにいって欲しいので、過去にアクセスしたURLとドメインが等しいページには遷移しない
- 次に遷移できるURLが見つからなくなった場合は、そのことをtwitterに投稿する(「死亡した」と呼ぶ)。その際、別のURLを選択して再度クローリングを開始する//TODO 選択基準は? //TODO html以外のページに飛んでしまうと確実に死亡するのでは?
ページ内からランダムにテキストを選ぶ
- //TODO どうやって選ぶ?なるべくセリフっぽいものを抽出したい
- テキストがないページに行ったらどうする?
- とりあえずDOMからテキストを保持していてかつ子を持っていないノードをランダムに1つ抽出するだけでいいかな・・・
URLとテキストをくっつけてtwitterに投稿する
- フォーマットだけ決める。基本的にはひたすら投稿するだけ
履歴閲覧
- アクセスしたページ、抽出したテキスト及び、死亡の履歴が閲覧できる
- 日時での抽出、ページングくらいはできるようにしたい
- テキストでの検索はいらない。出てきた単語数のランキングとか見れると楽しいかも