競馬情報のスクレイピングと機械学習
目次
モチベーション
ウマ娘プリティーダービーの事前登録が始まった2年ほど前のできごとです。
天啓がありました。「機械学習で競馬予測すれば儲かる」そうです、機械学習を勉強し始めた人が陥るあれです。誰もが一度は考えて挫折するあれです。
ウマ娘の原作レース情報はnetkeiba.comなどで公開されています。 今回は、netkeiba.comの過去レース情報のURLを指定しテーブルデータを取得するコードを書いてみます。
注意
基本的にこの手のサイトでのスクレイピングは禁止されています。 当方は今回のツールに関してはローカルのHTMLで動作を確認しております。 そのため、実際にnetkeiba.comで動作確認しておりません。 本サイトは、いかなる場合も本ツールを使用して被る不利益に対し一切の責任をもちません。
スクレイピングコード
コードの全文はこちらに置いております。 github scrape.go
まとめ
golangの基本的な操作を用いて競馬情報のスクレイピングができそうなことが確認できました。 HTMLを直書きしてますが、この部分を任意に変えて貰えればデータ収集も可能だと思います。
実際、機械学習で競馬のレース予測をやろうとすると何を情報に与えるのかが重要になると思いますが、 レース場、天気、気温、ウマのコンディション、右回り、左回り、何番に入っているのか血統、ウマの名称、ゲート番号、騎手、調教師etc..。
データを集めるのも、それを解析するのも骨が折れそうだと思い私は挫折しました。 また気が向いたらやってみたいとは思いますが・・・。