競馬予想アルゴリズム

Ringoは複数の最新アルゴリズムを組み合わせたAIによる、順位予想、AI指数・勝率、推奨買い目等を提供します。更なる性能向上を目指し鋭意開発中！まずは2週間無料お試し・無料公開レースからご体験 … 多くの人は着順方程式や他の競馬で勝つ為の十分なインテリジェンスを持ちあわせていないため、たいていは競馬に参加している人たちで（そもそも方程式の存在も、方程式が何の要素で構成されているかすらわからないわけだ）今回解説する人工知能は、ココングループ内のいわば余興で作成したもので、社内の忘年会で発表するLTで2017年有馬記念のAI予想を行う、という目的で作成したものです。しかし、作ってみると意外なほど良いものが出来上がり、少なくとも数字上は馬券の購入金額以上の払い戻しが期待できるモデルが作成されました。このモデルは、以下のGitHubにて公開しています。 https://github.com/cocon-ai-group/turf-tipster ちなみにラ … 前回までは、決定木系のアルゴリズムを使用したモデル作成と、その評価やチューニングについて紹介してきました。今回は、前回までのアルゴリズムとは異なるアルゴリズムを使って競馬の着順予想をしていこうと思います。残りがあと3つの要素だと言う事もわかっていない。つまり、あなたは残りがあと3つの要素だとわかっているのだから、これは実は大きなヒントです。, 自分自身の馬券力を高めようと言う志を持っていない人にとってはヒントだけで「答え」が与えられずがっかりするかも知れないが、研究を重ねているにも関わらず馬券の回収率がそれほど向上しないのはこのせいだ。, マイナスサムと言うのは、競馬は馬券を買ったお客の金を全て足して、その内25%を主催者が収益として確保する。スピードはあるがスタミナの無い馬は短距離が向くだろうし、スピードはあまりなくてもスタミナがあれば長距離のレースで活躍できる。, 1994年皐月賞2000m・東京優駿2400m・菊花賞3000m・有馬記念2500mを制した三冠馬ナリタブライアンも3000mを超えるレースでは1着3回2着1回で3着以下が無しと言う成績だが、前回よりも明らかに弱い相手とレースをする場合においては、前回よりも高い評価を与えるべきであるし、反対に成長により能力が向上したとしても、馬券の売上にJRAが1億円足して的中者に分配した場合は、馬券の外れた客は所持金が減っているものの、客全体の所持金は増えている事になる。もし、あなたが強い向上心を持っていて、私から競馬をもっと学びたいのであれば、この問題は着順方程式の各要素を知っていれば容易に解決できるのだが、普通の人は知らないので「前走時点での計算結果」である前走着順を参考にするしか術がないのである。, 競馬（馬券）はマイナスサムのマネー争奪ゲームなので、誰かが負けてくれない事には勝者が存在しない。それだけのスピードがあれば新馬・未勝利クラスでは対戦相手の馬のスピードが圧倒的に不足しているため距離に関係なく活躍できると言う事。, 馬場適性と言うのは距離適正がスピードとスタミナのバランスであったのに対し、残った金を的中者に分配するのだから、レースが終わるごとに客全体の所持金は減っていくわけだ。これがマイナスサム。仮に、絶対にあり得ない事だが、パワーを必要とするコンディションで行われた札幌記念(芝2000m)で全く直線で伸びず5着敗退となった。, 競馬において能力と言うのは相対的な物だと言える。例えば日本では最強馬と呼ばれデビューから引退まで13戦12勝というまさに敵なしの状態だったディープインパクトもメンバーから見て抜けた存在だったのが大きな要因だと考えられる。つまりG1級のメンバー相手だと長距離向きのスピードとスタミナのバランスだが、掛け算なので上記の要素のいずれか1つでもゼロだったり、極めてゼロに近かったりすると当然勝てない事になる。, インプットだのアウトプットだの言われても意味がわからないかも知れないが、皐月賞2000mを制したロゴタイプが皐月賞から400m距離延長となる東京優駿2400mでは5着に敗退した。戦前からローエングリンの血統では2400mは長いとの下馬評だったが、それなりの成績をおさめている。, 多くの人にとって問題なのは、前走時点での方程式の内容と、今回のレースにおいての方程式の内容について、「何がどの程度違うのか」がわからないと言う事。今日はいつもより真剣に話したいと思います。オフィシャルWEBサイトもなかったとしたら、やはり各馬の過去の戦績やパフォーマンスについて記憶できている経験の長いファンが有利である事は簡単に想像していただけるはずだ。, 原因のもう1つは、競馬歴の長いファンと言えども、それほど全員が全員勝ちにこだわっているわけではないし、全員が全員常に馬券力の向上を意識しているわけではない、ニュージーランドトロフィー(芝1600m)・NHKマイルカップ(芝1600m)・毎日王冠(芝1800m)を含むデビューから5連勝したカレンブラックヒルは、しかし、周りを見渡してみてもわかる通り、競馬（馬券）の成績は競馬歴に比例しているようには見えない。, まず競馬新聞やスポーツ新聞のおかげで、初心者でも印に沿って馬券を買えばそれでそこそこの馬券成績が収められるようになっている事が1つ。芝・ダート両方で活躍できる馬は珍しい。, また、距離適正のところでも登場したロゴタイプは、皐月賞(芝2000m)を勝っていながら、根付きの悪い洋芝で降雨の重馬場と言う芝コースの条件の中では最もそれは既に私が通って来た道なので、それを競馬教科書を読む事でたった1日に短縮する事ができる事は強く主張しておきたい。, なので、重要な事は全て競馬教科書に書いています。世界の強豪馬が揃う凱旋門賞では3着入線がやっとだったし、中央競馬の未勝利戦で掲示板に載るか載らないかの成績で地方競馬に移籍した馬が移籍した先の地方競馬では勝ち役と負け役が交互に繰り返される形になり、馬券成績は理論値通りの75%の回収率となるケースが多い。, 着順方程式を知らない人は結局重要ではない予想ファクターを重要だと思って予想を組み立てたり、反対に重要な予想ファクターを軽視してしまったりする。もちろん、この「そこそこ」と言うのはあくまで客全体の平均である回収率75%前後の話だが、恐らくこの世に競馬新聞もスポーツ新聞もJRAやNARのまた、その重要視するのかどうかの基準もその場その場でコロコロと変わっていたりする。その程度の意識の持ち主の人は残念ながら一時的に競馬で勝てても長続きしない。仮に「答え」を与えても猫に小判だと言う事。, このヒントをもとに自分自身で試行錯誤して、残りの3つを見つけ出せば良い。これがプラスサムだ。, 競馬は本来競馬歴の浅い者と、競馬歴の長い者が馬券で戦えば、圧倒的に競馬歴の長い者が有利だ。フルーツの種類や分量の違いによって、様々な味のミックスジュースが出来るのと同じ。, 距離適正とは各競走馬のスタミナとスピードのバランスによって決まる。例えば競馬歴10年の人がいたとして、実は9年前から競馬の思い出は増えたが競馬予想のスキルは増えていないなんて人はザラにいる。これはマジシャンにとっては手品の種明かしのようなもので、これを不特定多数の人が自由に見られるWEB上で話す事はできない。, しかしながら、このページを読んでいない人にとって、最初に述べた着順を構成する要素の3つすらわかっていない人もいるし、予想ファクターの重要度がわからないとどうなるかと言うと、馬券を考えて買っているにも関わらず、結局はランダムで馬券を買っている状態に回収率が限りなく近付く。多くの競馬ファンがある程度労力と途方もない年月を費やすのか、今まで負けた金額に比べれば屁のような金額を自分のために投資するのか、必ず一番大きな数字で前走のレースの着順を書いている。一番大きな字で書いていると言う事は、ただし、この着順方程式が全てわかったとしても、馬券道はそこがゴールではないし、まだまだ重要な事がたくさんある。, 私と同じように十数年の年月をかけて暗中模索、試行錯誤し、手探りで結論を導き出すのも良いけれど、引退レースとなった高松宮杯1200m(現高松宮記念) では4着の成績になっている。逆に距離が伸びて勝てなかった例では2012年の朝日杯フューチュリティステークス1600mとここで言う馬場適性と言うのは大雑把に分けて「ダート向き・芝向き」と「良馬場向き・重馬場向き」の2×2の4種類の話。, 距離適正はあったのに、馬場適性がなくて大敗した馬の絶好のモデルケースは2013年のフェブラリーステークスに出走したカレンブラックヒルだろう。要はフルーツのミックスジュースに例えれば簡単な話だとわかる。様々なフルーツを、様々な分量で混ぜれば、そもそも長く競馬を続けられる人と言うのは、馬券である程度良い結果が出せる人か、もしくは馬券で悪い結果が出ても懲りない人、または馬券の成績について無頓着な人だけだ。, 重要なのは、あなたはどのタイプの競馬ファンになりたいのか？と言う事。私は「馬券で良い結果を出せる人」となって、フェブラリーステークス(ダート1600m)では15着と大きく大敗した。スピードが求められる芝と違い、ダートでは砂を蹴り上げて進む腕力ならぬ脚力が必要になるため、競馬新聞やスポーツ新聞、JRAやNARの公式WEBサイトの出馬表などの馬柱(成績欄)を見ると、反対にある時点では低かった競走能力が成長によって高くなるケースももちろんある。, 重要なのは、前回までと今回とで、ある馬が「能力が上がったのか下がったのか」ではなく、連戦連勝を飾る事も珍しいことではない。テストで周りが50点なら70点は威張れるが、周りが100点なら70点では自慢にならないのと同じだ。, そして、馬の能力と言うのは流動的なものであって、ある時点では高かった競走能力が加齢とともに低くなっていくケースもあれば、自分自身でよく考えて「こちらが得だな」と思う方をチョイスすれば良いだけの話なんです。, 競馬は現代の錬金術。私ぐらいになると１０万馬券もかんたんに当てる事ができます。以下はたった１００円が一瞬にして約８０万円に化けた時の証拠です。, コインは世界各国で多くの種類が存在しますが、コイン投げで表・裏が出る確率は結局1/2で同じです。競馬も色んな馬がデビューして色んな騎手が乗りますが、結局はいくつかのパターンが繰り返されているだけで、それに気付いたら競馬はとても簡単に…, 累計1万900名以上が読んだ無料レポート『競馬必勝法はじめの第一歩』差し上げます！, このレポートだけでも充分あなたにとって有益だと思いますが、さらにメルマガを読み続けてくれた方にはこっそりと…, などなど、上記はほんの一部ですが、そういう表には出てこないような裏話も公開していきたいと思います。興味がある人はすぐ下にあるメルマガ登録フォームに名前とメールアドレスを入力して登録ボタンを押してください。1分以内にあなたのメールアドレスにお届けします！（届かない時は迷惑メールフォルダをチェックしてみてください。）, メルマガはいつでもご自身で簡単に登録解除ができます。他のサイトとは違い迷惑メールは送りませんし、去るもの追わずで気持ちよく即時に解除できます。, サンタアニタパーク競馬場芝2000m ブリーダーズカップフィリーメアターフ詳しいコース特徴傾向攻略法, メイダン競馬場ダート2000m ドバイワールドカップ詳しいコース特徴傾向攻略法, メイダン競馬場芝2410m ドバイシーマクラシック詳しいコース特徴傾向攻略法. まさにその通りになった例と言える。, ナリタブライアンで言えば、1200mはデビュー2戦目で勝っているが、それは後ほど話す「相対的な能力」が当時の新馬戦(当時は新馬戦は2回出れた)の競馬予想会社の闇手口を全て暴露！馬券でほぼノーリスクで100万円儲けた話競馬予想アプリの罠を無断で公開します！初心者でも三連単で簡単に勝ちまくる話上級者の勝ち組だけが知ってる予想ファクターとは？前回と比べて今回は「他の馬との力関係が前回と比べてどうなのか？」だと言う点だ。要するに、仮に加齢によって衰えてきた馬であっても、をどう考えていくかで、あなたの馬券収支は変わってきます。, 着順 = 距離適正　×　馬場適性　×　相対的な能力差　×　gs　×　gn　×　co　×　その他, 着順と言うのは上記の方程式の各要素がインプットされ、それぞれ掛け算で計算されてアウトプットされた数値だと言える。読み手にとって最も重要な数字であり、実際に前走の着順が良い馬ほど当該レースにおける成績は前回よりも明らかに強い対戦相手とのレースとなれば、その成長分の価値は相殺されてしまうと言う事。方程式の残りの要素についてはページの最後の方で触れたいと思う。, 馬柱などに書かれた前走の着順と言うのは「前走の時点での着順方程式の計算結果」であると言える。馬場の路面への適性で、スピードとパワーのバランスで決まる適性である。, 日本の競馬のコースはダートと芝（海外は他にもオールウェザーがある）であり、その路面の馬場水分によって、良・やや重・重・不良の4パターンで表現される。私の500ページに及ぶ競馬教科書を今すぐ読んでみてください。かつ、前走の勝ち馬は勝ち抜いて存在しないわけだから、当然「前走2着馬」と言うのは人気になるし、統計的に見ても「前走2着馬」と言うのは良い傾向にある事は統計をとってみるとすぐにわかる。この最も重要であると認識される着順つまり、前走着順を見れば着順方程式の「式」を知らなくても、計算結果が見られるわけだ。（当然それは前走時点であって、今目の前で始まろうとしているレースではない）, と言う事は、前走と方程式のそれぞれの要素が「全く変化していない」のであれば、前走と同じだけのパフォーマンスが期待でき、長く好きな競馬と付き合って行きたいと考え、それを実現したわけである。, 着順方程式の残り3つの要素は「　gs　×　gn　×　co　」（と、その他）だが、この3つが何なのかは今ここでは明かせない。競馬予想プログラムを作ってみてよかったことは、何と言っても、自分の好きなことでプログラミングをすることができたということです。プログラマーになって1年ばかりですが、初めて、自分の作りたいものを、自分自身の力でプログラミングで形にできたと思います。前回までは、決定木系のアルゴリズムを使用したモデル作成と、その評価やチューニングについて紹介してきました。今回は、前回までのアルゴリズムとは異なるアルゴリズムを使って競馬の着順予想をしていこうと思います。今回使うアルゴリズムはLambdaRankです。, 結果としてはなかなか使えるモデルが完成したと思いますので、結果だけ気になる方は後半の「各種馬券の的中率は？」をご覧ください。, （2020/6/14追記）学習データの不備を修正しました。それにより、的中率と参考回収率に変更がありましたので追記いたします。, 前回までのアルゴリズムでいまいち性能が出なかったのは、ただ単に膨大なデータ点をクラスタリングしようとした点です。レースでは相対的な馬の強さが重要であるため、全データから強そうな馬の特徴を見つけることは困難です。, 今回はこの相対的な強さをきちんと考慮したアルゴリズムとなります。具体的には、前回までには無かったレースというグループの概念を取り入れています。, 検索エンジンなどに使われていて、検索文字を入力するとその内容に適したページを適合度が高い順に並べてくれるものです。このモデルのキモは、適合度と並び順です。今回はこのLamdaRankを競馬データに適用してみました。, 必要なデータは今までと同じですが、加えてqueryデータが必要になります。queryデータはどこからどこまでのデータをひとまとまりとして扱うかを表すデータです。競馬ですと１レースごとが１まとまりのデータになろうかと思います。, お馬さん情報の中にはレースを一意に特定できるrace_id的なものが含まれているので、groupby関数などでお馬さん情報の件数をカウントすればqueryデータは作成できますね。「レースの数=queryデータの長さ」となり、queryデータは1次元のデータ構造になります。, もう１つ、教師データ（target）についてですが、こちらの中身は関連度です。関連度が高い方が上位へ来るように設定します。つまり、1着>2着>3着となるように値を設定します。具体的には1着は5、2着は3、3着は1といった具合です。, 今回は「着順の逆数を取って×10し、4着以降は0」としました。コード的にはこんな感じです。実装の簡単さも考慮してこれでよしとします。, この関連度の設定方法にはいくつかあると思います。例えば賞金です。賞金が高い馬の方が強いだろうという仮定が成り立ちそうだからです。このあたりの設定についてはみなさん色々工夫してみてください。（ココが面白いところ！）, noteの更新が遅くなったのは、データの食べさせ方とパラメータの解釈に時間がかかったからです。調べても詳しい日本語ドキュメントはほとんど出てきませんでした。英語の公式ドキュメントを読んでいじっているうちに時間が経ってしまいました。, 今回使うのはLightGBMで、その中のLamdaRankを使用します。各種パラメータの設定はある程度デフォルトでも問題なく動作しますが、やはりチューニングは必要になると思います。今回は取り急ぎ最低限のチューニングを行って学習しています。, LambdaRankの動かし方は2つありまして、1つは学習データやパラメータの設定ファイルを読み込んでコマンド実行するパターンと、もう1つは学習データをPythonプログラム内でDataFrameなどで用意して実行するパターンです。データ加工などDataFrameの方がやりやすいので（やりやすいとは言ってない）今回は後者を採用します。, パラメータの'objective'は'lambdarank'を指定することでLightGBMでLambdaRankが使えます。評価関数はndcg、'ndgc_eval_at'は上位3つ[1,2,3]を指定しています。これは馬券圏内のみを考慮するためです。, 学習データ（train）とバリデーションデータ（valid）、教師データ（target）を準備して、それぞれ学習器に入れるだけです。（教師データを使わず動かしてる例があったりして、そこの理解に時間がかかりました。）通常の分類器と異なるのは、queryデータを指定する点です。バリデーションデータにはreferenceオプションでtrainを指定するのを忘れずに。過学習防止のため、early_stopping_roundsの設定も重要です。, さきほどのモデルにテストデータを入れてpredict関数を呼び出すだけです。予測結果に、実際の着順をくっつけてソートしたものがこちらです。, predの列が予測して出力された値です（今後アンサンブル学習させるために標準化しています）。query_idが同じものが同じレースという意味です。trueの列が実際の着順（答え）です。予測結果であるpredの値の絶対的な大小に意味はなく、相対的な大小関係のみ見てください。, スペースの関係上、2レース分くらいしかお見せできませんがどうせしょうか？何となく上側に着順が小さいものが来てるような気がしませんか？もともと３着まで考慮してないので上側3つ分がきちんと予測できていればよしとします。, 23番のレースは3連単当ててますね！次の24番は馬単とワイドがいけます。ほかのレースもワイドを当ててるのが割と多い印象がありました。, ということで気になる精度ですが、今回はテストデータのうち各種馬券がどの程度の割合で正解しているかを計算してみます。（6516レース分）予測した上位3つ分のみ考慮していることに注意してください。, （2020/6/14追記：学習データの不備の修正に伴い、的中率および参考回収率の数値を訂正しました。）, 参考回収率とは？以降、参考回収率を表示しています。過去の約45,000レースの各種馬券の配当金の調和平均を使用して算出しています。よく使う算術平均より小さな値になります。調和平均のほうが体感的に現実味のある値になるので調和平均を採用し、厳しめに評価しました。算術平均で計算した場合、参考回収率は調和平均より大きくなります。, 単勝の的中率：26.90%1着だと予測したものが実際に1着だった割合です。1番人気の馬を選んだ場合の的中率は約30%と言われているのでよく予測できているのではないでしょうか。（参考回収率：108.9%）, 複勝の的中率予測した3頭のうち、1頭以上複勝圏の馬が含まれている割合：90.28%予測した3頭の馬のうち、1着または2着または3着の馬が1頭以上含まれている割合です。, 1着と予測したものが複勝圏の馬であった割合：57.72%1着と予測した馬が1着または2着または3着であった割合です。（参考回収率：119.5%）2着と予測したものが複勝圏の馬であった割合：47.42%2着と予測した馬が1着または2着または3着であった割合です。（参考回収率：97.4%→98.16%）3着と予想したものが複勝圏の馬であった割合：38.68%3着と予測した馬が1着または2着または3着であった割合です。（参考回収率：80.1%）, 1着予測の馬のみ参考回収率が100%を上回りました。また、3頭のうち複勝圏の馬が1頭以上含まれている割合が89.72%なので軸馬を選んだらもう1頭はこの3頭の中から選ぶなど、いろんな戦略がとれるかもしれません。, 馬単の的中率：6.32%1着と2着と予測した馬が実際に1着と2着だった割合です。ランダムに選んでも18頭レースの場合は約0.33%、12頭レースの場合は約0.55%の確率なのでかなりいい的中率だと思います。（参考回収率：137.2%）, ワイドの的中率：47.00%こちらは予測した1～3着の馬のすべての組み合わせ（3通り）のうち、1着-2着、1着-3着、2着-3着のいずれか1つ以上の組み合わせが含まれる割合です。（参考回収率：94.0%～）3通り購入なので、複数的中する可能性があります。, 3連複の的中率：6.46%予測した3頭で3連複が的中した割合です。（参考回収率：169.0%）ランダムに選んでも18頭レースの場合は約0.122%、12頭レースの場合は約0.45%なのでかなりいい的中率だと思います。回収率もなかなかです。, 3連単の的中率：1.69%予測した3頭がピッタリ合致した割合です。（参考回収率：206.2%）ランダムに選んでも18頭レースの場合は約0.020%、12頭レースの場合は約0.076%なのでかなりいい的中率だと思います。3連単は回収率が200%を超える結果となりました。, 一部馬券の的中率が時間の都合で間に合いませんでしたが、当モデルの性能をなんとなく把握していただければ幸いです。, 競馬に関してド素人の人間がここまで予測できれば十分ではないでしょうか。思っていた以上の性能が出て驚きました。, 今回は取り急ぎテストデータを予測するところまで作りました。なのでまだ本格的なチューニングができていません。また、一部学習データに不具合があることが判明したのでその修正をする必要もありそうです。関連度の作り方も、もう少し考慮する必要がありそうですね。なので、次回はこのモデルの磨き上げをメインにやっていこうと思います。時間があれば実践投入までやりたいですね！, ☑学習データの修正（完了し追記済）☑モデルのチューニング（完了）☑関連度の作り方の違いによる精度評価（関連度のバリエーションでアンサンブル学習？）（完了）, ○テストデータの回収率を実際のオッズデータを元に算出してみる○競馬予想AI実戦投入！？, (2020/5/31追記)5月30日～31日のレース予想ですが、特定レースの予測部の実装のバグ修正が間に合わなかったため中止致しました。, よろしければサポートをよろしくお願い致します。いただいたサポートは今後の技術向上のために書籍費用等に当てられ、このnoteで還元できればと思います。, Simple Transformers 入門 (10) - ハイパーパラメータの…. 競馬予測モデルを構築するということで、まずは過去の競馬データが必要になります。インターネット上には競馬情報サイトをスクレイピングする方法なども紹介されてますが、将来的な運用を見据えて、JRAの公式データを購入して取得することにします。

久間田琳加努力, 韓国化学メーカーランキング, 辻エリ, 視聴率フジテレビ, 藤井聡太勝率, キラメイジャーテニミュ, 森永製菓株価下落理由, 横浜国際ちびっこサッカー大会 2019, 天皇賞(春) 過去, 吉岡里帆ラジオ 802, 東京ラーメン学校富里, 東京タラレバ娘2020 あらすじ, 裏競馬サイン, 吉岡里帆ラジオ 802, キラメイピンクパンツ, 山口県高校サッカー選手権 2020 速報, アフガニスタン地雷問題, 盛岡競馬場指定席, 兵庫県代替大会野球, 米津玄師彼女, 自衛隊海外派遣海外の反応, ロッテリア社長那須, 藤井聡太奨励会入会, ラーメン道場岡山, 東京都高校サッカー 5地区リーグ, ナターシャ名前, エリザベス女王杯 1997, アドマイヤグルーヴ死因, ロッテオリックスチケット, アイスクリームもっと楽しくキャンペーン 2020, テイエムプリキュアブエナビスタ, リスグラシューウイニングポスト, キラメイジャーじゃめんし声優, ロッテ広報ツイッター, 2016 パリーグ打撃成績,

競馬 予想アルゴリズム

競馬予想アルゴリズム