AIを育てる「継続学習」&「育てる」初心者ガイド

こんにちは。編集部鮫男です。

マイメイトのAIは週に1度、直近の相場に適応するために「継続学習」を行います。そして継続学習のプロセスには作成者がトレードを評価することで考えを反映させることができる「育てる(EDUCATE)」という機能があります。本記事では、これら「継続学習」と「育てる(EDUCATE)」について詳しくご紹介させていただきます。

継続学習で直近相場に適応していく

継続学習・・・毎週土曜日の朝10時の時点で存在する全AIエージェントを対象に、直近のトレード結果の成功と反省を取り込むために、再度学習を行う機能

毎週末ごとに再学習を実行することで、AIエージェントは直近のマーケットに合わせるように自身を更新していくのです。

継続学習はマイメイトのAIの大きな特徴です

誕生直後のAIエージェントは継続学習していない

実は誕生直後のAIエージェントの成績は、まだ継続学習が適用されていない結果となっています。そのため、誕生直後のAIエージェントが過去3年の全期間に亘って良い成績を出し続けるには、『直近の学習内容が濃く反映されやすい現時点のトレーディング手法が、過去全期間に亘って通用する万能なものである』必要があります。

AIエージェント誕生までの学習

学習中の卵の様子
  1. ユーザーの設定に従ってAIエージェントを誕生させ、過去3年間のデータ上でトレーディングを学習させます。
  2. その際過去から現在に向かって順次学習を実施するため、人間の記憶と同様に、「過去に学習した内容は徐々に薄まり、直近の学習内容は濃く記憶されやすい」ということになります。
  3.  学習が完了したAIエージェントを3年前に連れていき、継続学習によるトレーディング手法の更新無しにトレードを実施させ、結果を保存する。

マイメイトのAIは3年分学習した後もう一度3年前に戻り、初めて出会った相場環境のようにトレードをします。一般的な自動売買プログラムを作成する時によく行う過去の相場に合わせたパラメーターの調整、フィッティングを行うことはしません。

誕生後のAIの過去成績が悪いのは必然!?継続学習が必要な理由

果たしてどんな期間、どんな相場環境でも利益を出し続けることができる普遍的で魔法のようなトレーディング手法などはありえるのでしょうか…?
2019年9月9日12時現在の上位9個の AIエージェント(直近1年間での実現損益の上位9位まで)の全期間の成績を眺めてみましょう。

上記グラフが示すように、過去1年間の実現損益が素晴らしいAIエージェントでも、全期間に亘って同じアルゴリズムでずっと勝ち続けるのは難しいことがわかります。これは、『全期間に亘って通用する万能かつ普遍的なトレーディング手法の発見は相当に難しく、適宜トレーディング手法を見直し続ける継続学習が必要』であることを示唆していると考えています。

直近成績が悪いAIは過去の成功体験に引きずられている?

ユーザーの皆様の中には、「自分のAIエージェントは直近ほど成績悪い!直近の学習内容が濃く反映されるんじゃないの?」という方がいらっしゃるかと思います。これは『過去のある一定期間に対してとても当てはまりが良いトレーディング手法を見つけた成功体験があり、直近の学習内容をもってしてもその成功体験が薄まりにくい状態』と言えます。人間ぽいですよね。

継続学習とEDUCATE(育てる)の効果

続いて、「継続学習」及び「 育てる(EDUCATE) 」の効果を確認します。
検証するAIエージェントの2019年8月23日(金)から8月30日(金)の間のトレーディング結果は以下の通りです。

8月30日(金)に大きめの損失を出していることがわかります。損切りの判断は仕方ないと思いつつ、「もう少し早く決断出来たんじゃないの?8月28日や29日時点で損切りしてくれても良かったのに」という考えに基づき、8月30日の決済に対して「ダメだね」という叱りを入れています。

ここから継続学習と教育の効果検証の実験です。

実験その① 継続学習の効果、損失が軽減

「継続学習」及び「8月30日のダメだね」によって、このトレーディング結果がどう変わるか…が調査の対象です。ここでまず、「いいね」「ダメだね」を無視した状態で、AIエージェントの自発的な継続学習の効果を確認します。上記期間のデータを取り込んだ継続学習後のAIを、もう一度8月23日に連れて帰り、再度トレードをさせた結果が以下の通りです。なお評価損益の数字が微妙に異なるのは、「何時何分何秒」までを完全に一致させたシミュレーションが困難なためであり、分析結果を覆すような差異ではないことをご理解下さい。

継続学習後の変化

上記のように、特に「いいね」「ダメだね」が無くともAIエージェントは自発的に損切りの大きさを反省し、損切りのタイミングを早めることで損失を軽減していることがわかります。

実験その② 教育の効果、1度では変化なし!?

では続いて、8月30日(金)に「ダメだね」を付与し、AIエージェントにより強い反省を促した場合の変化を確認してみましょう。

1回目の教育後

変化がありません。つまり、AIエージェントは強い反省を促されたものの、8月29日時点での損切りが最も良い判断であると信じている状態です。

実験その③ しつこく教育、7度目で変化!

それでも「8月28日に損切りをして欲しい!」ということで、「ダメだね」を含めたこの期間の継続学習を何回も繰り返しました。その結果、7回目の継続学習後のトレード結果でドテン売りが一日早まりました。

7度目の評価後の変化

一貫性のある教育し続けることAIに変化がでるということです。

教育は少しずつでも着実にAIに影響を与える

ご主人様が「いいね」をした際にどのくらい強く褒めるべきか、「ダメだね」をした際にどのくらい強く叱るべきか、は丁寧な分析に基づいて決定しています。『たった1回の「いいね」「ダメだね」が、AIエージェントが長期に渡って積み上げた学習結果を簡単には壊さない』ことを強く意識していますので、上記結果は想定通りです。ですが、『ユーザーの皆様の「いいね」「ダメだね」は確実にAIエージェントの行動に少しずつ影響を与え、それが個性となっていく』ことをご理解下さい。

無理して評価しなくていい

どのトレードを褒めればいいのか叱ればいいのかの方針が定まっていない方は無理に教育をせずにAIエージェントの自主学習に任せてしまうことも選択肢の一つです。一貫性なく褒めたり叱ったりするくらいなら放置した方が良いでしょう。

教育方針のある方は育成すべき

既に自分の好みのトレードがハッキリとある方はぜひとも育成してください。例えば100pips以上の利益確定をした取引は褒めて、60pip以上の損を出した時には叱るなど損小利大を推進する方針など。先ほどの実験でもあるように必ずAIは行動変容します。長期に渡ってコツコツと「いいね」「ダメだね」の一貫したフィードバックを与え続けることが大事です。1回の「いいね」「ダメだね」がAIエージェントを壊してしまうことは無いようにデザインしてますので恐れず週に1回程度はAIエージェントのトレードを振り返り、評価してあげて下さい。

育成はシンプルに
「こういう取引をしちゃだめ」は叱る
「最高の取引だね!」は褒める
でOKです。

最後に

一般的な自動売買サービスは、多くが固定的なロジックであるが故に、長期間にわたって様々な環境に適応できるものはかなり少ないです。これはインヴァスト証券が提供しているシストレ24にも同じことが言えます。

マイメイトは自動売買サービスが抱えるこの課題を「継続学習」の機能を持って克服しようとしています。そして「育てる(EDUCATE)」によって作り手の経験を取り入れさせることでより賢くユニークなものにしていきます。先端の技術を活用するマイメイトだからこそ実現できる機能となります。毎月全体のAI成績レポートを公開しておりますが、2020年4月時点においては今のところ継続学習は非常に良い方向に機能していることが分かります。

月間レポート

約5,000体の異なる強化学習型トレードAIが毎週継続学習を行うというプラットフォームは類を見ないと思います。今後どのようになっていくのかは私たちも非常に興味深いです。

最後までお読みいただきありがとうございました!

無料ではじめる「マイメイト」

マイメイトの登録はメールアドレスさえあればできます。
AIの作成にはインヴァスト証券の口座IDが必要です。

今後、実取引化の開始を予定しています!

今から自分だけの頼りになるAIを育てませんか?