Unity&Pythonで機械学習の準備は整っただろうか?まだの人は以下のリンクから環境を整えてもらいたい
○Windows編
○Mac編
サンプルシーンを使って学習させてみる
ではさっそく機会学習をさせてみよう。いきなりすべてを行うのは大変なのでまずはサンプルシーンを使って機械学習の流れを学習する。
確認
まずは3DBallのシーンを再生してみよう。
![](https://joytas.net/wp-content/uploads/2021/03/img13-2-1024x578.png)
ボールを落とさないようにうまくバランスを取っている。これは学習済みのデータがセットされているからだ。
学習データを外す
学習データを外してみよう。prefabsフォルダの3DBallをダブルクリックしてプレファブ編集モードに入る
![](https://joytas.net/wp-content/uploads/2021/03/img14-2.png)
AgentをクリックしてみるとBehaviorParametersというコンポーネントがあって、そこのModelに3DBall(NNModel)というのが付与されている。これが学習済みデータだ。
![](https://joytas.net/wp-content/uploads/2021/03/img15-1-1011x1024.png)
マルぽちを押してNoneを選択する。
![](https://joytas.net/wp-content/uploads/2021/03/img16-1-933x1024.png)
自分でやってみる。。。
これで学習データが取り外された。実行してみよう、矢印キーで操作できるのでボールを落とさないように操作してみよう!12個全てが同期して動いてしまうのでどれか一つに注目して操作するのがポイントだ。
![](https://joytas.net/wp-content/uploads/2021/03/img17-2-1024x643.png)
難しい・・・
機械学習させる
仮想環境に入って。GitHubからクローンしたフォルダに移動し、以下のコマンドを打つ
(ballTest1というのは任意のID)
$ mlagents-learn config/ppo/3DBall.yaml --run-id=ballTest1
![](https://joytas.net/wp-content/uploads/2021/03/img18-2-1024x76.png)
○ML-Agentが立ち上がるのでUnityを実行する。
○最初はポロポロ落としていたが、次第に上達していっているのがわかる(Mean Rewardは平均報酬)
![](https://joytas.net/wp-content/uploads/2021/03/img20-2-709x1024.png)
学習終了
約12分かけて50万ステップの学習が終了しました。(時間はマシンスペックに依存)
![](https://joytas.net/wp-content/uploads/2021/03/img21-2-1024x242.png)
作成されたデータ場所
作成された学習データは
ml-agents->results->ballTest1
の中にある。
![](https://joytas.net/wp-content/uploads/2021/03/img22-2.png)
配置
このonnxファイルを
3DBall->TFModesフォルダの中にドラッグ&ドロップで配置する
![](https://joytas.net/wp-content/uploads/2021/03/img23-2-1024x778.png)
プレファブにアタッチ
3DBallプレファブをプレファブ編集モードで開いて、AgentsのBehaviorParametersにあるModelに今作成したデータをアタッチする。
![](https://joytas.net/wp-content/uploads/2021/03/img24-2-1024x941.png)
いざ実行!
50万ステップの学習によって、ボールを全く落とさなくなった!
ウルトラスムーズ!
トレーニングの進捗状況の観察
ml-agentsフォルダにresultsフォルダが作成されているのでまずはml-agentsフォルダに移動する。
$ cd ~/desktop/ml-agents
トレーニングプロセスをより詳細に観察するために、TensorBoardを使用できる。コマンドは以下
$ tensorboard --logdir results
ブラウザで確認してみよう。アドレスは以下
localhost:6006
![](https://joytas.net/wp-content/uploads/2021/03/img26-1-1024x452.png)
注目すべきはCumulative Reward(累計報酬)
エージェントが獲得できる最大報酬に収束していく。このグラフを見ると20万ステップほどでほぼ学習ができていることがわかる。
終わりに
今回はサンプルデータを用いて学習ファイルの作成方法とアタッチの仕方を学んだ。
次回はいよいよ1から作成していく。お楽しみに!
コメント