假的大秘寶（？）

給大家體驗一下測試的夥伴們看到的傻眼感（？？？）

概論

機器學習就是找出一個 Function
RL 中會有一個 Actor 和 Environment，Environment 會給 Actor 一個 Observation（Actor 的輸入），Actor 會輸出一個 Action （Actor 的輸出）給 Environment
Environment 會針對 Action 給 Reward，用這個 Reward 來判斷是好的還是不好的

Actor 就是我們要找的 function
ML 的步驟：
1. function with unknown
2. define loss from training data
3. optimization
RL 的步驟：
1. function with unknown: Policy Network (Actor)
  1. Input of neural network: the observation of machine represented as a vector or a matrix
  2. Output neural network: each action corresponds to a neuron on output layer
  3. 分數總和為 1
  4. Policy Network 要自己設計
  5. action 取決於取得的分數，常見的方法是使用機率，採取 Sample 的好處是同樣的畫面機器每次採取的行動也會略有不同
2. define "loss"
  1. 整個過程稱為一個 episode
  2. 將所有的 reward 加起來叫做 return
  3. reward：採取某一個行為的時候，立即得到的好處
  4. return：把整場遊戲裡面所有的 reward 加起來
  5. return 取得最大值，就是目標，因此加上負號後也就是希望越小越好作為 loss
3. Optimization
  1. 這樣的 sequence 叫做 trajectory
  2. 通常 reward function 在定義的時候，還需要同時看 Observation, action
  3. 找出一個 Network 的參數，讓最後的 R 越大越好
  4. sample 會產生隨機性
  5. Environment , reward 都是一個黑盒子，而且也有隨機性
RL 的隨機性非常大