超初心者がG検定をゼロから行き当たりばったりで勉強してみる~4日目~「価値反復法」




こんばんは~。
G検定の勉強を始めて4日目になりました。

すでに挫折しそうです…。
文系&事務職なので、何に役立つのか分からない。
勉強すればするほど(たった3日だけど💦)、数学の知識がないことが不安になる。もっというと、楽しくない😢

が、今日も頑張ります!

こんな状態(モチベーション低め&まだ何も学んでいない)なのに、
模擬テスト受けてみました!

DIVE INTO EXAM
というwebサイトで、アカウント登録すると無料で受けられます。

記念すべき第一回の試験結果は…





はい、200点中64点でした!!!

残念…あと一歩!

とありますが、あと一歩どころか、一歩も進んでないことを実感しました。
さっぱりと分からないので、回答にかかった時間はたったの35分程。

前回から31.5上がりましたというのは無視でお願いします。
1,2問試しにやってみた程度なので。

200問ざっと見た感想…
覚えてしまえば簡単そうな問題から、
文系(というか何も得意じゃない)の人間から見ると
一生理解できると思えない意味不明な数式を回答する問題まで様々でした。

数式の問題を見て、勉強をすすめれば進めるほど、数学の知識が必要になるのでは?という不安が……💦💦💦

G検定に合格したら、どう役立つんだろ?とまた疑問が発生してしまいました。

が、IT企業に勤めているので何か役立つ日が来ると信じて、
今日も一問学びたいと思います!

では、今日の1問行ってみます!


問題
強化学習のアルゴリズムの1つである、価値反復法の説明として、最も不適切な選択肢を選べ。

行動価値関数が最小化される場合が最適である

TD誤差が可能な限り小さくなるまで学習を行う

行動価値と状態価値の2種類の価値を定義する

Sarsaはアルゴリズムの代表例の1つである


はい!今日も絶好調に分かりません!!!

まず問題で分からない単語を調べます。

強化学習、アルゴリズム、価値反復法の3つ。
全部じゃん…。

まず強化学習について検索しました。

強化学習(Reinforcement Learning, RL)とは、システム自身が試行錯誤しながら、最適なシステム制御を実現する、機械学習手法のひとつです。

強化学習という概念自体は、昨今のAIブームよりかなり前から存在します。強化学習の原型は、機械の自律的制御を可能にする「最適制御」の研究として、1950年代には既に存在しました。1990年頃には「強化学習の生みの親」とも呼ばれるカナダ・アルバータ大学のリチャード・サットン教授らを中心に、活発に研究されていました。

Ledge.ai

強化学習の原型は1950年には存在してたんですね!
50年代なんてエルビスプレスリーの時代!

そしてアルゴリズムは、手順や計算式のことみたです。
そういえば、グーグルがアルゴリズムを変更してSEOに影響!なんて記事、良く見ますね。

そして価値反復法。

超初心者の私に分かりやすくまとめられているサイトを発見できませんでした…。

manatee
価値反復法

こちらの2つのサイトを最初から最後まで読み、
行動価値関数が最小化される場合が最適である”が不適切だと分かりました。

TD誤差が可能な限り小さくなるまで学習を行う
については記載が見つけられなかったので理解出来ていませんが、
価値反復法にはSarsaとQ学習の2つのアルゴリズムがあり、
「Q学習では常に最大の行動価値を目標値として更新していきます。」
と説明があるため、
‟行動価値観数が最小化される場合が最適である”は不適切だと分かりました。

ということで、今回は価値反復法について勉強しました!
明日も1日1問勉強がんばりますっ。


にほんブログ村 その他日記ブログ ひとりごとへ
にほんブログ村



シェアする

  • このエントリーをはてなブックマークに追加

フォローする