讲清楚Sarsa和Q-learning的对比,各自起作用的场景
Xurui_Luo 于 2020-06-20 01:55:14 发布 613 收藏 1
两者的区别
- 两者的区别就在于Q值的更新公式上:
- Sarsa
Q ( s t , a t ) = Q ( s t , a t ) + α ∗ ( r t + γ ∗ Q ( s t + 1 , a t + 1 ) − Q ( s t , a t ) ) Q\left(s_, a_\right)=Q\left(s_, a_\right)+\alpha^\left(r_+\gamma^ Q\left(s_, a_\right)-Q\left(s_, a_\right)\right) Q ( s t , a t ) = Q ( s t , a t 如何在 IQ Option 使用SAR抛物线指标 ) + α ∗ ( r t + γ ∗ Q ( s t + 1 , a t + 1 ) − Q ( s t , a t ) ) - Q-learning
Q ( s t , a t ) = Q ( s t , a t ) + α ∗ ( r t + v ∗ max a Q ( s t + 1 , a ) − Q ( s t , a t ) ) Q\left(s_, a_\right)=Q\left(s_, a_\right)+\alpha^\left(r_+v^ \max _ Q\left(s_, a\right)-Q\left(s_, a_\right)\right) Q ( s t , a t ) = Q ( s t , a t ) + α ∗ ( r t + v ∗ a max Q ( s t + 1 , a ) − Q ( s t , a t ) ) - 明确两个概念:行为策略和目标策略
- 行为策略:agent在与环境互动时,究竟怎样通过Q表来选择action。两个算法是一样的,都为 ϵ \epsilon ϵ -greedy。
- 目标策略:
- 即最终要得到的策略,也就是找到 Q ∗ Q_* Q ∗ .有了它之后,每次在真实场景下,直接通过 Q ∗ Q_* Q ∗ 找对应状态下的最优action即可。
- agent训练的最终目的,是让Q值表确定下来。一般也不一定能完全确定,就是可能比较稳定收敛了,就近似认为是最优。
- 两个算法的区别也就在这里,就是对Q值的更新方法不同,具体见上面公式。
- 有了前面的铺垫,就很好解释了。
- Sarsa的行为策略,目标策略一致。意味着在训练的过程里,它实际上采取的行动,和它根据行动后的反馈,对自身目标的更新,都是一致的。这和下面的Q-learning算法形成鲜明对比。
- Q-learning的行为策略和目标策略不一致。导致agent会在环境里,做一些目标策略以外的事。 用RL里的一个专业术语,可以说是更多探索。好处是也许能发现惊喜,比如很难找到的全局最优。或者一些不会掉的坑,让agent受到更强烈的反馈,以后就绝对不会再掉进去等。
Sarsa
Sarsa 就是目标策略和实际行为一致的算法。适合做一些,我们希望agent在学习过程中,表现“良好”的场景。不希望他做一些”出格“,”意料外“的事。比如一个机器人很贵重,Sarsa下,它不太可能会去做冒险的事,比如掉进陷阱,导致摔坏设备的情况。
Q-learning
01-21 2万+
上一节主要讲了Monte-Carlo learning,TD learning,TD(λ)TD(\lambda)。这三个方法都是为了在给定策略下来估计价值函数V(s)。只不过Monte-Carlo learning需要得到一个完整的episode才能进行一次v值更新,而TD learning则不用,它可以每走一步就更新一次v值。 但是我们的目标是想得到最优策略,所以我们这一讲就是为了通过价值函数
08-16 260
04-12 151
08-15 1万+
09-25 3万+
一、从马尔科夫过程到Q学习 # 有一定基础的读者可以直接看第二部分 Q学习(Q-learning)算法是一种与模型无关的强化学习算法,以马尔科夫决策过程(Markov Decision Processes, MDPs)为理论基础。 标准的马尔科夫决策过程可以用一个五元组表示,其中: S是一个离散有界的状态空间; A是一个离散的动作空间; P为状态转.
01-25 758
SARSA(State-Action-Reward-State-Action)是一种基于强化学习的算法,与Q-Learning一样,都是在智体的行为过程中迭代式地学习,但SARSA采用了和Q-Learning不同的迭代策略。SARSA算法实现如下: for i in range(200): e = Env() action = epsilon_greedy(Q, e.present_state) while (e.is_end is False) and (e.step
08-28 812
强化学习——Qlearning和Sarsa的区别前言Qlearning算法简单示例Sarsa算法简单示例总结 主要是讲述一下自己学习Qlearning和Sarsa的感悟 前言 自从北京学习回到成都,一个暑假虽然”书本上“的知识没有学到什么,但是确实让身为本科生的自己眼界开阔了很多,也更加的明确了自己的目标。强化学习这一个领域之前也是仅仅知识了解大概的算法流程,知其然,不知其所以然。直到现在我也觉得其和遗传学习很相似,难道他们之间是包含与被包含的关系?(需要再继续学习才能去了解了) 本篇口水话主要是讲述一
04-10 2107
Tag: مؤشر Parabolic Sar
ربح أكثر من 30٪ في اليوم - الإستراتيجية مع مؤشر Parabolic Sar جنبًا إلى جنب مع المقاومة والدعم للعثور على نقاط الدخول لها 如何在 IQ Option 使用SAR抛物线指标 معدل ربح مرتفع بشكل مذهل.
طريقة بسيطة لكسب المال 如何在 IQ Option 使用SAR抛物线指标 في IQ Option : Parabolic Sar مع الدعم والمقاومة
حقق التجار البرازيليون نجاحًا كبيرًا في استراتيجية استخدام مؤشر Parabolic Sar جنبًا إلى جنب مع الدعم والمقاومة. ما هي أسرارهم؟
مؤشر Parabolic Sar – كيفية استخدامه IQ Option
في تداول الخيارات ، لا يمكن لمؤشر Parabolic Sar فقط توقع اتجاه السعر ولكن أيضًا يشير إلى نقاط انعكاس دقيقة في فترة زمنية قصيرة.
قم بتنزيل IQ Option للجوال
قم بتنزيل IQ Option لنظام macOS / Windows
سجل IQ Option احصل على 10،000 دولار مجاني لحساب DEMO
EDITOR PICKS
ما هو نمط شمعدان Stick Sandwich؟ كيفية التداول بشكل فعال معها.
استراتيجية لا تقبل المنافسة مع ثلاثة هنود في IQ Option
استراتيجية فوركس بسيطة مع ميدل بولينجر باند للمبتدئين
POPULAR POSTS
IQ Option إلى حساب مصرفي عبر الإنترنت
مؤشر متعرج – كيفية استخدامه IQ Option
مؤشر RSI – كيفية استخدامه IQ Option
POPULAR CATEGORY
IQ Option is one of the world's leading online trading platforms. Seize your chance to trade a wide variety of instruments, using top-notch instruments and analysis tools
Unofficial website of the IQ Optionتحذير عام من المخاطر: المنتجات المالية التي تقدمها الشركة تحمل درجة عالية من المخاطر ويمكن أن تؤدي إلى خسارة جميع أموالك. يجب ألا تستثمر أبدًا أموالًا لا يمكنك تحمل خسارتها.
Tag: parabolic sar iq option
Over 30% profit a day - The strategy with the Parabolic Sar indicator combined with the resistance and support to find entry points has an amazingly high winning rate.
Download IQ Option for 如何在 IQ Option 使用SAR抛物线指标 Mobile
Download IQ Option for macOS/Windows
Register IQ Option Get $10,000 free to DEMO account
EDITOR PICKS
What is the Stick Sandwich candlestick pattern? How to trade effectively.
Unbeatable with Three Indians strategy in IQ Option
Simple Forex strategy with the Middle Bollinger Band for beginners
POPULAR POSTS
Doji candlestick patterns – How to identify and trade them in.
Support and resistance – The best technical indicator when trading in.
RSI indicator – How to use it and trade in IQ.
POPULAR CATEGORY
IQ Option is one of the world's leading online trading platforms. Seize your chance to trade a wide variety of instruments, using top-notch instruments and analysis tools
Unofficial website 如何在 IQ Option 使用SAR抛物线指标 of the IQ OptionGeneral Risk Warning: The financial products offered by the company carry a high level of risk and can result in the loss of all your funds. You 如何在 IQ Option 使用SAR抛物线指标 should never invest money that you cannot afford to lose.如何在 IQ Option 使用SAR抛物线指标
Parabolic SAR,
Стратегия Parabolic SAR №1 со стохастиком. Простой цифровой Option Торговля на IQ Option
Стратегия, о которой я буду писать сегодня, объединяет два индикатора. Это Stochastic Oscillator и стратегия Parabolic SAR. IQ Option платформа очень хорошая
Как торговать индикатором Parabolic 如何在 IQ Option 使用SAR抛物线指标 SAR на IQ Option. 2 Легко отслеживать торговые записи
Руководство по торговле с использованием индикатора Parabolic SAR на IQ Option Что такое индикатор Parabolic SAR? Индикатор Parabolic SAR основан на цене и времени. SAR означает «Стоп».
Суперпростая стратегия Parabolic SAR и MACD для 5-минутного графика на IQ Option
Сегодня вы узнаете о стратегии Parabolic SAR и MACD. Наша комбинация индикаторов также будет включать среднюю EMA. Вы научитесь открывать успешные сделки длительностью +/-
© 2022. Все права защищены.
Binary options не рекламируются и не продаются розничным трейдерам из ЕЭЗ.
Этот веб-сайт создан пользователями платформы, а не IQ Option ООО
Чтобы обеспечить наилучшие впечатления, мы используем такие технологии, как файлы cookie, для хранения и/или доступа к информации об устройстве.Техническое хранилище или доступ строго необходимы для законной цели, позволяющей использовать конкретную услугу, явно запрошенную подписчиком или пользователем, или с единственной целью выполнения передачи сообщения по сети электронной связи.
Техническое хранилище или доступ необходимы для законной цели хранения предпочтений, которые не запрашиваются подписчиком или пользователем.
Техническое хранилище или доступ, который используется исключительно для статистических целей. Техническое хранилище или доступ, который используется исключительно для анонимных статистических целей. Без повестки в суд, добровольного согласия со стороны вашего интернет-провайдера или дополнительных записей от третьей стороны информация, хранимая или полученная только для этой цели, обычно не может быть 如何在 IQ Option 使用SAR抛物线指标 использована для вашей идентификации.
Техническое хранилище или доступ необходимы для создания профилей пользователей для отправки рекламы или для отслеживания пользователя на веб-сайте или на нескольких веб-сайтах в аналогичных маркетинговых целях.