· 策略版本不一致
如上圖3所示,單個生成的軌跡可能包含由不同模型版本生成的片段。這種不一致性從根本上違背了標(biāo)準(zhǔn)PPO的公式化假設(shè),即所有數(shù)據(jù)都由單一模型生成。
浙公網(wǎng)安備 33010802004772號 ICP:浙B2-20080178-5 Copyright 2011 工控信息網(wǎng) All Rights Reserved 杭州濱興科技股份有限公司(股票代碼:839880) 熱線:0571-87774297 傳真:0571-87774298