背景
智能规划求解器需要有动作模型和PDDL作为输入,然而从头构建动作模型是十分困难的,于是提出ARMS算法可以从正确的规划中直接学习动作模型。值得注意的是,ARMS算法的输入不要求观测到的规划必须包含中间的状态信息。
Introduction
创新点
- 以前的方法学习动作模型都需要规划的状态信息和动作序列
- ARMS学习动作模型不需要规划解的状态信息
基本概念
-
action signature
动作名和动作参数列表构成的字符串。
目标
学习动作模型,具体来说:
- 学出每个action signature的前置条件
- 学出每个action signature的后置条件
ARMS算法
ARMS算法有2大阶段
- Phase one
从所有规划中挖掘动作集合 - Phase Two
从动作集合以及最初的relation-action pairs确定一些Constraints,然后将Constraints转化为weighted MAX-SAT问题并求解。
Related Work
- Learning from state images
- Inductive logic programming
- Knowledge acquisition in planing
- Satisfiability problems
- Markov logic networks
- Relation to SLAF algorithms
- PDDL background
Problem statement
ARMS算法的输入:
- 初始状态
- 目标状态
- 动作序列
ARMS算法详情
模型空间很大,如何寻找较优模型?
答:利用Constraints对模型空间进行限制。