规则分隔方式,每行一个采集规则
程序会从第一条向下依次执行
一条规则包含操作符、正则表达式、和参数,有的操作符不需要参数,他们之前用@分隔
操作符说明
match
获取内容
match@正则表达式
replace
替换内容
replace@正则表达式@替换的内容
join
链接字符串
join@前面的字符串@后面的字符串
matchall
获取所有匹配的内容,内容之前用逗号分隔,一般用于获取列表页面的所有链接,或内容页中的图片
matchall@正则表达式
gettab
获取一个标签及内容
gettab@标签
例子
内容
<p>
<h1 class="title">123</h1>
</p>
gettab@<h1 class="title">
获取到的是
<h1 class="title">123</h1>