RSS不求人秘籍
RSS虽好,可是不是每个网站都有,或者虽有但是是摘要模式的,不方便我们阅读,怎么办呢?
自己动手丰衣足食。
既然没有合适的那就自己来吧。
其实很简单,因为工具网上都准备好了,下面我就来举个例子吧。
来源
http://www.eeo.com.cn/
打个比方,EEO经济观察网,虽然网上已经有全文RSS了,但是我并不想查看全部信息,因为和其他很多网站有重复,我只想看观察家等独家内容,于是我找到对应网址:
http://www.eeo.com.cn/gcj/
嗯,不错,就是这里了,那么怎么生成符合我们要求的RSS呢?
Feed43
首先介绍一个神奇的网站:
https://feed43.com/
Feed43,专业将网站转制成RSS信息流,前提是你得懂一点点编程知识。真的只要一点点。
另外一个神奇的地方是网站前别加www,否则加密证书会报错,简直了。
进去之后直接点这个红色的按钮。
读取源内容
于是我们看到从上到下的若干表单,别慌,很简单的。
首先是Step 1,输入网站地址。
右侧的编码可以不输,Feed43会自动识别。
然后点击右边的Reload,Feed43会去将目标网站的html内容抓取下来显示在下面的文本框中。
寻找信息流
如图所示。右侧的减号和加号可以控制文本框的大小,以下同,不赘述。
我们上下寻找后,如图所示的地方就是我们要找的信息流的起始部分了。
设定搜索范围
Step 2是这样的。
请注意上面这个Global Search Pattern,默认是不显示的,一般网站用不到。
但是我们的EEO观察网是特殊,在我们刚刚看到的地方之前是有几个编辑推荐的文章的,编辑推荐和下面的正文内容是有可能重复的,因此我们要使用Global Search Pattern来防止编辑推荐文章的干扰。
Global Search Pattern是如何起作用的呢?
很简单,如图所示,我们将一个有特征的段落写在Global Search Pattern中,系统找到匹配的文字后就从这里开始寻找真正有效的内容。
在特征段落后加入{%}告诉网站以下内容是有效的。
<div class="list">
{%}
格式化变量
如上图所示是一段真正有效的信息,我们仔细观察后可以发现我们需要的内容。
<span data-cid="344942"><a href="http://www.eeo.com.cn/2019/0107/344942.shtml" target="_blank"> 为何高科技企业更青睐不平等投票权的股权设计</a></span>
于是我们在下方的文本框中输入以上内容。
<span {*}>
<a href="{%}" target="_blank">{%}</a></span>
是不是很简单呢?
上面这个<span {*}>
用于定位,{*}
表示这里有一段任意长度无意义的内容。
<a href="{%}" target="_blank">{%}</a></span>
这一句呢,意思是引号中的内容存入变量{%1}
,</a>
之前的内容存入变量{%2}
。
变量的数字是按照顺序生成的,尤其要注意的是变量不能超过3个否则会失败。
提取内容
输入完毕后点击Exact,如果无误的话会如图所示提示成功和提取到信息的数量。
因为EEO观察网的内容问题,我尝试了多次提取摘要内容都失败了,后来我发现自己有点傻,明明是要做全文RSS使用的,何必在意那点摘要呢,只要有文章标题和地址就OK了,哈哈哈。
如果你Exact失败,需要自己根据不同网站内容调整匹配的代码,一般来说多试几次就没问题了。
设定Feed格式
一旦你Exact成功,说明你已经可以正确让Feed43网站帮你分析网站内容和获取真正有效的信息了,接下来就根据喜好填写Step 3的内容即可。
接下来没有问题的话就可以点击Preview了。
Preview会生成订阅RSS信息流并展示,如果一切无误你就能看到想看到的RSS了。
我在最终生成的RSS中另外加入了文章的题图做显示,你不妨自己试试是如何做到的。
修改地址
第一次生成RSS时Feed43会自动分配一个很长的地址,我们可以根据需要将它修改为容易记忆和分发的地址,然后保存。
如果是匿名用户,需要记录修改Feed的地址,或者我们可以注册一个用户然后将Feed与账号绑定,这样下次就能方便查找和修改了。
全文化RSS
可是这样生成的只是摘要RSS而已,于是我们需要下一个工具。
https://feedex.net/
使用起来也很简单。
将刚刚Feed43生成的网址输入文本框,然后网站会自动生成全文RSS链接并提供预览,如图所示。
很遗憾的是不知道为什么Feedex输出的全文RSS信息是乱码的,我也尝试了在Inoreader中订阅该RSS,确认是乱码无误。
于是我们使用下一个工具。
https://fivefilters.org/content-only/
同样很简单,将刚刚Feed43生成的网址输入文本框然后点击Create即可。
输出如上图。
别担心,这可不是乱码哦,只是中文的一种编码方式。
点击Subscribe to this feed即可在Inoreader中订阅了。
搞定收工。