You've successfully subscribed to 完美的胖达
Great! Next, complete checkout for full access to 完美的胖达
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
RSS不求人秘籍

RSS不求人秘籍

. 7 min read

RSS虽好,可是不是每个网站都有,或者虽有但是是摘要模式的,不方便我们阅读,怎么办呢?

自己动手丰衣足食

既然没有合适的那就自己来吧。

其实很简单,因为工具网上都准备好了,下面我就来举个例子吧。

来源

http://www.eeo.com.cn/
打个比方,EEO经济观察网,虽然网上已经有全文RSS了,但是我并不想查看全部信息,因为和其他很多网站有重复,我只想看观察家等独家内容,于是我找到对应网址:
http://www.eeo.com.cn/gcj/
Jietu20190121-163013@2x
嗯,不错,就是这里了,那么怎么生成符合我们要求的RSS呢?

Feed43

首先介绍一个神奇的网站:
https://feed43.com/
Feed43,专业将网站转制成RSS信息流,前提是你得懂一点点编程知识。真的只要一点点。
另外一个神奇的地方是网站前别加www,否则加密证书会报错,简直了。

Jietu20190121-163245@2x
进去之后直接点这个红色的按钮。

读取源内容

于是我们看到从上到下的若干表单,别慌,很简单的。
Jietu20190121-163330@2x
首先是Step 1,输入网站地址。
右侧的编码可以不输,Feed43会自动识别。
然后点击右边的Reload,Feed43会去将目标网站的html内容抓取下来显示在下面的文本框中。

寻找信息流

Jietu20190121-163603@2x
如图所示。右侧的减号和加号可以控制文本框的大小,以下同,不赘述。
我们上下寻找后,如图所示的地方就是我们要找的信息流的起始部分了。

设定搜索范围

Jietu20190121-163757@2x
Step 2是这样的。
请注意上面这个Global Search Pattern,默认是不显示的,一般网站用不到。
但是我们的EEO观察网是特殊,在我们刚刚看到的地方之前是有几个编辑推荐的文章的,编辑推荐和下面的正文内容是有可能重复的,因此我们要使用Global Search Pattern来防止编辑推荐文章的干扰。

Global Search Pattern是如何起作用的呢?
很简单,如图所示,我们将一个有特征的段落写在Global Search Pattern中,系统找到匹配的文字后就从这里开始寻找真正有效的内容。
Jietu20190121-164113@2x
在特征段落后加入{%}告诉网站以下内容是有效的。

<div class="list">
{%}

格式化变量

Jietu20190121-164319@2x
如上图所示是一段真正有效的信息,我们仔细观察后可以发现我们需要的内容。

<span data-cid="344942"><a href="http://www.eeo.com.cn/2019/0107/344942.shtml" target="_blank"> 为何高科技企业更青睐不平等投票权的股权设计</a></span>

Jietu20190121-164517@2x
于是我们在下方的文本框中输入以上内容。

<span {*}>
<a href="{%}" target="_blank">{%}</a></span>

是不是很简单呢?
上面这个<span {*}>用于定位,{*}表示这里有一段任意长度无意义的内容。
<a href="{%}" target="_blank">{%}</a></span>这一句呢,意思是引号中的内容存入变量{%1},</a>之前的内容存入变量{%2}
变量的数字是按照顺序生成的,尤其要注意的是变量不能超过3个否则会失败。

提取内容

输入完毕后点击Exact,如果无误的话会如图所示提示成功和提取到信息的数量。
Jietu20190121-164954@2x

因为EEO观察网的内容问题,我尝试了多次提取摘要内容都失败了,后来我发现自己有点傻,明明是要做全文RSS使用的,何必在意那点摘要呢,只要有文章标题和地址就OK了,哈哈哈。

如果你Exact失败,需要自己根据不同网站内容调整匹配的代码,一般来说多试几次就没问题了。

设定Feed格式

Jietu20190121-165439@2x
一旦你Exact成功,说明你已经可以正确让Feed43网站帮你分析网站内容和获取真正有效的信息了,接下来就根据喜好填写Step 3的内容即可。

接下来没有问题的话就可以点击Preview了。
Jietu20190121-165628@2x
Preview会生成订阅RSS信息流并展示,如果一切无误你就能看到想看到的RSS了。
我在最终生成的RSS中另外加入了文章的题图做显示,你不妨自己试试是如何做到的。

修改地址

第一次生成RSS时Feed43会自动分配一个很长的地址,我们可以根据需要将它修改为容易记忆和分发的地址,然后保存。
Jietu20190121-165901@2x
如果是匿名用户,需要记录修改Feed的地址,或者我们可以注册一个用户然后将Feed与账号绑定,这样下次就能方便查找和修改了。

全文化RSS

可是这样生成的只是摘要RSS而已,于是我们需要下一个工具。
https://feedex.net/

使用起来也很简单。
Jietu20190121-170212@2x
将刚刚Feed43生成的网址输入文本框,然后网站会自动生成全文RSS链接并提供预览,如图所示。
很遗憾的是不知道为什么Feedex输出的全文RSS信息是乱码的,我也尝试了在Inoreader中订阅该RSS,确认是乱码无误。

于是我们使用下一个工具。
https://fivefilters.org/content-only/

同样很简单,将刚刚Feed43生成的网址输入文本框然后点击Create即可。
Jietu20190121-170535@2x

Jietu20190121-170749@2x
输出如上图。
别担心,这可不是乱码哦,只是中文的一种编码方式。
点击Subscribe to this feed即可在Inoreader中订阅了。

搞定收工。