Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

还在继续吗? #7

Open
dou4cc opened this issue Nov 24, 2017 · 4 comments
Open

还在继续吗? #7

dou4cc opened this issue Nov 24, 2017 · 4 comments

Comments

@dou4cc
Copy link

dou4cc commented Nov 24, 2017

No description provided.

@dou4cc
Copy link
Author

dou4cc commented Nov 28, 2017

@yingziwu 能否自动把敏感帖子提交给archive.is?

@yingziwu
Copy link
Owner

yingziwu commented Nov 28, 2017

我现在已经不怎么上v2ex了。
不过,我放在vps上运行的爬虫目前运行的状态还不错,如果v2ex不改动界面与api,这个项目应该可以一直运行下去。
大概以后,就是定期看爬虫的状况,然后每个月写个报告。
当然项目我会维护下去。

敏感帖子自动存档的难点在于发现敏感帖子,想要无人参与的发现敏感帖子还是很麻烦的,很难让它自动化。
发现敏感帖子后,存档是再简单不过了,我写了个脚本,你可以用这个脚本把贴子存档至 https://archive.org/。
如果可以实现自动发现敏感帖子,直接调用这个脚本便可以存档了。

我明天会把这个项目的sqlite数据库文件放到同步网盘上,如果可能的话,你可以帮忙完成存档的工作,反正我现在是没有这个时间与心情完成这项工作了。

@dou4cc
Copy link
Author

dou4cc commented Nov 29, 2017

archive.org不如archive.is,archive.org遵守robots.txt,archive.is不遵守。

@yingziwu
Copy link
Owner

yingziwu commented Nov 29, 2017

@dou4cc
archive.org遵守robots.txt,对于存档v2ex的贴子没有什么影响。
v2ex的robots.txt基本上没有什么限制,只要是公开的内容(无需登录、没有跳转限制)都可以用 archive.org 存档下来。
更重要的是 archive.is 对于机器人限制是比较多的,使用 archive.is 保存网页时要求进行人机认证的情况,我遇到过好几次。而 archive.org 则对这方面比较开放,可以很方便的使用机器人进行存档。
当然,在保存微信公众号文章,这种有robots.txt限制的网站当然是 archive.is 更好,在没有 robots.txt 限制的情况下两个我个人感觉相差不多。当然,对于程序来讲肯定是 archive.org 更好一些了。

另外,项目的sqlite数据库文件(目前大小为100M),我已经放在坚果云上了,你可以通过下面这个链接下载。
https://www.jianguoyun.com/p/DS4_3k4QotLSBhiZzzs

这个文件是准实时的(每3个小时更新一次),所以我通过你的邮箱([email protected])邀请请你参与这个文件夹的同步。
如果你想时刻保证数据库文件是处在最新状态,你可以接受我的同步邀请,然后使用坚果云客户端在电脑上创建同步文件夹。

上面这些话,感觉我好像是坚果云的销售人员一样。
但在墙内,好用的同步型网盘好像我真的没发现几个。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants