【第1期】前端早读课目录“手动”抓取-前端晚自修

前端晚自修

因为微信官方的限制，所以现在抓取公众号的历史文章不是一件简单的事情了，前两天通过多次尝试还是放弃直接抓取早读课的历史文章。不过，找到了一条曲径，记录如下。

分为两个阶段：

2017.11.9之前的文章

这段时间的文章，其实情封已经总结好了，在公众号内回复目录就能获取一个pdf格式的文档，但是只有日期和题目信息，文章链接没办法直接复制获取，没办法直接使用。

毕竟对前端比较熟悉，所以想着能不能将pdf转成html格式，这样一来就可以为所欲为了，从中提取信息可是我们的强项。后来试了好几个工具，都没办法保留链接信息，而且导出的文字也是乱七八糟的。最后终于通过这个网站https://www.sodapdf.com/pdf-to-html/导出了一份含链接的html格式文档。

但是标题和日期也都很乱，很难获取到格式化好的信息，想着微信对具体文章的链接访问并没有限制，索性不如只收集其中的链接，有了链接，我们就可以通过爬虫的方式获取其他信息。

我的办法是先将其转换成html格式，一共57页，然后逐一用浏览器打开，在Console面板用如下代码获取所有链接：

var collection = document.getElementsByTagName('a');
var linkArr = [];
var _link;
for(var i =0, len = collection.length; i < len; i++){
	_link = collection[i].href;
	console.log(_link);
	if(linkArr.indexOf(_link) === -1) linkArr.push(_link);
}
linkArr.join('\n');

本来想着拼在一起或者通过Node的fs和cheerio模块自动化处理，不过后来想了想量也不大就手动复制过来了。

2017.11.10至今的文章

情封没有提供这之后的文章目录，也不好意思去麻烦他，不过我们可以通过抓取其他平台的信息来间接获取数据。

通过调研，发现搜狗微信搜索貌似有这个功能，但是有如下两个弊端：

仅能展示最新10条记录
显示的链接是搜狗加工过的中间链接，并不是文章的真正链接。

所以不得不放弃，后来又发现了即刻网页版，有人早在11.10之前就已经创建了这个主题，而且上面的信息很全，所以我们可以通过抓取其网页信息来获得这段时间的数据。我们先通过Ctrl+End快捷键把这期间数据全部加载出来，然后同样在Console面板中执行提取，代码同样很简单（哈哈，不就是一样的吗）：

var collection = document.getElementsByClassName('message-link');
var linkArr = [];
var _link;
for(var i =0, len = collection.length; i < len; i++){
	_link = collection[i].href;
	console.log(_link);
	if(linkArr.indexOf(_link) === -1) linkArr.push(_link);
}
linkArr.join('\n');

通过链接爬取重要信息

这样，通过上面两步，我们就获取到了迄今早读课所有文章的链接，下一步我们就可以通过爬虫抓取相应的信息。核心代码同样很简单（Node）：

function _request(index) {
    console.time(index);
    request(ZAODUKE[index], function (error, response, body) {
        if (!error && response.statusCode == 200) {
            var $ = cheerio.load(body);

            var title = _black($('h2').text() || '自定义标题');
            var author = _black($('span.rich_media_meta_text').text() || '佚名');
            var reg = /([0-9]{4}-[0-9]{2}-[0-9]{2})/g;
            var tmp;
            while ((tmp = reg.exec(body)) !== null) {
                var date = tmp[0] || '';
            }
            var str = '- ' + date + '@' + author + ' [' + title + '](' + ZAODUKE[index] + ')' + '\n';
            console.log(str);

            fs.appendFile('data_1.txt', str, (error) => {
                if (error) {
                    fs.appendFile('data_1.txt', index + ' error');
                    return false;
                }
                console.timeEnd(index);
                if (!flag) return false;
                if (index) {
                    index--;
                } else {
                    return false;
                }
                setTimeout(() => {
                    _request(index);
                }, parseInt(Math.random() * 10));
            })
        } else {
            fs.appendFile('data_1.txt', index + ' error');
            return false;
        }
    });
}

不过，这里面有个坑就是，其实时间并不是直接显示在页面上的，而是通过js代码动态填充的，所以通过cheerio无法直接拿到对应的值，因此就利用正则的方式去取。

总结

其实整个过程用到的技术非常简单，而且可以用更优雅的方式去做，无奈自己技术有限吧，献丑了，不过最终还是整理出来了，大家可以通过点击**{阅读原文}**直达，别忘了给颗小心心❤哦。

展望

自动抓取早读课最新文章并自动更新git仓库
结构化文章数据，打tag，分类等等，对其进行深一步的数据化分析。（发现里面的文章有的真的非常不错）
本来今天应该深度那一篇GraphQL的文章的，不过点开啥也看不懂，还是默默的写下了这一篇，明天继续加油。

补充

这个公众号初心是精读前端早读课的每篇文章，不过特殊情况下我还是会写写别的有关前端的东西的，就类似今天我看不懂的时候；
另外一个想法就是逼着自己每天去写点东西，总结下来。
也希望更多的朋友加入进来，我们一起刻意练习，你对当天早读课文章精读也好，写点其他的也罢，都可以。我会把你们的记录都统计下来，并放在公众号显眼的位置，至于其他作用或想法，咱们慢慢来。

（本篇完）

前端晚自修

2017.11.9之前的文章

2017.11.10至今的文章

通过链接爬取重要信息

总结

展望

补充

微前端的那些事儿

Pixi教程

前端早读课

软件开发基础知识宝典

《Spring参考文档》中文翻译基于4.3.5 RELEASE

Databricks Spark 知识库简体中文版

前端晚自修

2017.11.9之前的文章

2017.11.10至今的文章

通过链接爬取重要信息

总结

展望

补充

微前端的那些事儿

Pixi教程

前端早读课

软件开发基础知识宝典

《Spring参考文档》中文翻译 基于4.3.5 RELEASE

Databricks Spark 知识库简体中文版

《Spring参考文档》中文翻译基于4.3.5 RELEASE