Fantacity

Stand Alone Complex

用新浪SAE从aqicn.org抓取数据

为什么会有这个项目

一天,实验室师弟找我说,师兄,你不是会从网站抓取数据嘛,我外教希望从一个网站24小时抓取数据,对你来说很easy的,而且he will pay the money. 我想了一下,这个应该不难啊,还可以赚点外快,挺不错的差事啊,就接下了。

遇到的一些坑

虽然是第一次用SAE,好在新浪的文档挺全的,基本都在了。不过还是遇到了几个坑,这里记录一下。

  1. SAE的Storage是不支持Append模式的,每次写入都是覆盖。所以最初的设计,为每个城市建一个文件,每次追加写入的方式失败了。
    之后改为用MySQL存储;

  2. SAE提供的Bottle()框架似乎有问题,路由会失败。所以改为自己上传第三方框架的方式使用Bottle();

  3. 提供文件下载的话,Storage最好就不要设置防盗链了,并且设置属性为public;

  4. 不会写html,所以界面很难看

写在最后

敢于去尝试自己不会的也是一种不错的体验。之前没有相关的Web编程的经验,Python也只是会一点皮毛。认真学习官方文档,多Google一下,许多问题前人都已经爬过坑了。
另外还要说明的是,最好还是别去用SAE了,因为从3.14开始收取每个10云豆/应用的租金了,所以对于我们这种单纯只是想尝试做点小东西的用户来说,显然是不划算的。

最后Github链接: aqidatapuller