Category Archives: G_Tips

记一次email code question

临时解决Firefox扩展autoproxy的“可代理资源列表”不能用的问题

在天朝，用Firefox又翻墙的基本上都知道autoproxy（“福”）这么一个神器，用它配合各种翻墙软件（比如说GoAgent），可以做到对于国内的网站直连，对于需翻墙的网页用代理，效率很高。

更方便的是它是根据URL的规则来代理，所以一个网页里的其它资源（比如JPG，js，css等）都可以通过这个规则来决定是否被代理，效率更高。

不过这也带来一个问题，如果把一个被墙的网站加入代理列表，然后打开这个网站，这个时候往往出现这种情况：浏览器能打开一部分网页（比如header）但是接下来就不停地loading中，打不开完整的网页，比如stackoverflow，在load的过程中会调用 https://cdn.sstatic.net/Js/full-anon.en.js，这个被墙了，于是整个stackoverflow还是几乎打不开。

于是autoproxy提供了一个“可代理资源列表” （Proxyable items），网页里的所有元素都可以设置是否使用代理（当然也是根据URL）。很实用的功能。
然而不知道从哪个版本的Firefox开始这个功能就坏了，打开来永远显示”No proxyable items”。如上图。
在忍了一段时间之后，决定自己看一下。

以前从来没搞过FF的扩展，只能试着看看了。
1) 从github上clone了一份源码，“编译”（其实是打包），生成了xpi；
2) 用 `firefox -ProfileManager` 启动FF，新建一个debug的profile（以防影响平时的使用），添加扩展，然后打开console log；
3) 发现在request.js的184行出了null exception:

getAllLocations: function(results, hadOutdated)
{
  let now = Date.now();

  // Accessing wnd.frames will flush outstanding content policy requests in Gecko 1.9.0/1.9.1.
  // Access it now to make sure we return the correct result even if more nodes are added here.
  let wnd = getReferencee(this.window);
  let frames = wnd.frames;
  ...
}

很明显是getReferencee()返回了null导致的。再看这个函数

function getReferencee(/**nsIWeakReference*/ weakRef) /**nsISupports*/
{
  try {
    return weakRef.QueryReferent(Ci.nsISupports);
  } catch (e) {
    return null;
  }
}

没太看明白，但估计是FF升级到某个版本之后就不能用这样的函数了。

尝试野蛮一点，让它直接return 原来的object：

function getReferencee(/**nsIWeakReference*/ weakRef) /**nsISupports*/
{
  return weakRef;
}

再测试，居然就好了！

为了能用这个功能，临时就改成这样吧，可能会有crash或者memory leak，但是至少目前work正常，呵呵。有空的时候再研究到底怎么回事。

p.s. 如果有懂FF的extension的童鞋，请告知原因或者直接fix~
p.p.s. 在github上Fork了一份，建了个branch issue_proxyableitems在上面改了。生成的xpi放在了这儿，对此功能有无比需求的童鞋可以直接下载了用 🙂

Nginx https load-balance on Raspberry Pi

14 Replies

我的Raspberry Pi工作了大约半年之后，文件系统开始出现莫名其妙的问题，各种文件都出现乱码，以至于某系统命令一执行就segment fault。到重新“安装”系统的时候了。

之前主要跑的服务是我的博客，nginx + wordpress搭的，在RPi上因为CPU的问题(php-fpm执行时几乎占满cpu)，响应比较慢。既然重新弄了，考虑把某些请求交给家里的其它机器来处理。
家里还有一台跑Ubuntu的笔记本，希望满足如下要求：
1) 如果笔记本开机着，http请求（几乎）都交给笔记本处理；
2) 如果笔记本关机，http请求都由RPi来处理；
这些应该是完全自动实现的。

在Stackoverflow上问了这个问题，有人提示说可以通过nginx的load-balance功能来实现我的需求。于是开始google一番，找到了解决方案。
基本的思想是，把nginx配置成反向代理，笔记本和RPi都作为upstream来处理http请求；通过nfs共享同一个wordpress目录；配置mysql让wordpress访问同一个数据库。
一步一步来配置这些。
其中Raspberry Pi的地址固定为192.168.1.100，笔记本的地址固定为192.168.1.101，数据库名为minewpdb，数据库用户名为minedb

1. 配置Mysql
mysql仍然放在RPi上，让mysql接受网络的请求，这样不同的机器可以用同一个mysql数据库。

sudo vim /etc/mysql/my.cnf
==> 把 bind-address 改成RPi的ip地址
bind-address            = 192.168.1.100

mysql -u root -p #登录mysql控制台
mysql> grant all on minewpdb.* to 'mineblog'@'192.168.1.100' identified by 'xxx'; # 本地RPi的wordpress访问
mysql> grant all on minewpdb.* to 'mineblog'@'192.168.1.101' identified by 'xxx'; # 笔记本的wordpress访问
mysql> quit;
sudo service mysql restart # 重启mysql服务

# 在RPi和笔记本上分别测试一下
mysql -u mineblog -h 192.168.1.100 -p # 如果能登录成功，就ok了

2. 配置wordpress
Wordpress仍然在RPi上，只要修改wordpress的config文件，把数据库的host，用户名和密码都设对就行了。

sudo vim /path/to/wordpress/wp-config.php
==> 修改DB_HOST等参数
define('DB_NAME', 'minewpdb');
define('DB_USER', 'mineblog');
define('DB_PASSWORD', 'xxx');
define('DB_HOST', '192.168.1.100');

3. 配置nfs
在RPi上设置nfs export，让笔记本mount它，这样可以保证跑的wordpress是同一份。


sudo vim /etc/exports
==> 添加wordpress目录到exports
/path/to/wordpress 192.168.1.101(rw,no_root_squash,insecure,sync,no_subtree_check)
sudo service rpcbind start  # RPi的nfs依赖于rpcbind
sudo update-rc.d rpcbind enable  # 设置rpcbind自动启动
sudo service nfs-kernel-server start  # 重启nfs

在笔记本上，mount这个目录：

sudo mount -t nfs 192.168.1.100:/path/to/wordpress /path/to/wordpress

4. 配置nginx
在RPi上要把nginx配置成反向代理，upstream是RPi和笔记本，端口号都是8000，真正的wordpress运行在8000端口上。
添加新的配置文件 /etc/nginx/sites-available/wordpress-load-balance，注意我把http的访问全部重定向到https，以防GFW

# Upstream to abstract backend connection(s) for php
upstream php {
server unix:/var/run/php5-fpm.sock;
}

upstream mineservers {
# 设置两个upstream, 其中笔记本优先，同时设置5s的fail_timout
# 因为局域网很稳定，所以max_fails设成1就行了，
# 如果fail就说明笔记本关机中，让RPi自己来处理
server 192.168.1.101:8000   weight=999 fail_timeout=5s max_fails=1;
server 192.168.1.100:8000;
}

server {
listen 80;
server_name mine260309.me;
rewrite     ^ https://$server_name$request_uri? permanent;
}

server {
listen          443 ssl;
server_name     mine260309.me;

ssl_certificate     /path/to/cert/mine260309.me.2014.chain.crt;
ssl_certificate_key /path/to/cert/mine260309.me.2014.key;
ssl_protocols       SSLv3 TLSv1 TLSv1.1 TLSv1.2;
ssl_ciphers         HIGH:!aNULL:!MD5;
access_log         /path/to/wordpress/logs/proxy.log;
error_log            /path/to/wordpress/logs/proxy_error.log;

location / {
# 代理到upstream
proxy_pass  http://mineservers;

### force timeouts if one of backend is died ##
proxy_next_upstream error timeout invalid_header http_500 http_502 http_503 http_504;

### Set headers ####
proxy_set_header        Accept-Encoding   "";
proxy_set_header        Host            $host;
proxy_set_header        X-Real-IP       $remote_addr;
proxy_set_header        X-Forwarded-For $proxy_add_x_forwarded_for;

### Most PHP, Python, Rails, Java App can use this header ###
#proxy_set_header X-Forwarded-Proto https;##
#This is better##
proxy_set_header        X-Forwarded-Proto $scheme;
add_header              Front-End-Https   on;

### By default we don't want to redirect it ####
proxy_redirect     off;
}
}

server {
root /path/to/wordpress;
# 在8000端口监听
listen          8000;
server_name     mine260309.me;
... # normal wordpress configurations
}

在笔记本上用同样的配置就可以了。

这样，任何一个请求到RPi，它会让nginx优先反向代理到笔记本的nginx的8000端口，由笔记本来处理；
如果笔记本关机，在5秒钟之后它会fail，于是再由RPi自己的8000端口处理。

Q.E.D.

用Calibre下载网页专题内容(非RSS Feed) 以及Referer的处理

6 Replies

神器Calibre有个很强大的Fetch News功能，可以下载RSS Feed然后生成电子书推送给Kindle。关于如何用recipe下载RSS Feed网上已经有不少相关的资料了。

但是如果想下载某一个专题，而这个专题又没有RSS输出怎么办呢？比如说：寻找太阳系的疆界

答案是，recipe还有更逆天的手动parse index功能，正好用来分析一个单独的网页，提取出我们想要的文章。

这篇博客将会简要介绍这个功能。

另外，由于某些网站的图片会要求有Referer的HTTP header，如果没有下载时会403 Forbidden，所以下载图片里还要特别注意处理Referer。

Background:

Calibre内置了Fetch News功能，本质上是python实现的一个继承自 calibre.web.feeds.news.BasicNewsRecipe 的类，并且override了一些成员/函数的实现，以实现定制的功能。

不过一般来说所有的News都是通过抓取feed来实现的，比如说内置的“人民日报”的实现:

class AdvancedUserRecipe1277129332(BasicNewsRecipe):
  title          = u'人民日报'    # 标题
  oldest_article = 2    # 最近几天之前的文章
  max_articles_per_feed = 100    # 最大的文章数
  ...
  feeds          = [
    (u'时政', u'http://www.people.com.cn/rss/politics.xml'),
    (u'国际', u'http://www.people.com.cn/rss/world.xml'),
    (u'经济', u'http://www.people.com.cn/rss/finance.xml'),
    (u'体育', u'http://www.people.com.cn/rss/sports.xml'),
    ...
  ]    # 定义具体的feed名称和url
  keep_only_tags = [...]    # 抓取到的网页里保留的内容
  remove_tags = [...]    # 抓取到的网页里去除的内容
  remove_tags_after = [...]    # 抓取到的网页里去除这个tag之后的内容
  ...

一般来说抄一下Calibre内置的recipe，定义以上的变量就可以搞定绝大部分RSS Feed了。

那么如何搞定像“寻找太阳系的疆界”这样的没有RSS输出的专题文章呢？

Solution:

查看 Calibre的API Document，注意到parse_index()这个函数，它说：

This method should be implemented in recipes that parse a website instead of feeds to generate a list of articles.<br />
...
It must return a list. Each element of the list must be a 2-element tuple of the form ('feed title', list of articles).<br />
Each list of articles must contain dictionaries of the form:
{
 'title'       : article title,
 'url'         : URL of print version,
 'date'        : The publication date of the article as a string,
 'description' : A summary of the article
 'content'     : The full article (can be an empty string). Obsolete
 do not use, instead save the content to a temporary
 file and pass a file:///path/to/temp/file.html as
 the URL.
}

并且提到:

For an example, see the recipe for downloading The Atlantic.

也就是说，可以参考内置的 The Atlantic的recipe，它是parse一个website而不是一个feed。打开这个recipe:

class TheAtlantic(BasicNewsRecipe):
  title      = 'The Atlantic'
  __author__ = 'Kovid Goyal and Sujata Raman'
  description = 'Current affairs and politics focussed on the US'
  INDEX = 'http://www.theatlantic.com/magazine/toc/0/'
  language = 'en'
  remove_tags_before = dict(name='div', id='articleHead')
  remove_tags_after  = dict(id='copyright')
  remove_tags        = [dict(id=['header', 'printAds', 'pageControls'])]
  ...
def parse_index(self):
  ... # Parse the webpage and return feeds

很清楚，主要实现了parse_index这个函数。

那么我们就可以参考这个实现，来写自己parse changhai.org的代码。

Step1 实现parse_index

直接看code吧，注释很容易明白：

def parse_index(self):
  articles = []  # 文章列表
  feeds = []  # 最终要返回的
  soup = self.index_to_soup(self.INDEX)  # 获取网页完整的内容
  feed_title = self.tag_to_string(soup.find('title'))  # 网页的标题
  self.log.debug("Feed Title: " + feed_title)
  for table in soup.findAll('table', attrs={'class':'inside-article-noborder'}):
    # Main articles
    for post in table.findAll('td'):  # 文章列表都在 inside-article-noborder 的 table 里，每一个td是一项
      a = post.find('a', href=True)  # 取出链接
      title = self.tag_to_string(post)  # 文章标题
      url = a['href']
      if "#" not in url:  # 如果url里包含"#"，其实是指向了同一个网页的某个anchor，忽略这样的项
        self.log.debug("Article title and url: ")
        self.log.debug(title + ": " + url)
        url = self.INDEX + url  # 生成完整的url
        articles.append((
          {'title':title,
           'url':url,
           'description':'',
           'date':''}))  # 添加到文章列表里
    for post in soup.findAll('p', attrs={'class':'center'}): # 术语简介 | 参考文献 在 class: center的p里面
      for a in post.findAll('a', href=True):  # 同理取出文章的标题和url
        title = self.tag_to_string(a)
        url = a['href']
        self.log.debug("Article title and url: ")
        self.log.debug(title + ": " + url)
        url = self.INDEX + a['href']
        articles.append((
          {'title':title,
           'url':url,
           'description':'',
           'date':''}))
  if articles:
    feeds.append((feed_title, articles))  # 最后生成feed，这里只有一个feed，包含多篇文章
  return feeds

这样每篇文章都能被download下来了，下面要处理每篇文章的内容。

Step 2 处理正文内容

分析正文的网页内容，会发现：

正文内容都在 main-body 的table里，所以

keep_only_tags = [
  dict(name='table', attrs={'id':['main-body']}),
]

“返回目录 | 下一篇”这样的link可以忽略，都在 class left 和right的p里面

remove_tags = [
  dict(name='p', attrs={'class':['left', 'right']}),
]

“站长近期发表的作品”及以后的内容应该忽略，它位于article-data-claim的后面，所以

remove_tags_after = [
  dict(name='p', attrs = {'class' : ['article-date-claim']}),
]

好了，到这一步，文章的内容也能完美提取出来了。

但是，正文里的图片还是没有显示，原因在calibre的log里：

Could not fetch image  http://www.changhai.org/articles/science/astronomy/outer_planets/images/kepler_platonic.png
reply: 'HTTP/1.1 403 Forbidden\r\n'

webserver直接返回403错误了，这一般是因为图片下载时没有Referer的HTTP header，算是一算防盗链的功能吧。

所以我们还需要处理Referer。

Step3 在HTTP Request里添加Referer

通过Google，发现可以通过自定义browser.open_novisit这个函数来实现添加HTTP header

def get_browser(self):
  br = BasicNewsRecipe.get_browser(self)
  orig_open_novisit = br.open_novisit
  def my_open_no_visit(url, **kwargs):
    req = mechanize.Request( url, headers = { 'Referer': self.INDEX, }) # 添加Referer的header
    return orig_open_novisit(req)
  br.open_novisit = my_open_no_visit # 把open_novisit这个函数重新定义成自己的函数
  return br

理论上这样就OK了，然后实际运行的时候会发现，下载文章和图片的时候，根本就没有调用到my_open_no_visit()，图片仍然下载失败。

这下就只能看Calibre的源代码了——通过代码和打log，注意到_fetch_article()里面会调用clone_browser()，而这个clone完的browser的open_no_visit函数还是原生的，并不是自定义的函数。假如这个不是bug，就说明俺的recipe是有点exotic了：

Clone the browser br. Cloned browsers are used for multi-threaded downloads, since mechanize is not thread safe. The default cloning routines should capture most browser customization, but if you do something exotic in your recipe, you should override this method in your recipe and clone manually.

好吧，那就自己实现一个clone_browser()吧，同时也更新自己的get_browser():

_cachedBrowser = None  # 自己的browser
def get_browser(self):
  if self._cachedBrowser is None:
    br = BasicNewsRecipe.get_browser(self)
    orig_open_novisit = br.open_novisit
    def my_open_no_visit(url, **kwargs):
      req = mechanize.Request( url, headers = { 'Referer': self.INDEX, })
      return orig_open_novisit(req)
    br.open_novisit = my_open_no_visit
    self._cachedBrowser = br  # 保存browser
  return self._cachedBrowser
def clone_browser(self, br):
  if self._cachedBrowser is None:
    raise Exception("No browser")
  br = BasicNewsRecipe.clone_browser(self, br)
  br.open_novisit = self._cachedBrowser.open_novisit  # 设置clone出来的browser的open_novisit函数
  return br

OK, 这下Referer的问题也解决了，生成的文章里也完美包含了图片。

Finally:

完整的code放在github（见calibre_recipes）上了，当然code还有待完善，比如说可以合并common的code，以后再慢慢改了。

目前实现了3个专题的recipe：

Q.E.D.

p.s. 顺便推荐一下卢昌海老师的书吧，上面的这些文章都已经出版了，并且有的也有Kindle的版本，推荐购买 🙂
p.p.s 在微博上发现@敲代码的张洋已经有了一些抓取网页的Recipe，包括著名的MIT的SICP，以及O’Reilly的开放书籍，很不错。代码也在Github

Kindle Paperwhite 添加中文字体

26 Replies

入手了国行的Kindle Paperwhite，相比Kindle 3有了更好的中文字体支持，原生的“宋体“效果已经相当不错了。
不过以前按照《Kindle 中文阅读终极优化指南》看习惯了“方正准雅宋”，KPW自带的宋体显得有点淡，于是我又开始折腾字体了。。。

The Precondition
首先，KPW添加字体是很简单的一件事情，也不需要越狱:

用USB线连接KPW到电脑;
在Kindle的根目录上创建一个空文件 USE_ALT_FONTS （注意不要有扩展名）;
在Kindle的根目录上创建目录 fonts;
把想要的字体拷到那个fonts目录，如果字体是一个系列的，粗体/斜体按如下命名：
- Fontname-Regular.ttf # 普通
- Fontname-Italic.ttf # 斜体
- Fontname-Bold.ttf # 粗体
- Fontname-BoldItalic.ttf # 又粗又斜
拔掉USB线，重启KPW （菜单->设置->菜单->重启）;
在字体菜单里选择上面添加的字体.

The Problem
但是如果用《优化指南》里提到的这四个字体：

主字体选择“方正准雅宋”
粗体是“方正特雅宋”
斜体是“华文中宋斜”
粗斜体是“华文中宋粗斜”

会发现，KPW会把它们认成4个不同的字体，选择“方正准雅宋”之后，也没办法自动使用对应粗体。其实这也很正常，上面的四个字体根本就不是一个Font Family的，KPW自然不认了。

The Solution
解决办法是，用字体编辑器把它们变成同一个Font Family!
在Ubuntu下我试过FontForge, TTFEdit, Ttx这些工具。
FontForge功能太强而且似乎生成的font文件会有问题；
TTFEdit对utf8或者gbk编码的字符串支持有问题；
Ttx其实是一个把TTF转换成xml文件，然后把xml文件转回成ttf的工具。

最后我用ttx搞定了。
1.

ttx -o CJK_Regular.ttx CJK_Regular.ttf  # 把ttf转换成ttx文件（本质就是个xml）

编辑CJK_Regular.ttx
在<name>里，nameID=1是FontFamily，把它改成FZYaSong-GBK
在<OS_2>里，usWeightClass是指字体的Weight，把它改成500 (Medium)，顺便把bWeight改成“6”(也许这个改动没有必要)

2.x.

同样的，把另外三个ttx文件里的FontFamily都改成FZYaSong-GBK
CJK_Bold.ttx，CJK_BoldItalic的usWeightClass改成700，bWeight改成8;
CJK_Italic的usWeightClass改成400，bWeight改成6;

ttx -o FZYaSongMod-Regular.ttf CJK_Regular.ttx # 重新生成ttf字体
 另外三个文件同理

这样就生成了FZYaSongMod的四个ttf文件，FontFamily都是FZYaSong-GBK, Weight都是对应的值。然后把这四个文件拷到KPW的fonts文件夹里，重启，搞定！
KPW的显示效果终于和Kindle3一样了，内牛满面啊…

The Last
这四个文件已经打包好，有需求的可以直接用。下载在此: FZYaSongMod.tar.bz2
声明: 更改字体信息仅限学习用，不得作为商业用途。

p.s. 感谢@wzyboy同学《优化指南》本文修改的字体来源于他的博客。
p.p.s. 推荐越狱之后安装kindlepdfviewer，完美集成于KPW，看PDF效果更好～

This is Mine

on my way…