Browsing the archives for the python category

python中的编码

in python

在一些python讨论版里,经常会见到一些“月经帖”,类似于“我用python读取一个文件乱码”,然后就会抱怨python的编码很麻烦,其实不是python编码难搞定,而是没有真正理解python的编码。 如在windows环境下的以下示例代码: 此时的ansi.txt编码为ansi,我们在cmd窗口执行,看到如下结果: 此时一切正常,但,如果还是用上面的脚本去读取utf8.txt,文件是utf8编码,就会得到下面的结果: 经典的“乱码”出现了,有朋友可能会说了,我在python脚本里指定编码应该就解决了,于是: 再次运行: OMG,还是乱码。。。。 能不能正常输出中文不取决于#coding=utf-8,也不取决于目标文件的编码,而是取决于你的终端输出设备,这里就是CMD窗口,CMD窗口是不支持UTF-8的,它只支持GBK,所以,我们要转码。 那为什么第一个示例中,它能正确输出?因为目标文件本身就是GBK编码,所以不需要做任何转码就能正常输出。 在第二个示例中,我们只需要做一个小的改动,就可输出UTF8编码的文件: 结果: 正常输出。 做一个小结: python脚本中的#coding=utf-8并不是决定最终输出的编码,而是指定python脚本本身使用的编码;如果你的脚本本身内部有非ASCII码,那就应该指定编码#coding=gbk 如果文件的编码是GBK,你操作的终端也是支持GBK的,那就不需要编码,直接输出即可。 如果文件的编码不是GBK,但你的操作终端只支持GBK,不支持UTF-8,那么,你就需要对这些字符做转码操作。如文件编码是UTF-8,就需要先decode成UNICODE编码再encode成GBK

8 Comments

Discuz发帖机Python版

in python

流程: 1、获取logging.php?action=login页的源代码,分析得到fromhash 2、输入用户名与密码,POST至/logging.php?action=login&loginsubmit=yes地址 3、得到cookie并保存 4、访问发帖页面并附带上cookie

8 Comments

google appengine中的url routing

in python

在做rss4py的过程中发现这样的一个问题 ,直到现在也没有找到良好的解决方案。 在这里,有三种符合匹配条件的url被交给Main controller去处理,即: /member/1                                 成员ID为1的记录 /member/1/page/2                成员ID为1的第2页记录 /page/1                                         所有成页的第1页记录 Main Controller: [...]

6 Comments

臭蛋聚测试版发布

in python

臭蛋聚是一个RSS聚合器,构建在Google App Engine上的,写的这个小应用是用来取代原有的feed.yibin001.com(和谐了)。 有段时间没写gae的小应用了,刚开始时还显得有点陌生,在此期间也遇到一些小问题,在这里一并写出来,希望对初次开发gae应用的朋友有一个帮助。 gae datastore,在gae中,所有Gql的排序字段都是需要建索引的,否则会出现经典的”NeedIndexError: no matching index found.”错误,附在错误后面的信息就是需要建立的索引,你可以复制下来,然后粘帖到index.yaml文件,并上传。上传后并不能马上使用,gae需要一个build的过程,这个时间长短要看数据量的大小,索引状态变成Serving时就意味着索引已创建成功。 Gql查询结果排序问题。排序的字段要有值,不能为None,否则结果集可能不是你所需要的。如:SELECT * FROM Feeds ORDER BY LastPubDate DESC,如果此时的LastPubDate都没有值,即使有10条数据,这条查询无法返回记录的。 对于GMT(rfc822)时间格式的解析。按rss标准,PubDate正确格式应该是Sat, 20 Feb 2010 07:04:52 +0000,直接用datetime模块解析不是很方便,可以用rfc822模块中的parsedate_tz函数进行转换。对于非标准GMT(rfc822)格式的时间,只能配合正则进行解析。 最后,臭蛋聚的地址为:http://rss4py.appspot.com/

5 Comments