免费提问

小白问一个 python 爬虫中文乱码的问题

144
提问者 yangqi
2018-10-20 09:40 悬赏 0财富值 阅读 1796回答 7

我用python写了个谷歌爬虫,现在遇到的问题是python爬虫中文乱码的问题无法解决,下面是我的代码,编码方式是utf-8:

import sysdefault_encoding = 'utf-8'if sys.getdefaultencoding() != default_encoding:    reload(sys)    sys.setdefaultencoding(default_encoding)import requestsr = requests.get("http://court.gov.cn/zgcpwsw/bt/xjscjsbtdseszjrmfy/wlmqkqrmfy/ms/201503/t20150313_6914630.htm")print r.text.encode('utf-8')


python
登录 后发表回答
killpanda
1楼 · 2018-10-20 09:46.采纳回答

你为什么要print 呢?一般python爬虫出现中文乱码的情况都是编码的问题导致的,这与你用爬虫抓取谷歌还是百度没有多大关系,编码申明应该写在代码头部的第一行,你看看你是不是这么做的。



xiezefan
2楼-- · 2018-10-20 09:49

我一般: print(string.encode("utf-8"))


zeayes
3楼-- · 2018-10-20 09:53

print乱码和console的编码有关,建议写到txt看看


roricon
4楼-- · 2018-10-20 09:54

有些网页是经过gzip压缩的,要考虑解压问题,否则就是乱码


xlvecle
5楼-- · 2018-10-20 10:04

国内很多网站都是gbk或者gb2312的编码


julyclyde
6楼-- · 2018-10-20 10:07

你是在cmd里面输出的吧?
如果是,因为win下cmd是cpXXX的字符集,所以会乱码的
需要decode一下


网站简介 | 竞价技巧 | 网站建设 | 原创作品 | 联系我们 |

鄂ICP备17013851号-4|经营许可证:鄂B2-20160818 |互联网药品信息服务资格证: 粤20130124|鄂公网安备:42010601000001|版权登记号:2016SR017186