Python爬虫抓取透明房产网房源信息

闲来无事,想看看成都透明房产网(esf.cdfgj.gov.cn)的房源信息。 成都透明房产网的主办单位是成都房地产信息档案中心(成都市城乡房产管理局直属单位),运营机构和技术支持是成都房联电子信息有限公司。成都透明房产网是房管局的公示平台,其产权性质、备案价格等信息相对可靠,但更新较慢。 可以看到,网页代码的结构还是比较简单,哪些信息是有价值的呢? 最有价值的肯定是房源的均价和总价了,其他信息比如区位、面积等其次。 下面直接开干,爬虫的大概思路是,先获取总页码,开多线程,取出页码获取房源,存储。 以下为主要部分源码: #获取成都透明房产网信息 def get_cdfgj(page): url = “http://esf.cdfgj.gov.cn/search” querystring = {“page”:page} headers = { ‘Accept’: “text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8”, ‘Accept-Encoding’: “gzip, deflate”, ‘Accept-Language’: “zh-CN,zh;q=0.9,zh-TW;q=0.8”, ‘Cache-Control’: “no-cache”, ‘Connection’: “keep-alive”, ‘Host’: “esf.cdfgj.gov.cn”, ‘Upgrade-Insecure-Requests’: “1”, ‘User-Agent’: random.choice(USER_AGENTS), ‘page’: str(page), } try: response = requests.request(“GET”, url, headers=headers, params=querystring) except: print(‘无法打开链接’) return [] response.encoding = response.apparent_encoding # 编码 soup […]