最近看到群里面大家对58同城、赶集网、百姓网等分类信息网的数据需求很大,大家应该是想在起初运营时候用这些信息来充实自己的网站吧,昨天凑空把分类信息的采集和发布规则写出来了,现在分享给大家。
现在各种各样的采集器非常多,无论是像咱们做分类信息网的站长还是做营销推广的从业者,都看中了58、赶集、百姓,因为这上面都大量的手机号码,所以58、赶集、百姓等网站的防采集措施也逐渐升级,由最开始的手机号码图片化到现在的扫描二维码才能看到手机号码,目前,比较好采集的是百姓网,赶集网次之,最难采集的是58同城。
从今天开始陆续给大家介绍一些采集思路和方法,图片形式手机号码、扫码看手机号等等全部解决。
-------------------------------------------------
今天给大家介绍58同城的数据
58同城类目非常多,大类目里面还有小类目,每个小类目里面还可以进行细分。下面以房产大类目为例给大家介绍数据的采集。
房产类细分表如下:
虽然房产类细分类目很多,但是详情页的数据表的表结构字段基本一致。
如:售价、户型、位置、地址、联系人、联系方式、住宅类型、装修程度、房屋类型、建筑建构、建造年代、房屋楼层、产权、朝向、详细描述、相关图片。
以房屋展开的表结构字段基本就这些,再回来看看我们框分类系统的mess表,完全能满足要求,我们要做的就是采集出来这些信息,然后发布到mess表对应的字段中,这是发布接口的相关内容,这个我们下次讲,今天只介绍采集部分。
此次采集用的软件是火车头采集器7.6pojieban,网上都有下载,有钱的可以购买最新版的火车采集器9.3,界面更清爽,功能更强大。火车采集器-------站长必备
--------------
先写到这,晚上有时间继续更新……