CWT200g数据集url编号说明 编号文件:cwt200g_url_no_0.txt(160MB), cwt200g_url_no_1.txt(141MB) 前2000万url编号在第一个文件中,后续的在第二个文件中. 分成两个文件是因为如果放在一个文件内,解开后大于2GB,window平台会吃不消. 文件格式: 数据集共有37482913个网页。编号文件共37482913行。 每个url一行,url和编号之间用tab键分开。 e.g. http://book.poptang.com/ CWT200g060412-00000000 http://book.poptang.com/include/ad.html CWT200g060412-00000001 http://book.poptang.com/include/ad4.html CWT200g060412-00000002 url按如下顺序出现在编号文件中: 1.按站点大小排序(大站点的url出现在前,小站点的url出现在后); 2.站内url顺序为网页在CWT200g数据集中保存的顺序