CWT200g说明 organized by SEWM Group last updated on April 12, 2006 -------- 采样过程 - 根据天网搜索引擎在2005年11月份搜集网页所发现的中国范围内提供Web服务 的627,036个主机,通过消除重复网站、去除垃圾网站后得到88,303站点, 对这些站点进行网页搜集,每个网站的搜集深度为3,单个网站搜集的数据量不限, 得到初始数据集。 - 进行网页的消重处理,得到不重复的网页集合. 根据网页集合所反映的网站大小,进行采样,得到容量为197GB的CWT200g的测试集。 Note: - 文档集中每个网页的数据内容包括服务器返回的头信息和网页文件内容。 所有数据的MIME类型均为“text/html”或“text/plain”。 - CWT200g中每个网页本身是压缩保存的(zlib库支持), 以天网格式保存, 网页量为37,482,913 ---------------------------- CWT200g测试测试集目录结构说明 - 包含256个格式为"data_%d"的子文件夹 - 在子文件夹下,是以网站host name直接命名的文件夹 (http://与之后第一个'/'之间的部分) - 网站的文件夹下仅包含一个page.dat文件,文件内是该网站所抓取的所有网页, 保存格式为压缩的天网格式 Note: - 网站所在子文件夹的位置取决于网站host name的Hash值除以256以后的余数, 这里所使用的Hash是STL自带的Hash函数,使用样例程序见 SitePos.tgz, 在linux环境下调试通过. at http://www.cwirf.org/SharedRes/DataSet/CWT200g/ ----------------------------------- CWT200g中的URL列表,共计37,482,913个 -------------------------------- CWT200g中的Site列表,共计29,100个 - 保存在CWT200g_site_list.txt.tgz中 at http://www.cwirf.org/SharedRes/DataSet/CWT200g/ -------------------------------