#encoding=gbk CWT70th说明 organized by SEWM Group last updated on Jan 5, 2008 -------- 采样过程 - 用训练集做种子,抓取四层网页, 在2008年1月搜集中国范围内71,502个网页 ----------------------------------- CWT70th中的URL列表,共计71,502个 cwt_quark_70thousand.dat: 网页数据文件 是用天网格式保存的,顺序读取天网格式文件中网页数据的程序在 http://www.cwirf.org/SharedRes/Tool/TWReader.060416-2126.Linux.tgz cwt_quark_70thousand_url_no.0-71501.gz: 网页编号文件 文件格式: 每个url一行,url和编号之间用tab键分开。 e.g. http://book.poptang.com/ CWTquark080103-00000000 http://book.poptang.com/include/ad.html CWTquark080103-00000001 http://book.poptang.com/include/ad4.html CWTquark080103-00000002 -----------------------------------