CCT2006
-
2006年3月中文网页分类训练集CCT2006, 编号YQ-CCT-2006-03.
根据常见的新闻类别而设定的分类体系,从新闻网站上抓取得到对应
类别的新闻网页作为训练集页面。它包括960个训练网页和240个测试网页,
分布在8个类别中。
下载
CCT2002-v1.1
-
2002年中文网页分类训练集CCT2002-v1.1, 编号YQ-WEBBENCH-V1.1,
说明。
是在CCT2002-v1.0 的基础上对类别进行了部分修正.
是2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生,
人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。
它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。
下载
CCT2002-v1.0
-
2002年中文网页分类训练集, 编号YQ-WEBBENCH-V1.0,
已经被CCT2002-v1.1替代,所以不再提供。
Last Updated: March 31, 2006
Hosted by Network Group,
Peking University