项目:以tag来分类的信息站点

需求

用户给出网站地址,正则表达式,网站类别,能够获得该网站的内容站点。站点以tag分类形式展现。tag根据文章标题分词获得。分词系统根据网站类别选择词库。

项目准备

  1. Trac项目管理跟踪系统搭建
  2. SVN代码管理仓库搭建
  3. 分词模块的运行环境搭建
  4. 测试运行环境搭建

技术准备

  1. HTML分析器  http://sourceforge.net/projects/simplehtmldom/
  2. 分词模块  http://code.google.com/p/paoding/

新思路 (如何利用Tag进行信息收集和筛选!)

  • 以TAG为导向的搜索模式

将文章的内容全部分词,每个词都做为该文档的Tag。

用户选择TAG1, 系统显示TAG1的所有文章 和 这些文章的其他TAG。

用户继续选择TAG2,系统显示TAG1并且TAG2的所有文章和这些文章的其他TAG。

用户继续选择TAG,直到找到自己想要的文档内容,用户点击文章链接进入查看。

参看网站:

  1. http://www.taggylicio.us
  2. http://www.thws.cn/articles/taggylicious-aggregates-the-search-for-tags-across-various-services.html
  3. http://yo2.cn/