Updates from 八月, 2009 Toggle Comment Threads | 键盘快捷键

  • admin 14:35 on 2009-08-21 链接地址 | 回复  

    项目:以tag来分类的信息站点 

    需求

    用户给出网站地址,正则表达式,网站类别,能够获得该网站的内容站点。站点以tag分类形式展现。tag根据文章标题分词获得。分词系统根据网站类别选择词库。

    项目准备

    1. Trac项目管理跟踪系统搭建
    2. SVN代码管理仓库搭建
    3. 分词模块的运行环境搭建
    4. 测试运行环境搭建

    技术准备

    1. HTML分析器  http://sourceforge.net/projects/simplehtmldom/
    2. 分词模块  http://code.google.com/p/paoding/

    新思路 (如何利用Tag进行信息收集和筛选!)

    • 以TAG为导向的搜索模式

    将文章的内容全部分词,每个词都做为该文档的Tag。

    用户选择TAG1, 系统显示TAG1的所有文章 和 这些文章的其他TAG。

    用户继续选择TAG2,系统显示TAG1并且TAG2的所有文章和这些文章的其他TAG。

    用户继续选择TAG,直到找到自己想要的文档内容,用户点击文章链接进入查看。

    参看网站:

    1. http://www.taggylicio.us
    2. http://www.thws.cn/articles/taggylicious-aggregates-the-search-for-tags-across-various-services.html
    3. http://yo2.cn/
     
  • admin 14:40 on 2009-08-18 链接地址 | 回复  

    XSLT:EXtensible Stylesheet Language Transformation 

    http://www.w3schools.com/xsl/default.asp

    XSLT是一种语言,将XML的格式的数据文件,转换成其他的格式的文件显示。例如,HTML,CSV,Excel,PDF等等。

     
  • admin 13:28 on 2009-08-18 链接地址 | 回复  

    PHP有用的开源模块列表 

     

     

     

     
  • admin 17:34 on 2009-08-11 链接地址 | 回复  

    66个Logo创意设计 

    66logos下载

     
  • admin 17:28 on 2009-08-11 链接地址 | 回复  

    25个知名网站标志使用的字体 

    转自:http://www.javaeye.com/news/9308

    其中14中字体下载

     
  • admin 14:43 on 2009-08-11 链接地址 | 回复  

    亲爱的你可知(情侣版) 

    亲爱的你可知–女
    [flashvideo file=http://orrz.net/wp-content/uploads/2009/08/qinaidenikezhiGIRL.mp3 /]
    亲爱的你可知–男
    [flashvideo file=http://orrz.net/wp-content/uploads/2009/08/qinaidenikezhiBOY.mp3 /]

     
  • admin 18:12 on 2009-08-10 链接地址 | 回复  

    WEB3.0 

    更多视频:http://www.redbots.cn/skills/2009/06/03/10422.htm

    早在05年,就有人提出了web3.0的概念,08年,Google首当其冲开始做web3.0概念,在全球力推的云计算概念。那么什么是Web3.0?老实说,我也搞得不是很清楚,这两天有感于国外的一篇文章,稍稍补习了一下,一起和大家分享。

    下面的这张图总结比较得相当不错,Web1.0、Web2.0和Web3.0主要有哪些区别?我再浓缩一下。

    • Web1.0:以静态、单向阅读为主;
    • Web2.0:以分享为特征的实时网络;
    • Web3.0:将以网络化和个性化为特征,提供更多人工智能服务。
     
  • admin 18:12 on 2009-08-10 链接地址 | 回复  

    15款基于浏览器扩展的WEB开发工具 

    WEB开发工具使用非常普及,如果想要更方便于开发的话,不妨看看本文介绍的15款基于浏览器扩展的WEB开发工具。

    1.Firebug

    Firebug是一款基于Firefox的浏览器扩展组件,它集成了网页CSS ,文档对象模型( DOM )和JavaScript调试技术于一身。并且Firebug特别对JavaScript调试部分做了重点规划,如果你侧重于JavaScript调试,那么它是你不错的选择。

    比如你可以方便的使用alert()进行断点调试,从而准确定位语法错误位置。另外可以帮助你利用DOM技术准确测试ajax代码的缺陷。

    2.Web Developer

    Web Develop是一款基于Firefox和SeaMonkey浏览器的扩展插件,它最大的特点是可以在菜单栏生成CSS选项,可以帮助你查看该网页CSS文件内容,方便保存及列表方式修改,是款不错的CSS开发工具。

    3.YSlow

    Yslow是一款由雅虎开发的Firefox扩展插件,并且可以与Firebug集成使用。本插件可以帮助你对网页进行优化,从而提高网页的加载速度。通过逐项分析网页中的js脚本、CSS、图像质量从而提出瓶颈部位,帮助你对其进行优化。

    4.Internet Explorer Web Developer Toolbar

    顾名思义,是一款由微软开发的IE扩展工具,功能与Firebug比较类似,最大的亮点在于可以针对不同的IE设置测试当前网页的显示效果,方便开发者调整在各种IE设置环境下网页的显示效果。

    5.Fiddler Web Debugger

    Fiddler是一款IE扩展插件,最大的特色在于网页显示性能分析及安全性分析。

    6.DebugBar

    DebugBar是一款基于IE的扩展插件,最大的特色在于可以通过电子邮件自动发送当前网页的截图到指定的邮箱,集成了色彩提取器及DCOM javascript代码分析功能于一身。

    7.HttpWatch

    一款基于IE、Firefox的扩展插件,侧重于HTTPS以及XML方面的分析及开发工作。

    下面几款就不一一介绍了,功能大同小异,你可以到官方站去了解更详细的信息,找到适合自己使用的一款:

    8.Live HTTP Headers

    9.Web Accessibility Toolbar

    10.Fangs

    11.Venkman JavaScript Debugger

    12.ColorZilla

    13.FireShot

    14.Web Inspector

    15.FireFTP

     
  • admin 17:45 on 2009-08-10 链接地址 | 回复  

    当前几个主要的Lucene中文分词器的比较 

    原文:http://www.javaeye.com/news/9637

    1. 基本介绍:

    paoding :Lucene中文分词“庖丁解牛” Paoding Analysis
    imdict :imdict智能词典所采用的智能中文分词程序
    mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器
    ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式

    2. 开发者及开发活跃度:

    paodingqieqie.wang, google code 上最后一次代码提交:2008-06-12,svn 版本号 132
    imdictXiaoPingGao, 进入了 lucene contribute,lucene trunk 中 contrib/analyzers/smartcn/ 最后一次提交:2009-07-24,
    mmseg4jchenlb2008,google code 中 2009-08-03 (昨天),版本号 57,log为:mmseg4j-1.7 创建分支
    iklinliangyi2005,google code 中 2009-07-31,版本号 41

    3. 用户自定义词库:

    paoding :支持不限制个数的用户自定义词库,纯文本格式,一行一词,使用后台线程检测词库的更新,自动编译更新过的词库到二进制版本,并加载
    imdict :暂时不支持用户自定义词库。但 原版 ICTCLAS 支持。支持用户自定义 stop words
    mmseg4j :自带sogou词库,支持名为 wordsxxx.dic, utf8文本格式的用户自定义词库,一行一词。不支持自动检测。 -Dmmseg.dic.path
    ik : 支持api级的用户词库加载,和配置级的词库文件指定,无 BOM 的 UTF-8 编码,\r\n 分割。不支持自动检测。

    4. 速度(基于官方介绍,非自己测试)

    paoding :在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字
    imdict483.64 (字节/秒),259517(汉字/秒)
    mmseg4j : complex 1200kb/s左右, simple 1900kb/s左右
    ik :具有50万字/秒的高速处理能力

    5. 算法和代码复杂度

    paoding :svn src 目录一共1.3M,6个properties文件,48个java文件,6895 行。使用不用的 Knife 切不同类型的流,不算很复杂。
    imdict :词库 6.7M(这个词库是必须的),src 目录 152k,20个java文件,2399行。使用 ICTCLAS HHMM隐马尔科夫模型,“利用大量语料库的训练来统计汉语词汇的词频和跳转概率,从而根据这些统计结果对整个汉语句子计算最似然(likelihood)的切分”
    mmseg4j : svn src 目录一共 132k,23个java文件,2089行。MMSeg 算法 ,有点复杂。
    ik : svn src 目录一共6.6M(词典文件也在里面),22个java文件,4217行。多子处理器分析,跟paoding类似,歧义分析算法还没有弄明白。

    6. 文档

    paoding :几乎无。代码里有一些注释,但因为实现比较复杂,读代码还是有一些难度的。
    imdict : 几乎无。 ICTCLAS 也没有详细的文档,HHMM隐马尔科夫模型的数学性太强,不太好理解。
    mmseg4jMMSeg 算法 是英文的,但原理比较简单。实现也比较清晰。
    ik : 有一个pdf使用手册,里面有使用示例和配置说明。

    7. 其它

    paoding :引入隐喻,设计比较合理。search 1.0 版本就用的这个。主要优势在于原生支持词库更新检测。主要劣势为作者已经不更新甚至不维护了。
    imdict :进入了 lucene trunk,原版 ictclas 在各种评测中都有不错的表现,有坚实的理论基础,不是个人山寨。缺点为暂时不支持用户词库。
    mmseg4j : 在complex基础上实现了最多分词(max-word),但是还不成熟,还有很多需要改进的地方。
    ik :  针对Lucene全文检索优化的查询分析器IKQueryParser

    8. 结论

    个人觉得,可以在 mmseg4j 和 paoding 中选一个。关于这两个分词效果的对比,可以参考:

    http://blog.chenlb.com/2009/04/mmseg4j-max-word-segment-compare-with-paoding-in-effect.html

    或者自己再包装一下,将 paoding 的词库更新检测做一个单独的模块实现,然后就可以在所有基于词库的分词算法之间无缝切换了。

    ps,对不同的 field 使用不同的分词器是一个可以考虑的方法。比如 tag 字段,就应该使用一个最简单的分词器,按空格分词就可以了。

     
  • admin 17:48 on 2009-07-06 链接地址 | 回复  

    81~99中国出生人数柱状图 

     
c
写新的
j
下一篇文章/下一个回复
k
前一篇文章/以前的回复
r
回复
e
编辑
o
显示/隐藏 回复
t
回到顶部
l
go to login
h
show/hide help
shift + esc
取消