基于word分词提供的文本相似度算法来实现通用的网页相似度检测
实现代码: 基于word分词提供的文本相似度算法来实现通用的网页相似度检测 运行结果: 检查的博文数:128 1、检查博文:192本软件著作用词分析(五)用词最复杂99级,相似度分值:Simple=0.968589 Cosine=0.955598 EditDistance=0.916884 EuclideanDistance=0.00825 ManhattanDistance=0.001209 Jaccard=0.859838 JaroDistance=0.824469 JaroWinklerDistance=0.894682 SørensenDiceCoefficient=0.924638 SimHashPlusHammingDistance=0.976563 博文地址1: http://my.oschina.net/apdplat/blog/388816 博文地址2: http://yangshangchuan.iteye.com/blog/2194214 2、检查博文:APDPlat的系统启动和关闭流程剖析,相似度分值:Simple=0.837996 Cosine=0.711649 EditDistance=0.55001 EuclideanDistance=0.003669 ManhattanDistance=0.000992 Jaccard=0.549422