• ----:)欢迎访问源码网(:----
    • 首页
    • 博客
    • 学院
    • 下载
    • 论坛
    • 影视
    • 发布源码
    • RSS
    • ITPig
    • 笑话网
    • 百家姓
    • 繁體中文

源码网 - 中国第一源码门户
选择镜像:网通镜像 - 电信主站
  • 首 页
  • 新闻动态
  • 网站运营
  • 网页制作
  • WEB开发
  • 编程开发
  • 图像媒体
  • 操作系统
  • 数据库
  • 服务器
热门搜索 优化 SEO 故事 cms IIS7 MySQL 个人 AdSense 主题推广 | 文章搜索: 高级搜索
会员登录/控制面版您的位置: 学院首页 >> 网站运营 >> 搜索引擎 >> 详细内容
 

推荐文章

  • 2008年版最新免费搜索引擎登录口大全
  • 谷歌关于网站重复内容的10个建议
 
 

热点文章

  • 谈如何提高百度排名,让百度认可你的站
  • 世界各大搜索引擎的蜘蛛名称列表
  • 从一分钟的蜘蛛抓取看搜索引擎
  • 百度热门关键字手法大揭密
  • 搜索引擎优化工具-网站优化工具
  • 百度热门关键字进首页的玩转手法大揭密
  • Google靠什么赚钱?
  • 如何用Google搜索本地硬盘
  • 分享网站快速收录的一些经验
  • 2008年版最新免费搜索引擎登录口大全
  • 被百度降权后,网站该怎么办?
  • Google Adsense广告应避免18个错误
 
 

相关文章

  • 百度宣布搜索服务器采用闪存技术替代硬盘
  • 百度秘密拆空服务器硬盘 可能放弃传统搜索
  • 百度开始邀请用户内测C2C业务
  • 律师:谷歌百度音乐搜索的法律比较
  • 百度夺回日本域名 Baidu.co.jp
  • 马英九与李彦宏畅谈互联网 为百度倍感骄傲
  • 《华尔街日报》:百度是最具创新意识的中国公司
  • 谷歌在法理上认可百度的广告模式
  • 百度在中国市占增至64.4% 扩大领先谷歌优势
  • 百度C2C平台蓄势待发 暗示淘宝易趣已经犯错
  • 百度电子商务蓄势待发 搜索公正性面临考验
  • 百度小范围测试搜索联想功能 对搜索内容可预测
 
 

百度搜索

 
 

百度分词切词研究 如何获取优质长尾流量

  • 阅览次数:
  • 文章来源: CP整理
  • 原文作者: shentong
  • 整理日期: 2007-07-25
  • 发表评论
  • 字体大小:
  • 小
  • 中
  • 大

  对与百度的分词研究原来也没有在意,但有一次我在作优化时无意中发现一个词也就是差了一个字,结果排名大不相同。我作的是二手房的关键词,但是我的页面上的关键词设置却是“二手房源”,可能有的朋友会说,这个没什么问题啊,“二手房源”不是包含了二手房这个关键词吗?如果没有仔细对百度的分词进行研究,大家可能看不出这两个词会有什么区别,不过大家只要稍微留心一下搜索出来的结果,就可以看出端倪了,百度在对“二手房”和“二手房源”这两个词分词出来是不一样的,百度自己建立有自己的词库,所以他会把“二手房“这个词当作一个整体,但是对于”二手房源“这个词,百度则拆分成了”二手“和”房源“两个词,自然别人在搜索二手房这个关键词的时候就找不到我的页面了。通过这个小细节,我觉得有必要对百度的分词进行一下深入的研究,我大概地总结出了以下这么几点:

  1、百度分词是根据内容中,第一次出现关键词相关词为标准来分的。例如”今日新开热血江湖sf“这个词
  如果你的正文中第一个出现的是”今日“这个词,那么你的页面上的关键词就会被拆分成”今日”和“新开热血江湖sf“两个词,标题中一定要包含关键词,但不一定要完全匹配,但内容中出现的关键词是要跟百度分词完全匹配的,在完全匹配中又会根据文件URL路径的深度来进行排序,在关键词都完全匹配的情况下,比如说目录比文件有优先权,根目录下的文件要比二级目录下的文件有优先权,完全匹配的会排在前面,然后再是部分匹配的。

  2、在关键词没有完全匹配的情况下,如果有分词,比如说:游览器下载
  这个关键词,有一个网页里第一次出现的关键词是游览器,并且有较高的关键词密度,但是这个网页中却没有”下载“这个关键词
  而另一个网页里第一次出现的关键词是下载,那么这个网页的关键词就会被拆分成 游览器 下载 两个词,虽然第二个网页里包含有“游览器” “下载” 但是第一个网页还是会排在第二个网页的前面,这说明关键词的前面部分是最重要的。

  3、关键词第一部分出现的频率是排名的关键,比如说 ”游览器 下载“,如果两个网页都没有完全匹配,都是含有两个分词,那么“游览器”这个分词密度高的网页将会排在前面。

  4、如果完全匹配,但是关键词第一出现是在页面内容的最后面部分,那么这个网页的排名将比前面这些页面还要低。所以关键词尽早在内容中出现是非常重要的。

  5、百度根据第一次出现的相关关键词切词,如果第一次出现的相关关键词是关键词的尾部,那么就从后面开始切,如果是前面部分就从前面开始切,也就是根据网页内容的顺序和反序进行分词,顺序的时候就是以关键词前半部分为起点,反序的时候就是以关键词的后半部分为起点。例如:”今日新开热血江湖sf“ 这个关键词,如果你的网页中第一次出现的关键词是”热血江湖sf“,那么你这个页面的关键词会被拆分成”热血江湖sf”和“今日新开”两个词。

  6、可以根据百度的切词原理,自己来选择比较好作的关键词头部(也就是调整你网页内容中第一次出现的关键词)。也就是进行人为切词,百度会进行从前往后判断,也会从后往前面切。

  7、如果切词出现前半部分和后半部分有重复的话,那么有重复的会比没重复的排名低,但如果都有重复那么就是根据前半部分的密度来判断。
  例如:今日新开热血江湖sf 如果被切成 今日新开热血江湖|新开热血江湖sf   (这样切出来的词前半部分太长,所以排名不利)那么排名肯定要比切成今日新开|热血江湖|sf 的排名差

  8、如果在关键词没有完全匹配的情况下,并且关键词出现得不完整,比如说:今日新开热血江湖sf,网页的内容包含的关键词中如果没有“今日”这个词,那么切词就会从“新开”开始,但是这样的网页都会排在比较靠后了,因为你关键词的前部分都没有包含

  9、缺词的情况下下,如果与不缺词的网页进行比较的话,那还是根据切词前部分的密度进行排序,也就是说按照切词的顺序,如果切出来的词,前部分的密度比后部分的密度比例是关键,例如一个网页中,前部分与后部分关键词的比例是1:2,另外一个网页的比例是1:4,那么当然前面的那个网页排名要靠前。同样在缺词的情况下,切出来前词短的排名有优势

  10、如果不缺词,但是关键词后面部分比前面部分先出现,例如“今日新开热血江湖sf” sf这个词先出现,但是“今日新开热血江湖”这个词的密度又不高的话,那么排名会比那些缺词的还要靠后

  11、同样是后词出现在前面,但是前词与后词的比例是关键,例如一个网页中包含有“sf” “今日新开热血江湖”这样两个词,比例为1:1另外一个网页包含的是 “新开热血江湖” “sf” “今日新开” 比例是2:1:1,那么前面的那个网页排名有优势,关键词的数量不是关键,出现的位置,以及分词的比例是非常关键的。越靠后的分词占的比例越多,排名越不利

  12、关键词在正文中出现的位置过于靠后也是不利的,主词的密度太低也不利,前面的网页情况都是在主词密度差不多的情况下进行比较的。


  我研究出来的也就查不多这么多了,不知道大家能不能看懂,如果能看懂的会,你就可以根据百度的分词去调整自己网页的关键词权重设计,这样就可以避免热词的竞争,但是又能作到热词。

上一篇:PHP使用zlib扩展实现页面GZIP压缩输出
下一篇:构建支持Master/Slave读写分离的数据库操作类
  • 网友评论:
  • 查看所有评论
  • 我要发表评论
您的网名:
留言主题:
你要发表的内容:

 

关于本站 | 广告联系 | 版权声明 | 网站地图 | 发布软件 | 帮助中心 | 源码论坛

Copyright © 2005-2007 CodePub.Com  程序支持:木翼  滇ICP备05005971号