• ----:)欢迎访问源码网(:----
    • 首页
    • 博客
    • 学院
    • 下载
    • 论坛
    • 影视
    • 发布源码
    • RSS
    • ITPig
    • 笑话网
    • 百家姓
    • 繁體中文

源码网 - 中国第一源码门户
选择镜像:网通镜像 - 电信主站
  • 首 页
  • 新闻动态
  • 网站运营
  • 网页制作
  • WEB开发
  • 编程开发
  • 图像媒体
  • 操作系统
  • 数据库
  • 服务器
热门搜索 优化 SEO 故事 cms IIS7 MySQL 个人 AdSense 主题推广 | 文章搜索: 高级搜索
会员登录/控制面版您的位置: 学院首页 >> 网站运营 >> 分析研究 >> 详细内容
 

推荐文章

  • 我眼中的地方门户网站
  • 服务器对网站排名的影响
 
 

热点文章

  • 我眼中的地方门户网站
  • hao123被巨资收购:个人网站的新财富神话
  • 服务器对网站排名的影响
  • 博客发展十大趋势
  • 建议5种人不做分类信息网站!
  • 分类信息是赢利模式最为清晰的web2.0网站
  • 思考:地方性网站如何运营?
  • 小谈地方型门户网站的运营
  • 做好这几招,保你地方站火起来!
  • 做网站,一定要先弄清楚自己的实力!
  • 张扬个性是个人网站的成功之道
  • 2006中国网络分类信息市场研究报告
 
 

相关文章

 
 

百度搜索

 
 

数据采集是否真的一无是处

  • 阅览次数:
  • 文章来源: 网络商机站论坛
  • 原文作者: Addodo
  • 整理日期: 2007-09-14
  • 发表评论
  • 字体大小:
  • 小
  • 中
  • 大

    此前看了不少相关文章,大多都在指责数据采集不道德,属于欺骗搜索引擎的作弊手段,把数据采集打入万恶之源。其实数据采集果真就一无是处吗?今天做此文,就数据采集的利与弊希望和广大的站长朋友一同讨论。

    先说说数据采集和转载。我的看法是数据采集和转载是一样的,但是有的人总是非常痛恨数据采集,而对文章转载避而不谈。原因是数据采集速度太快,别人辛辛苦苦创造出来的内容,一迅间就成了别人的。如果你一个一个文章来转载,估计鄙视程度就大大降低了。

    从这点来说,国人对文字版权的保护意识有待加强。如果你不希望别人转载你的文章,应该在文章开头处和结尾处注明严禁转载,如果有人转载了,你可以通过正当的渠道要求对方立即删除。 有些文章你认为可以被转载的,那么也应该注明,要求对方注明转载地址和原作者。笔者痛恨转载者擅自修改文章内容,不标注文章来源了作者的,有例为证,我此前在admin5上投稿的一篇文章《不放广告的个人网站能走多久-我的站长路 》(首发在网络商机站论坛http://www.addodo.com/bizforum),转载颇多,可是很少人自觉的标明原作者和出处的,这个不仅仅是道德问题,是版权概念在国人心中太薄了。

    好了,如果抛开版权问题,数据采集和单个文章的转载有什么不同呢?数据采集无非是大量的单个人工转载。故此下文中提到的数据采集,其意思是包含单个文章的手工转载的。

    不用说所有的站长都是知道的。新站伊始,试问哪个站长没有采过别人的文章?

数据采集的利:

    1)丰富网站内容。通过数据采集可以快速丰富网站的内容,如果新站刚刚建成,不采集别的网站内容,恐怕网站不知猴年马月网站才能吸引到用户。所以说网站采集数据是网站初始阶段的必备的手段。但是请你把作者和原出去也采集过来,否则你就太....当心别人告发你哦。

    2)集合各家不同的言论。采集不同网站的不同的内容,可以让用户得到来自各个不同角度的看法。对于用户来说无疑是件好事。

    3)搜索引擎快速收录更多的页面。搜索引擎每天都希望看到你网站的新的内容,如果站长总是靠一个人的精力去写文章,搜索引擎恐怕对你的网站也会失去耐心。

    4)有利于用户的对信息集中的需求。所有的用户其实都希望在一个网页能看到他所需要的所有内容,当然这是不可能的,但是尽可能把相同主题的文章集中在一起,这也是用户的需求,故此我们通过转载将同一主题的不同作者的文章集中在一起,可以大大提供用户的PageView.

    这里有个例子:证券报的网站每天大概有4~5篇关于基金的文章,新浪财经每天大概有10篇左右的关于基金的文章....如果我有一个基金相关的网站,并且我把不同网站的关于基金的文章集中到一起,我想用户还是希望在一个地方看到多个专家点评的。其实这个是用户的需求...

说完这些再来看看数据采集的弊端:

    1)内容重复: 如今互联网内容重复性太高了,试试在搜索引擎上搜索一下内容的重复性实在是太高了。难怪这么多人痛恨数据采集。
    2)无法保护版权: 比较有版权意识的站长还能保留个做者和出处,但是大部分站长在转载文章的时候连个原作者都不留,难怪招人BS.
    3)搜索引擎: 搜索引擎总是希望为用户提供更多,质量更好的内容,如果每次搜索出来一长串同样的内容,岂不失败。故此搜索引擎也在不断的提供相关技术尽量减少相同内容网页的收录情况。如果某个网站被搜索引擎视为没有原传内容的网站,那这个网站基本上就等于判刑了。
    4)网页凌乱: 大量的垃圾网站只是在不停的采集别人的网站内容,目的就是提高搜索引擎的收录量,依靠搜索引擎收录的内容和关键字的查询为网站带来流量。其网页凌乱广告乱飞。是在不敢恭维。

    姑且说这些,其利其弊各位站长自行明察,写此文与诸位站长共同探讨。

上一篇:PHP使用zlib扩展实现页面GZIP压缩输出
下一篇:构建支持Master/Slave读写分离的数据库操作类
  • 网友评论:
  • 查看所有评论
  • 我要发表评论
您的网名:
留言主题:
你要发表的内容:

 

关于本站 | 广告联系 | 版权声明 | 网站地图 | 发布软件 | 帮助中心 | 源码论坛

Copyright © 2005-2007 CodePub.Com  程序支持:木翼  滇ICP备05005971号