当前网页档案信息的主要采集策略有两种,分别是完全性采集策略和部分性采集策略。完全性收集策略是指对网页的所有信息进行收集。目前,瑞典、奥地利和美国的多个网页档案保存项目采用了完全性采集策略。完全性采集策略的优势在于不需要人工对网页内容进行判断和复制,而是完全由机器完成这一操作,因此其成本较低。对于小型的、资金较为缺乏的档案管理部门,可适当地选择完全性收集策略,但需要注意对信息进行过滤。内容结构和类型较为单一的网站可通过设置关键词对无用信息进行过滤,同时建立定期的人工审核机制。
部分性采集策略是指有选择地对网页的某个类型或者学科的内容进行收集,因此其内容的专业性较强,主题也十分鲜明。与完全性采集策略不同的是,部分性采集以价值判断为基础,通过制定完善的采集标准限定采集的内容,因此标准是否合理就成为部分性采集是否成功的决定性因素。对此,档案管理部门在选择部分性采集策略时,应充分考虑到网页档案信息的动态变化性,对网页信息实行动态监控,并及时调整采集策略,不断提高网页采集的覆盖率。
没有更多内容。