如何正确地长期保存数字文档?

           

数字存档实现了电子资料档案查询、诉讼支持和法规遵从,并促进了数据分析。请阅读有关如何使用FineReader服务器将纸张和数字输入通道中的文档保存为可访问和可搜索的PDF/A资产的信息。             

要回答标题中的问题,我们首先应该了解什么是归档。许多人将其与备份相混淆,因此我们详细讨论一下来区分它们。             

备份 是在给定时间点创建的数据快照,用于在数据损坏或丢失时恢复数据。             

归档 是所有相关信息的副本,用于长期保存和参考,归档后通常会删除原来的资料。             

下表列出了主要的区别:

  备份 归档
期间 短期保存
在数据处于使用状态时保存
长期保存
按规定期限或无限期保存
内容修改 容易      
重复的副本会定期被覆盖
困难             
不能更改或删除数据
内容类型 未编制索引的原始内容 可索引、可搜索和可访问

表1:备份和归档

虽然备份和归档都是重要的最佳实践,但它们是不可互换的。

Osterman Research,Inc.称,除了纸质文档外,以下是组织存档的主要电子内容类型(及存档此内容的组织所占百分比):

  1. 公司电子邮件 (89%)
  2. 用户文件 (53%)
  3. 来自微软SharePoint 或类似协作工具的内容 (26%)
  4. 来自公司管理的文件同步和共享工具(如Dropbox)的内容(19%)
  5. 其他 (16%)

如您所见,电子邮件系统在归档方面处于领先地位,通常是一个起点。这并不奇怪,因为电子邮件的普及率很高,而且它包含的内容种类繁多。

组织进行数字存档的原因有很多。我们来看看主要驱动因素和优势。

图 1:数字文档存档的主要驱动因素

以前,归档的主要原因是存储优化,其主要目的是为将来可能出现的需求(有时可能永远不会出现)保留公司的回忆。另一个目标是减小存储库大小,但鉴于最近存储成本的降低,这个问题可能已不考虑了。其他存储优化优势(如内容迁移和员工工作效率)如今仍然非常重要。

目前,归档的主要驱动因素是诉讼支持、电子资料档案查询以及公司和行业法规。

存档为面临考验的组织提供了以下优势:

  • 简化、加速查找和生成特定记录
  • 提供电子发现平台
  • 早期案例评估
  • 合法持有

不同的公司和行业法规迫使组织保存并能够生成各种业务文档。世界各地的组织实施记录管理策略以满足这些需求。以下是一些记录保存要求的不同法规示例:

过去归档是开展业务的一项开支,但现在我们发现通过以下方式降低它的成本:

  • 减少员工搜索必要记录的时间
  • 帮助避免因不符合法规而被罚款
  • 帮助赢得考验

根据当前趋势,将来归档的主要驱动因素将是分析。提供分析和AI平台、存储和文件分析、从客户或员工通信中提取见解以及主动检测内部问题和异常情况,这些只是很快实施信息归档解决方案的一些明显好处。

谈到电子文件的长期保存,主要使用的格式是PDF/A,这是一种用于归档的可移植文件格式(PDF)的 ISO标准 化版本。此版本与禁止不适合长期存档的功能,如字体链接和加密。如内容、颜色、字体等所有信息必须在文件中嵌入。

PDF协会成员 ABBYY(FineReader服务器)提供的解决方案通过自动将大量纸质和数字文档转换为可访问和可搜索的PDF/A文件,会遵守政府和公司法规。它是基于服务器的产品,从存储文件夹、多功能打印机、扫描仪或电子邮件接收文档图像,并使用光学字符识别(OCR)技术自动将其转换为压缩的、可搜索的数字格式。如果需要,用户和系统可以向文档中添加元数据,并且用户可以手动更正文本信息。该服务可以全天候运行,也可以按计划成批处理文档,以优化硬件资源的使用。生成的数字化文件可以保存到任意数量的存储区域和/或传递到其他应用程序。

英文原文来自: FineReader blog

转载请注明文章出处:https://wefile.com/blog/how-to-long-term-digital-document-archiving/


你还在逐行比对文件内容吗?
在大多数情况下,可以放心地假定文件及其副本包含完全相同的信息。但真的是这样吗?或者它们之间有什么不同之处——在 …

如何正确地长期保存数字文档? 阅读更多 »

为什么要使用并发许可证?
并发许可证是按并发用户数收费的,换句话说,是按同时登录系统的用户数收费的。以上述15名员工为例。所有用户仍然需要使用该系统,但如果你知道在峰值容量时,你最多可以同时在线使用10个用户,你只需购买10个许可证,就可以获得与15个每用户许可证相同的效果。
ABBYY FineReader Engine v12 第5版最新的技术
ABBYY著名的OCR SDK已更新至第5版:这是自两年最大的OCR技术更新!
– 基于神经网络的语言模型
– 基于神经网络的“精确”OCR模式
– 适用于OCR质量优先的特定情况
– 印章和签名附近文本的识别质量改进
– 基于神经网络的精确条形码识别
Scroll to Top