学术园地

向您征集
您当前的位置:
浅谈大数据背景下的档案资源建设策略
时间:2017-11-10
    随着移动互联、移动终端和感应技术的出现,大数据时代已经到来,2013年甚至被称为“大数据元年”。大数据已经和正在对社会方方面面产生深刻而持久的影响,档案部门如何适应并借势而上,以作为求地位,这是新时期档案工作者们共同面对的问题。
一、新时期档案信息资源具备大数据的特征
    按照维基百科的解释, 大数据(big data)是指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息,它具有大量、高速、多样、有价值(4Vs)的特征。
    就档案实体而言,档案有内容、载体及特征与标记三个构成要素,其中内容是文字、图形、图像、声音、影像等记录在原始载体上的信息,载体是内容的承载物,包括纸质、磁带、胶片、光盘等,特征与标记是指档案的原始记录性,它使档案在众多信息洪流中具有最高信用等级,成为社会最具公信力的信息资源。档案内容的汇集构成档案信息资源,档案信息资源及其衍生数据则共同构成档案数据,包括历史数据、各业务部门通过业务系统产生的业务数据,人工采集归类转换、全文数字化和模数转换、档案的管理和利用等过程产生。随着档案在人类政治、经济、社会、文化等各方面活动的真实记录的日益丰富,档案管理的内涵也逐步演变为重视社会化服务能力的档案管理。
以某区级档案部门为例,档案信息资源数据已经初具大数据的特征(见图1):一是数据量巨大。从档案实体来看,仅馆藏档案实体总量达数百万卷,资料数万册,年均增量超过一成,从介质存储量来看,达到TB级,逐渐形成真正意义上的大数据。二是数据类型繁多。档案资源以文本类为主,还有大量的音视频档案、照片图片档案、图纸、地理信息、日志等,都是非结构化数据,而描述这些档案资源的元数据又是结构化数据,海量结构化数据与非结构化数据的混合,符合大数据的多样性特征。三是档案价值高密度低。众多进馆单位的移交以及通过各种渠道征集的珍贵档案,构成了结构类型多样的档案资源,具有很高的历史价值,然而海量档案信息每次可能利用的数据却非常少,具有价值高密度低的特点。如视频在连续不间断摄制过程中,可能有用的数据仅有一两秒。再如,为了推行民生档案远程利用服务体系,需要对各类民生档案优先数字化,但有些档案在其整个生命周期都不会被使用。四是处理速度快。这是大数据区别于传统数据挖掘的最显著特征。在海量的数据面前,如何准确地在最短时间内瞄准利用者所需的“目标”就是档案利用工作的生命,需要人员、流程与技术的密切配合,将档案信息中蕴含的巨大潜能转化为实际的利用价值,可见,从大数据角度研究人们心目中最系统、最具公信力的档案信息资源并进行专业化处理,具有极高的历史和现实意义。
二、大数据为档案事业发展带来的机遇
     从档案的收集、管理、利用三个环节来看,传统管理方式下,“收”是各部门移交,“管”是手工管理,手工查询,“用”是提供被动的查阅服务;在信息化时代,“收”主要是部门移交与系统推送部分电子文件相结合,“管”主要是电脑代替手工劳动,“用”是利用现代信息技术进行制作、加工、传播、转换和二次开发;在大数据时代下,“收”将是各档案形成主体档案数据的实时自动归集,“管”将采用云平台存储、计算、分析,“用”则是分析、发现与预测,为社会发展和人民生活提供更为丰富的档案增值服务,创造实际价值。因此,可以认为,大数据的到来,将对档案工作的各个环节带来深刻的变革,推动档案业态的转型升级,主要体现在以下方面:
(一)提供基于资源整合的一站式服务
      一是档案实体与数据胀库现象将大为缓解,档案实体可通过大数据实现负载均衡,档案实体可借助物联网手段在多个馆库间动态分布,并按照最优路径调配。而档案数据“胀库”问题,本质上是存储和计算资源分配的不够合理,可以利用云计算技术强大的调配计算资源的能力,根据数据处理规模的需要,配置数字化档案管理所需要的存储和计算资源,保证档案的服务利用效率。二是相比档案实体鉴定的复杂,档案数据鉴定变得不再迫切,只要掌握大体的方向即可。利用“大数据”技术,可简化甚至无需人为鉴定地对各种类型的海量档案信息予以存储和利用,避免依赖经验、理论去人为鉴定收集局部档案信息而导致的片面性,实现 “样本即总体”的观念转变。三是有利于构建民生档案一站式服务平台,为群众维护权益、享受政策红利提供服务,市民办事将不再需要辗转到多个职能部门办理,一切有关市民身份确认的佐证材料的举证责任都可以由这个平台提供,从而将使政府的行政效率和服务水平得到质的提升。
(二)提供基于需求感知的分众服务
      一是以利用者为中心,通过大数据的流动、关联,可根据档案查阅的自然人和法人姓名、证件号(自然人为身份证号、法人为机构代码证号),利用大数据对人群和组织进行细分,精确地定制档案服务,记录和分析其偏好和关注点。二是可以利用历史查询记录中数据的关联性,整合档案馆内信息数据和用户的查询信息轨迹,为利用者的下次查询提供路径指引,能节约在浩瀚档案数据库中查询的时间及人工筛选的时间,提升利用效率及利用者的满意度。三是通过预测和分析档案利用者的利用目的、利用趋势、利用需求,统计访问量和不同数据的利用者人群特点,开展分布分析、舆情分析,实现档案信息智能检索、档案信息“菜单化”定制及档案信息跟踪与推送服务。
(三)提供基于数据挖掘的智慧服务
      由于大数据更强调数据的完整性和庞杂性,通过对海量数据进行聚类、分类、相关性分析,可帮助人们利用档案接近事实真相。一是在历史研究方面,通过对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的‘关联性’,把似乎没有用的数据变成有用的信息,以支持研究者做出判断,尽可能还原历史真相;二是在未来预判方面,档案信息辅助公共决策水平将大为提高。通过收集和分析反映政府职能活动和地方经济、社会、文化发展脉络的数据,可以结合形势发展提供大量的资政参考信息,发挥政府智囊作用。
(四)开展基于自主应用的档案编研
  一是编研前期的大量准备工作将由大数据来完成,降低人力成本,档案编研的门槛降低,民间档案爱好者的能量将不容小觑,他们可利用大数据工具及手段,对海量档案资源进行分类整理、编研利用等工作,从而更好地满足社会需求。二是档案编研的工具界面将更为友好和可视化。可借由档案GIS平台实现时空的自动关联,在数字地图上,点击时间轴(可以是任意时间粒度),能定位到过去和现在的任一时点,行政区划、街镇变迁、馆(室、库)藏情况变化以及档案类别、建筑、管线等的“前世今生”一目了然,档案人员可随时按照档案类别、职能部门分层分类统计分析,了解区域内城市化、城镇化进程及建设项目进展情况。
三、大数据背景下的档案资源建设策略
      为了有效开展档案大数据应用,将档案数据融入公共数据,服务科学决策,提升主动服务能力,建议档案部门从“业务驱动”向“业务与数据双核驱动”转型,未雨绸缪。笔者主要从档案资源建设角度,提出如下建议:
(一)构建物理分散的档案实体区域布局
为了实现档案实体在区域内不同馆库之间的负载均衡,既要丰富档案区域馆藏,又要让档案实体在馆库间(包括代管单位)合理布局和动态分布。
      在丰富档案实体馆藏方面,一是对已到达国家规定的进馆期限而由于特殊原因暂时不能进馆的,在明确档案的归属权限后,可以采用“委托制”,委托档案管理单位代为保管,档案馆每年对受托单位档案保管情况进行核查。二是要重视民生档案实体进馆,在接收方式上,可针对不同对象酌情采用如期如数直接接收、突出重点协商接收、按主管部门的意见接收及寄存等方式;在接收时间上,可打破时间和全宗的界限,提前或随时接收;在接收内容上,突出如就业、住房、医疗、食品安全、养老、教育、环境保护等重要涉民档案,尽可能尽快完整齐全接收进馆。
      在馆库资源合理布局方面,随着档案实体增多,区域内分散设置多个馆库设施来存放档案实体的情况将更为普遍,可支持条件成熟的行业、区域设立档案分馆。一是可利用物联网技术调配档案实体,接收档案后按照最短路径就近安排进馆库。可在档案单体入库前,对档案案卷(件)单体附加二维码或条形码,通过PDA等手持感应设备,在案卷上架时记录档案实体所在的馆、库及排架位置,二是可用GPS、RFID等感应设备跟踪记录档案实体的位置信息,实现档案实体流向的实时跟踪。
(二)建立逻辑集中的档案数据资源结构
      应以接收原生电子档案为重点,实施“增量电子化,存量数字化”的资源增长战略。
      一是加强档案数据采集的前端介入。尽可能实时采集业务管理阶段产生的电子文件(如word文档、CAD电子文件等)数据,通过全宗标识、归档期限表的子项归类,待后期完成编制和移交进馆后与数字化的全文关联,弥补后者文件格式混乱、元数据收集不全、不能进行语义分析和全文检索的不足。
      二是建立地方档案目录中心,力求对档案目录与档案数据同步进馆,以便实时掌握各单位档案情况,经区分公开与非公开后,向社会提供利用;档案信息目录体系关联全文数据、视音频、地址(GIS、传感器等)信息,对有关自然人和法人的档案,可以分别关联身份证和机构代码证著录项,为后续检索关联数据和统计分析、纳入征信体系提供方便。
三是在机构改革、企业改制、行政区划调整等过程中,档案部门应及时关注相关部门档案流向,收集目录、全文数据,尤其做好档案实体存址地理信息记录,以备追溯。
(三)形成公共数据共建共享机制
      从范围上讲,这种共享合作不仅包括档案系统内部的合作,还包括档案部门与图书馆、博物馆及网络运营商(政务网、高速数据专网、因特网等)之间的合作;从内容上讲,既包括资源上的共建共享,也包括技术、人才等方面的合作,加强不同数据拥有者之间的合作,将数据库打通,实现资源共享,将是大数据价值最大化的关键。
      一是要突破体制约束,加强体制内档案工作监督指导和体制外档案管理主体的培育指导。
      1、档案行政主管部门可研究制定相关职能部门及其下属事业单位业务档案的档案管理办法,监督指导收集归档,加大对体制内垂直管理部门、强势权力部门的档案指导,尤其加强与重点工作、重大活动、重大建设项目、重大科研项目、重大生态保护项目业务管理部门的互动,对其档案管理做到“不求为我所有,但求为我所用”。
       2、档案学会作为枢纽型社会组织,可建立完善专家、技术人才、档案编制人才库,大力培育档案社会化服务市场,发挥资源集聚优势,加强与档案外包企业、档案NGO、档案个人从业者的监管,尤其重视对新领域、新专业、新机构、新社会组织档案工作的指导,有效汇聚电子文件和全文数字化资源,并纳入档案公共数据库。
       二是以建设数字档案馆(室)为契机,着力搭建区域性的公有云(区域档案利用公共资源服务平台),整合同一单位内不同部门、区域内各档案馆(室)及其他地区档案馆(室)的档案资源,实现档案条目的集中与共享,进而实现所有电子文件、数字档案的存储,下级档案部门保留档案链接地址即可。公有云下,区域内档案部门可以建设自己的私有云,用于存储不开放档案数据。开放档案数据可以融入智慧城市框架之中。
 
    通过大数据应用,颠覆基于经验和直觉模式,档案信息服务思维将由因果关系向相互关系转变,即由传统的出现问题、逻辑分析、找出因果关系、解决方案的逆向思维模式向收集数据、量化分析、找出相互关系、提出优化方案的正向思维模式转变。档案阅览、咨询、展览等传统服务将得到调整,而以馆(室)藏为基础,为社会机构如政府、企业等做一定的数据分析服务、数据挖掘服务,将“死档案”变成“活信息”将成为大数据时代档案馆的常态服务内容。
      档案部门通过充分、有效地利用大数据,运用有效的策略,将挖掘蕴含的附加价值,使档案大数据成为提高档案主动服务能力的重要推手,进而实现档案公共服务机制从“业务驱动”向“业务和数据双核驱动”转型。(夏晓平)
 
 
更多>>
您是第 访问者
网站地图沪ICP备05031394号沪公网安备31011502006474号
政府网站标识码:3101150022|Copyright (C) 2008 上海浦东新区档案局
联系我们:021-28949999 丨 地址:上海市浦东新区迎春路520号丨上海市浦东新区档案局主办