当前位置:大学毕业论文> 本科论文>材料浏览

关于档案馆论文范文写作 档案馆实施大数据战略实践的路径分析相关论文写作资料

主题:档案馆论文写作 时间:2024-02-09

档案馆实施大数据战略实践的路径分析,该文是关于档案馆论文范文,为你的论文写作提供相关论文资料参考。

档案馆论文参考文献:

档案馆论文参考文献 大数据时代论文关于大数据的论文大数据杂志有关大数据的论文

摘 要:目前,大数据已经成为档案界研究的热点.本文从大数据架构、实施路径等方面进行分析,并以郑州市档案馆为例,对大数据如何在档案工作中进行试点展开深入研究.

关键词:档案馆大数据档案资源云

目前,大数据已经成为档案界研究的热点.笔者在CNKI上以“大数据”为主题进行检索,发现在档案学领域相关研究主要集中在大数据时代档案馆生存与发展的相关策略;档案管理中运用大数据技术的策略;数据挖掘与档案利用服务等方面.这些研究大多以介绍大数据为主,其提出的策略也较为宏观.鉴于此,本文拟从大数据架构、实施路径等方面进行分析,并以郑州市档案馆为例,对大数据如何在档案工作中进行试点展开研究.

一、档案馆实施大数据战略实践的框架构建

所谓大数据,就是一种规模大到在获取、存储、管理、分析方面超出传统数据库软件工具能力范围的数据集合,它具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征.从上述定义中可以看到,庞大的数据量以及多样的数据类型,需要海量的结构化数据与非结构化数据.同时,它还要求传输这些海量数据的网络具有较高的性能与速度,并且能够在对海量数据进行分析处理的基础上提取有效信息,而这主要通过云计算、分布式架构来实现.其中,大数据处理流程如图1所示.

具体而言,第一步是构建云计算平台,由于数据源具有TB甚至PB级以上的数据容量,因此可以将其用来构建数据云计算平台.其中,所涉数据源是各档案馆馆藏的档案资源.第二步是进行大数据处理,在进行大数据处理之前,需要进行信息整合与治理,即对各级各类档案数据进行数据质量治理并管理信息生命周期,通过聚类、相似性分析等分析档案数据间的有机联系,以保证大数据处理的质量.在构建数据云计算平台和进行大数据处理之间,需要实现海量档案数据的传输,而这主要通过高速网络来实现.高速网络,则以高性能网络(如UltraScience Net、ESnet5/OSCARS等)为基础,将数据传输集中在一个较大的服务器集群中,进行信息整合与治理、大数据处理.第三步是结果显示,它主要是指以可视化的方式,将处理后的结果提交用户利用.将图1中的大数据流程与档案工作实际相结合,并与各类物理设施建立联系,构建出档案工作实施大数据战略的具体框架,如图2所示.

(一)数据整合与清洗

所谓数据整合与清洗,是指将分布在多个异构平台的数据,集中到大数据的数据仓库前对数据进行重新审查,以删除重复的数据、补充不完整的信息以及修正错误的信息,从而提高数据的质量.比如,郑州某类民生档案数据分析,需要从郑州市6区5县的该类民生档案数据中抽取并分析,这些来自于不同档案系统的数据可能存在重复,可能存在关键著录项的缺失或错误,可能因存在不同的档案信息格式而造成数据质量下降,引起大数据分析结果的不准确.

存储在多个异构平台的档案信息的数据整合与清洗,完全可以通过构建档案信息云计算平台来实现,即档案信息资源云.它是一个以数据存储和管理为核心的云计算系统,具有云存储的作用.档案信息资源云应该是全国性的资源云,鉴于当前的档案工作实际,目前建设全国性的资源云并不现实,可以考虑先建设区域性的公有云,实现区域内档案条目的集中与共享,也就是说实现区域性的档案信息分布式存储与管理.具体来说,在建设区域性公有云的时候,可以通过区域性分布式档案馆联盟,构成区域性的资源云.李泽锋曾提出“分布式档案馆联盟”的概念,即在分布式联盟中,“当利用者查找的信息可能涉及多个档案馆的多个文件时,分布式检索系统根据公共目录同时向多个档案馆发送电子文件请求,在收到多个档案馆分发的档案数据后,将其压缩打包,并在压缩包中生成文件列表,以显示各档案数据的来源”,在此基础上逐步构建更大甚至全国性的资源云.在公有云下,区域内的档案部门还可以建设自己的私有云.

通过档案信息资源公有云搭建云计算平台,一是实现档案信息的查重,即按照档案信息的元数据或著录项进行比对,尤其是主要项如题名与责任说明项、密级与保管期限项、时间项等.如果相似度为90%,则要全文比对.相似度为100%,表明档案重复.一旦比对是重复的,只需将所保留全文的地址与相应全宗的目录建立对应关系.建议先进行档案目录的比较,因为全文作为非结构化信息,比对占用的云资源较多、时间较长;而目录一般为结构化信息,其比对简单迅速.二是对档案信息生命周期的治理.它主要用于档案鉴定与处置,尤其是达到保管期限的档案鉴定与处置.

(二)大数据处理

大数据处理是该框架的核心.大数据处理就是在收集庞大复杂的数据基础上,建立信息间的聚合,从而进行知识获取.由于大数据处理的是海量数据,非常规软件所能分析,它需要特殊技术在可容忍的时间内进行有效工作.

目前,主流的大数据处理主要包括语境搜索、数据仓库、Hadoop系统和流计算等.其中,语境检索是指对档案信息进行索引与联邦检索,在信息整合的基础上实现上下文聚合,在上下文中关联并不相似的信息,探索和挖掘大数据,以发现知识.数据仓库是档案数据按照预定规则进行存储以及数据库内分析.Hadoop系统是实现分布式文件系统,可以经济高效地分析PB级的结构化与非结构化数据.在处理海量的数据时,流计算是必不可少的.它主要用来分析流数据和激增的大型数据.在云存储的环境下,各节点都有可能产生新的电子文件或数字化结果,而将这些新增数据纳入到大数据处理中是信息整合与处理的基础.

(三)结果显示

结果显示包括两部分.一是可视化显示功能,即通过利用最佳的可视化模块组合,收集、提取并探索大数据的处理结果,并以可视化的形式提交用户.二是数据分析,它包括预测分析、内容分析、辅助决策分析等,以便将与业务相关的结果提交用户.一般来说,国家档案馆较为侧重内容分析.而企事业单位的档案馆(室)则认为预测、辅助决策更有帮助.

结论:适合不知如何写档案馆方面的相关专业大学硕士和本科毕业论文以及关于档案馆论文开题报告范文和相关职称论文写作参考文献资料下载。

马宁宇:大数据战略行动的贵州路径
扭住创新和改革的牛鼻子,鼓励各市(州)、贵安新区争创省级大数据“实验田”项目和牌子,形成一批在全国叫得响的先行先试成果。2015年11月,贵州。

我国新闻出版产业大数据战略实施路径
本文针对新闻出版企业大数据应用面临的问题,从行业层面、行业一企业协同层面以及企业层面等多个角度,探索新闻出版产业大数据战略的发展路径,以期为我国。

企业传统决策分析模式和大数据战略决策分析模式对比
摘 要:随着大数据时代的来临,企业的决策模式会发生变化。本文分别对传统的决策分析模式和大数据战略决策分析模式进行对比分析,发现在决策方法、决策参。

大数据时代政府治理路径优化
摘要:大数据时代开启了一次重大的社会转型,为政府提高服务水平与能力,完善社会治理提供了契机。数据作为这场变革的核心资产,政府应通过重塑治理理念,。

论文大全