1系统规划
“中华人民共和国法律法规信息服务系统”是面向中央国家机关的立法决策部门和执法部门而建设的一个法律法规数据整合化、精细化、专业化信息系统。在数据来源方面,系统基于图书馆及政策法规制定部门全面、宏大的法律法规馆藏资料,对国内法律法规文件、历史法律法规文件、现行法律法规文件以及政府公告文件等信息进行数字化加工和内容结构化处理,并对外提供服务,从数据来源上保证了系统的权威性。在应用服务方面,系统需要从两方面考虑。一方面,可以为用户提供基于法律法规元数据、全文内容数据、法条内容数据等多层次的检索、分类、展现、全文原版原貌查看、原文回溯查看等服务,实现针对整部法律及至法律法规中一个具体条款的历史沿革、关联法律、关联法条推荐等服务,以更加精细化、专业化的服务水平为中央国家机关提供立法决策的参考辅助和智力支持。另一方面,也为相关科研人员提供方便、灵活、高效的法律法规数据管理和维护等功能,提升工作效率和服务水平。因此,从整体上考虑,平台需要构建为一个集法律法规数据加工、数据管理、数据发布和利用服务于一体的综合性信息服务系统,以“知识本体”的理念深层挖掘与揭示法律法规内在逻辑关系,形成一个全面、立体的信息服务网络,从而帮助立法工作人员快速、全面、准确地获取所需法律信息。
2系统功能实现
“中华人民共和国法律法规信息服务系统”采用先进的系统构建方法、智能化及人性化的信息服务与检索方式。其设计目标是要建立一个安全、稳定、准确、及时、全面的法律法规信息服务系统,并且整个系统在总体设计上遵循开放、可扩展、安全的原则,从而使整个系统结构合理、技术先进、易于扩展,既能满足当前的业务要求,又符合长期发展的需要。在应用功能层,主要设计了项目所需的各个应用系统或功能模块,包括数据加工系统、信息发布系统、资源服务系统等,各系统的技术实现如下。1)信息采集与加工。系统的数据来源主要包括政府公告文件、现行法律法规文件、历史法律法规文件以及国外法律法规文件等。这些文件基本都是以纸质文件形式进行保存,因此必须首先对这些文件进行数字化加工。数字化加工主要包括纸本文件的扫描、OCR识别和生成PDF文件。此外,系统要求提供细化到具体条款级的内容服务。因此,在完成法律法规文件的数字化加工后,还需对数字化内容进行结构化加工,即根据法律法规的内容结构规范(元数据规范),通过软件工具对全文内容进行结构化分析、标引、抽取和保存。工具需要支持智能分析、智能标引和快速人工标引,支持可视化的加工内容编辑与审核,支持加工方案(包括标引字段、识别规则与输出方式)的自定义以及多种方式的加工数据输出。实现专业、准确的法律法规文件结构化加工的同时,尽可能的减少人工参与,提高加工效率,确保识别准确度。2)数据发布与管理。为确保系统的数据权威性,在每一条法律法规结构化数据对外提供服务前,都需要有严格的数据审核机制和科学规范的工作流管理。同时,为了更准确地提供法条内容关联服务,需要人工对关联内容进行审核与维护。这些工作都需要通过系统的发布管理端实现。系统发布管理端为工作人员提供法律法规结构化数据与原始数据的同屏比对、数据修改、关联内容选择与自定义等功能。数据审核通过后,才能进入正式库中进行发布。通过此系统,提高法律法规数据发布管理流程的工作效率,进一步保证数据的准确性与权威性。3)资源利用与服务。在对外服务方面,系统提供全文检索、分类导航、全文原版原貌展现、原文内容回溯、法条关联、法律法规知识词网等应用服务。其中,检索范围包括法律元数据信息以及法条内容;分类导航可以依据适用范围、类型、年代、地区(国家)、主题词等进行法律法规的分类浏览;全文原版原貌展现要求以原始文件的排版格式进行展现;对于检索到的一条法条,可以快速调用原始文件,并直接定位所在页面进行查看;针对整部法律法规以及法律法规中的每一项条款,都提供相关的内容推荐,包括立法背景、历史沿革、相关法律(条款)、相关案例等信息,使用户可以全方位了解该部法律或该项条款的相关知识;提供基于关键词的法律法规知识词网,实现相关关键词之间递进延伸的关联网络,为用户揭示相关法律、相关法条、相关案例、相关参考资料等信息。总之,在资源利用服务方面,需要为立法人员和科研用户提供从搜索、关联到词网的全方位、立体化法律法规知识网络。
3系统设计
法律法规信息服务系统从软件设计角度来说可以分为数据结构化加工、元数据仓储、全文检索定位、站点发布等子系统。从项目实施过程来看,还包括了法律法规文件的分类梳理以及数字化加工两方面内容。平台系统总体架构如图1所示。1)数据结构化加工。首先对法律法规文件进行分类梳理,对于梳理出来的法律法规纸质文件按照分类进行数据字化加工,并转换成双层PDF。对于PDF文件,通过数据结构化加工平台进行内容的结构化加工,根据确定的数据结构提取出对应的结构化字段文本内容。数据结构化加工平台支持加工方案的自定义,实现对PDF内容的自动分析、智能标引以及人工划框标引,加工结果可以保存为PCI文件以备审核校对。加工后的数据可以导出为XML文件或直接同步到数据库中。数据发布管理平台可以为国家图书馆工作人员提供法律法规结构化数据的审核、维护,支持原始文件(PDF)的同屏显示与人工比对,可以提高数据审核效率。同时,还可以为每条数据提供关联内容查看、选择、删除等功能,允许用户自定义添加关联内容,并默认优化显示。审核通过后的数据,才会保存到元数据仓储中待发布。2)元数据仓储。元数据仓储是本系统的核心组件,它提供了不同法律法规类型的元数据库,用以存储相应的结构化数据。同时,利用全文检索引擎,对于存储数据的文本内容进行索引,建立全文索引仓储。此外,所有数字化加工后的PDF文件都按分类保存在文件目录,通过元数据仓储可以调用全文查看,并定位法条所在页面进行原文回溯查看。3)全文检索定位。全文检索引擎可以实现对法律法规结构化数据的检索。分析引擎和规则引擎可以实现法律法规数据的分类导航与法条关联。WordNet组件可以实现基于关键词的词与词间关联查看以及与法律、法条、案例、参考资料等的内容关联。原版原貌组件可以实现法律法规全文原始样式的在线查看。元数据仓储管理平台实现对元数据仓储的数据维护和接口配置。PDF阅读工具可以嵌入到平台上,提供PDF文件的在线浏览与页面定位。4)站点发布。通过系统发布站点,向立法决策用户提供信息搜索、分类导航、原版原貌展现、原文回溯查看、法条关联、关联词网等应用服务,并可根据用户需求定制个性化页面,采用可视化编辑模块,方便用户制作符合个人阅读习惯的站点模块。
4对系统提升的几点建议
法律法规信息服务系统经过近两年来的建设与发展,已基本满足立法工作者对于法律信息查找与回溯的需求,但系统本身的可用性仍有较大的提升空间。笔者认为,可以从以下几点入手,提升系统服务能力。1)增加标引项目,加强揭示力度。全文检索及关联揭示是系统主推的特色功能,而标引项目则是对法律法规各个特征的揭示。标引项目的多少。直接决定着检索途径的多少。一般来讲,标引项目应包括法律法规的名称、类别、颁布部门、效力状况、生效日期、修改日期、失效日期、效力范围等。2)提升语义检索与法条关联的准确度。基于语义检索实现的各种功能是本系统最核心的部分之一,但从目前的服务情况来看,尽管针对该方面投入了大量的人力、物力,却并未收到应有的建设成果。究其原因,主要是其与法条关联的准确度有待提高。若想实现系统基于知识本体的深层挖掘,则需在此方面加大调优力度。3)扩展异构资源整合功能。法条数据的完整性及时效性直接决定着立法工作的顺利与否,同样也是本系统功能实现的关键点。而法条的发布与展示因其颁布者选用方式的不同导致了数据收集渠道和方式的差异,这就要求系统能对各类异构资源进行整合。同时,面对不断变化的实际情况,还需不断制定新的法律法规。在这样一种情况下,需要切实加强系统的数据更新与维护工作,对新出台的法律法规要及时予以收录,对那些或修改或废止的法律法规要及时予以标引。4)多渠道分发。法律法规整合服务的展现方式是可以多种多样的,网站只是其中之一,还可以通过触摸屏、手机、电视等不同的方式向用户提供服务。从业界已经实现的网站和移动服务反馈情况来看,都受到了很好的社会效益。因此,系统后续还应考虑通过多媒体等方式为用户提供服务,让用户可以随时随地地获取到所需信息。法律法规信息服务系统的建设是一项浩大而复杂的工作,也是法制信息化和电子政务建设的重要成果,系统的建设和应用不仅对于搞好法学研究和法律实务工作大有裨益,而且对于保障科学、公正、民主立法,推进依法治国这一治国方略也具有重要意义。随着系统在立法机关的深入应用,系统将在数据质量、检索功能、人机交互性、智能分析处理等方面得到进一步改进企业管理论文和完善,论文发表网以更好地服务于我国立法工作。
作者:谢德智 陈淼欲 单位:国家图书馆立法决策服务部