智能索引系统的功能与优化研究
——基于《中国索引》数据库索引相关论文文本的分析
王弘毅
(国际关系学院信息科技学院 北京 100091)
摘 要 智能索引是当前计算机信息技术在索引信息组织与检索领域的一个重要应用,智能索引系统借助数据挖掘、知识图谱、人工智能等技术,对当前大数据的存储、组织、索引和检索进行有效管理。本文基于《中国索引》数据库索引研究成果进行智能索引系统功能研究,以“索引与数据库”主题文献作为文本分析对象,从文献数量年度分布和热点归类维度等进行具体研究,表明该领域成果主要集中于理论方法研究方面,而对于技术应用方面的研究相对较少、亟待加强。智能索引系统的优化迫在眉睫,通过对索引功能进行归纳分析,研究智能化电子文档“页码”标注和分级标引等,达到优化设计更先进的智能索引系统的目的。
关键词 索引 数据库 计算机信息系统 信息分析
智能索引编制,①就是结合文档预处理、知识图谱构建、索引词表转换和索引检索等技术的智能索引技术的实现过程。本文基于数据库索引研究成果分析开展智能索引系统的深入研究,首先是以《中国索引》“索引与数据库”主题文献作为文本分析对象,从文献数量年度分布和热点归类维度等进行具体研究,阐述分析方法,索引技术应用方面的研究成果还相对较少;其次是索引是个既稳定又开放的信息结构,对专家学者提出的索引功能进行归纳分析,指出当前智能索引系统实现优化的设计思考;三是研究智能化电子文档“页码”标注和分级标引等,达到优化设计更先进的智能索引系统的目的,并展望大数据网络时代智能索引系统的发展。
一、《中国索引》“索引与数据库”主题文献的成果
在大数据时代,知识大量存在于非结构化的文本数据、半结构化的网页数据以及各行业的结构化数据中。研究索引知识图谱的构建过程,①同样包括数据库索引的知识抽取、知识融合和知识计算三个步骤,知识抽取主要解决如何从各种异构数据源中获取知识,知识融合主要解决将不同数据源获取的知识进行整合并构建关联关系,知识计算则主要是根据知识图谱获得更多隐含知识同时排除噪声干扰。多元统计分析是经典统计学的一个分支,它能在多个对象相互关联的情况下分析它们之间的统计规律,②包括聚类分析等多种分析方法。聚类分析的基本思想是利用变量间不同程度的相似性,把具有相似属性和特征的对象归为一类,使得类中的对象彼此相似,不同类对象彼此相异,类的大小、类间距离都揭示了不同的信息。
跟踪搜索中国索引学会会刊《中国索引》电子版目录数据,③仅“索引与数据库”方面的研究成果就有很多。利用上述计量方法和CiteSpace绘制共词网络进行分析,可得到“引文索引”、“引文分析”、“知识图谱”、“文献计量”、“社会网络分析”等研究热点词。设计的分类是“索引与数据库介绍”、“索引与数据库理论”、“索引与数据库方法”、“索引与数据库技术”、“索引与数据库应用”5个方面,抽取2011至2016年的相关文献数据,如表1所示。
表1 2011至2016年《中国索引》“索引与数据库”文献分析
续表
二、主题文献数量年度分布和热点归类分析
索引是通过一定的系统组织方法,研究对某一文献集合进行著录标引并指明出处,为研究者提供文献数据信息的一种检索工具,它能够反映某一领域的新观点和新趋势。为了解广大学者在索引方法与技术领域的研究进展情况,利用计量学方法和图谱技术进行分析。以下对文献数量的年度分布和热点归类开展分析研究。
1.文献数量年度分布
从图1文献量数据分析,发现2011年有3篇,2012年有6篇,2013年有9篇, 2014年有5篇,2015年有3篇,2016年有6篇。可得出结论:“索引与数据库”的成果虽然不是很多,但均为研究类的具体成果;“索引与数据库”的成果近6年增长波动比较平稳,但增长趋势是明确的。
图1 《中国索引》“索引与数据库”文献数量年度分布统计分析
2.热点归类分析
通过对该主题的热点归类分析,能够较为准确地反映一个时期领域的研究热点。从图2文献量看,2011年有3篇应用类论文,2012年有4篇理论方法的研究论文,2013年加强了方法和技术的研究,2014年有4篇方法应用的研究论文,2015年又有2篇理论类论文,而2016年增长比较平稳,有6篇涉及理论方法和技术应用各个方面。统计表明,“索引与数据库”研究主要集中于知识介绍和理论方法研究方面,而对于技术应用方面的研究相对较少、亟待加强。
图2 《中国索引》“索引与数据库”文献热点归类图谱分析
三、通用智能索引系统的功能设计及优化思考
索引是个既稳定又开放的信息结构,文献①概述了以下的11项功能:
(1)分解功能。将资料单元,如篇名、机构、短语、概念、物名、地名、书名、人名、字词、符号等逐个分解,这就是索引的分解功能。它是索引编纂的基础,没有对文献内容的这种分解功能就没有索引。分解功能是索引作用于文献的特殊功能,是它和其他检索工作不同之处。
(2)梳理功能。不同性质资料单元在文献中基本呈无序状态,把这些无序状态的资料单元按外表特征或内容性质进行各归其类的整理,这就是索引的梳理功能。梳理功能是索引分解的后继。如果只有分解功能而没有梳理的功能,那么分解功能就没有价值。梳理是对资料单元的初分,字序按笔划或音序归类,类序则按大类归纳。
(3)组合功能。把梳理后的资料单元按照分类的要求,严密地组织它们的类别层次以及类目下的专题和同类目下款目的序列关系;或按字序的要求,严密地把标目的结构正装或倒装、考虑限定词对标目的限定和修饰的级数、或考虑字序和类序相结合的可能。此外,不论是类序或字序都要考虑参照系统的建立方案,使相关款目形成网络,使用户检索的眼界得以拓宽。这些都是索引的组合功能,它使文献资料单元成为一串串可以被贯穿起来的资料单元。
(4)结网功能。对某个领域的文献进行有计划的索引编纂,利用类型的结构从各种不同的角度和层次对这些文献的内容进行纵横交错和多维的揭示和组合,使之形成一个检索这些文献中的各种不同性质的资料单元的网络,这就是索引的结网功能。
(5)揭示功能。分解功能只是客观地对文献进行解剖,而揭示功能有较强的目的性,它最常出现的是按专业的需要挑选某些资料单元。在主题索引的编制中,主题概念的分析和主题词的选用,包括对隐性主题的析出是这种功能的体现。各种专题索引或各种专业的文摘索引也是索引揭示功能的运用。
(6)鉴别功能。如通过逐字索引分解被鉴别的文献,即同时从两种版本中分析作者用字(词)的规律和频率以甄别其真伪;又如通过对文献中用词的解剖可以发现作者的特有气质和语言习惯,索引可利用这种潜在的规律辨析文献的真伪。
(7)追踪功能。一部旧时代报纸的索引,能追踪那个时代的重大历史事件,并清晰地再现这些重大的历史事件脉络;一部类书的索引,能追踪许多名人的各方面的成就和言行;一种专业期刊的刊后索引,能追踪当年该专业学科研究的动态;一部跨多年度的报刊回溯索引,就是一部多功能的追踪记录。
(8)导航功能。导航就是指引,它带有较强的评价取向,索引具有这种功能。在哲学社会科学的领域中,索引经常能提供在某个时期某个专业的理论动向和水平的第一手材料,许多科研工作者就依靠索引的导航,找到自己出发和要达到的地方。
(9)执简功能。国外快速反映科研情报的KWIC、KWOC,就是发挥索引执简功能的工具,把众多科研期刊中的关键词以最简要的格式显现,使用户避免花去很多的科研时间在众多的资料堆中求索。
(10)检索功能。检索功能是索引最基本的功能。任何文献记录或工作记录一旦和索引方法挂上钩,它就会从山穷水尽疑无路的困境中解脱出来,很快得到检索方便的好处,机关或企业中人事档案和工资单的人员的索引就是如此。
(11)预测功能。如从引文索引中统计到被引作者的论文频率,便基本上能预测到这个专业的学术带头人的出现;从题录索引中统计的课题内容,便可预测到学术界未来研究的动向;从统计索引中出现的各种产品名称的频率,便能预测到市场将出现的热门商品。这些都是索引的预测功能。
大数据时代,智能索引系统既需要有广泛的适应性,又能尽量满足上述所有的功能。目前,国内在试用的有图书索引系统“索引之星”、学位论文索引系统“索引家”等。以“索引家”系统为例,其索引编制流程为:打开学位论文→选词→取词→导出索引→整理,①其中的关键设计就是当手工复制粘贴索引标目的时候,软件会自动在标目后面添加上标目词所在的页码。但该系统设计没有考虑一些新的要素或情况,如电子文档或网络资源的“页码”如何确定和自动标注,又如GB T22466-2008《索引编制规则(总则)》确立的分级标引如何自动关联和标引,等等。
笔者对上述的索引编制流程作了相应的优化,新的索引编制流程为:
(1)导入待编索引文档→自动设别文档类型→确定“页码”方式;
(2)从索引文档中人工选词→半自动取词→按(1)的“页码”方式自动获取相关信息→添加于该索引数据库;
(3)依据(2)的取词自动关联索引知识库→编制二级、三级等索引,循环(2)步骤;
(4)挖掘更多“页码”信息,后台自动补填到索引数据库;
(5)继续(2)—(4)“取词”,直至文档结束;
(6)导出索引→多途径整理,可视化检索。
新的智能索引系统,应提供上述的所有索引功能,如图3所示。
图3 提供典型索引功能的智能索引系统设计框架
四、小结与展望
智能索引是当前计算机信息技术在索引信息组织与检索领域的一个重要应用,它借助数据挖掘、知识图谱、人工智能的技术优势和索引的思维优势,能更有效地解决当前大数据管理中的存储、组织、索引和检索问题。本文研究以“索引与数据库”主题文献作为研究成果,从文献数量年度分布和热点归类维度等进行具体研究,阐述分析方法,表明成果主要集中于理论方法研究方面,而对于技术应用方面的研究相对较少、亟待加强。智能索引系统的改造完善迫在眉睫,索引是一个既稳定又开放的信息结构,应该通过对索引功能进行归纳分析,研究智能化电子文档“页码”标注和分级标引等,以达到优化设计更先进的智能索引系统的目的。
王弘毅 男,1998年生,国际关系学院信息科技学院本科生,兴趣方向:智能信息处理,数据分析,信息安全。
Intelligent Indexing System Functions and Its Optimization Based on Analysis of the Articles Related to Database Index published on Journal ofChina Society ofIndexers
Wang Hongyi
Abstract: Intelligent index is an important application of computer information technology in the field of information organization and retrieval.Intelligent index system effectively manages the storage, organization, index and retrieval of big data by means of data mining, knowledge graph, artificial intelligence and other technologies.This paper explored the functions of intelligent indexing system based on the database indexing research achievements which published on the Journal ofCSI.Taking the subject literature of“indexing and database”from the Journal ofCSI, this paper makes a concrete study from the annual distribution of the number of documents and the dimension of hot spot classification.It shows that current study mainly concentrated on the research of theoretical methods.The study of indexing technology is less and needs to be strengthened urgently.The optimization of intelligent index system is imminent. This paper focused on the“page number”labeling and hierarchical indexing of electronic documents, so as to optimize the design of intelligent index system.
Keywords: Index; Database; Computer Information System; Information Analysis