以下为《《计算机信息检索》复习资料》的无排版文字预览,完整格式请下载
下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。
《计算机信息检索》复习资料
知识要点:
第1章互联网信息资源
1.1互联网上的信息资源
1.网络上的信息内容。
答:(1)政府信息;
(2)科研信息;
(3)教育信息。互联网已经发展成为一种重要的教育手段、学习环境。
(4)媒体信息。网络媒体受众广泛、关注度高、交互性强、价格低廉。
(5)商务信息;
(6)休闲娱乐信息。
1.2互联网信息资源的特点及局限性
答:分散;无序;多变;信息质量难以控制;信息安全难以保障。
1.2.1互联网信息资源的特点
1.2.2互联网信息资源的局限性
1.3互联网上信息资源的种类
1、Web信息资源
答:Web是world wid web(www,3W)的缩写,中文译为:“全球信息网”“万维网”。
它把各种类型的信息(如文本、声音、动画、录像)和服务无缝链接,提供了丰富多彩的图形界面,直观方便。
1)超文本传输协议 HTTP
2)超文本标记语言 HTML
3)通用资源定位程序 URL
4)主页 Home Page :主页是浏览器访问某个Web服务器上的信息时第一个链接到的文档。
5)链接 Link
6)浏览器
2、Telnet资源的功能
答:功能是通过在远程计算机上登录,使用户正在使用的计算机暂时成为它所登录的某一远程主机的仿真远程终端,进而实时访问、共享、使用到远程计算机系统中对用户开放的相应资源。
3、Telnet曾经是一个强有力的互联网资源共享工具,通过Telnet方式提供的信息资源主要有:政府部门、研究机构对开放的数据库,某些商业性联机检索系统,一些大学和研究机构开放的电子布告栏系统BBS,还有许多大中型图书馆的在线公共检索目录。
4、通过FTP获取文件的一般步骤包括以下几点。
答:
(1)登录
(2)浏览目标,找到所需文件。
(3)设置文件传输参数,选择文件的传输模式。如:ASCII模式-——用于传输文本文件;二进制模式———用于传输非文本文件。
(4)下载所需文件。
5、用户组信息资源 选择
答:网上各种各样的用户新闻组、邮件群曾经是互联网上很流行的信息交流形式,包括:新闻组、电子邮件群、专题讨论组、兴趣组、论坛。
6、尽管由于近年来随着互联网的发展、宽带的普及,出现了更多快速、便捷的实时交流方式,如RSS、Blog、Twitter等,是用户组的风头逐渐削弱。
1.4互联网信息资源的评价
1、评价的标准
答:目的、范围、内容、费用、评论
2、网络信息资源质量的评价方法。
答:定性评价;定量评价。
3、网络信息资源的一般评价方法
答:
(1)从URL中得到信息。
(2)查看网站描述和版权说明。
(3)从链接中获得信息。
(4)参考他人的评价。
第2章互联网信息检索概论
1、互联网信息检索的类型
答:“顺链而行”的浏览;基于目录型检索工具的互联网信息检索;基于索引型检索工具的互联网信息检索。
2、信息组织:就是把数据按照一定的结构、顺序、排列方式组织起来,或者说是按照信息查询的需要,对数据根据其特征进行组织;信息组织的目的是服务于信息查询。
3、信息查询:就是通过搜索、定位以及取得数据的过程,也就是说从大量数据集合中获取用户需要的相关信息,信息查询的效果和成败极大地依赖于信息组织的水平。
4、索引:为了快速响应检索,在组织信息时就必须建立索引。索引是一种将关键词词目映射到相应文档的数据结构。P24
5、自动分类方法又可分为(归类)和(聚类)两种。 P26
6、自动归类:是分析网页的内容特征,并与实现拟定的各种类别中的特征描述进行比较,然后将对象归入为特征最接近的一类,并赋予相应的分类号。 P26
7、自动聚类:则是从待分类网页中提取出特征,然后将提出的特征进行比较,再根据一定的原则或需要,将具有相同或相近特征的对象定义为一类,这个类目未必是事先拟定好的。 P26
8、元数据:描述数据的数据。编制目录的目的在于描述数据的内容或特色,进而达成辅助信息检索的目的。而元数据就是用来揭示各类型电子文档的内容和其他特征的有力工具,其典型的作业环境是(互联网)。 P28
9、布尔检索模型:是最简单的模型,也是其他检索模型的基础。 P30
10、向量空间检索模型的基本思想是:文档和检索提问都可以用向量表示,利用线性代数理论,检索过程就是计算文档向量与检索提问向量之间的相似度,可以根据相似度值的不同,对检索结果进行排序;还可以根据检索结果,做进一步的相关检索。 P32
11、概率模型有严格的数学理论基础,采用了相关反馈原理克服不确定性推理的缺点,他的缺点是参数估计的难度比较大,文件和检索的表达也比较困难。 P36
12、查某某:对于一项检索,实际检出的文件数目与所有应该被检出的文件数目的比率。 P38
13、检准率:对于一项检索,实际检出的文件之中有多少比率是真正应该被检出的文件。较高的检准率可以节省用户从检出的所有文档中过滤掉无关信息的时间。 P38
第3章互联网检索工具(一)——搜索引擎
1、搜索引擎:是一种能够通过互联网接受用户的查询指令,帮助用户迅速地从网上查找所需要的信息,并向用户提供符合其查询要求的搜索结果列表及相关信息的检索系统。 P40
2、Archie :是第一个互联网信息检索工具。 P40
3、从搜索技术层面上分析,搜索引擎的发展大致经历了一下3个阶段。
(1)第一代搜索引擎是以文档分类导航为特征,是基于文档内容的搜索引擎,以Yahoo为代表。
(2)第二代搜索引擎产生于20世纪90年代中期,以关键词匹配为特征,并基于超链接分析技术,从而实现网页的自动抓取、排序等。
(3)第三代搜索引擎目前尚未形成统一的界定标准,开发也处于探索阶段。 P42
4、搜索引擎的一般工作流程是:首先对互联网上的网页进行搜集,其次对搜集来的网页进行预处理,建立网页索引库,实时响应用户的查询请求,并对查找到的结果按某种规则进行排序后返回给用户。
5、搜索引擎的重要功能是对互联网上的文本信息提供全文检索。以下分步骤叙述搜索引擎的工作原理。
(1)抓取——从互联网上抓取网页:搜索引擎的信息搜集基本上是自动的。
(2)索引——建立索引数据库:此过程即为搜索引擎对搜集到的网页信息进行系统整理的过程。
(3)搜索、排序——在索引数据库中搜索排序:用于输入关键词进行检索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。
(4)显示——对搜索结果进行处理排序:搜索引擎定期对网页进行重新访问,更新数据库信息,同时根据网页文字和链接关系的改变重新进行排序。 P43-44
6、搜索引擎的关键技术有哪些? P44-46
(1)信息搜集和存储技术
(2)信息预处理技术
(3)信息索引技术
7、搜索引擎技术的发展趋势 P46-47
(1)自然语言检索技术
(2)目录导航检索与关键词检索相结合
(3)智能化和个性话检索技术
(4)多媒体检索技术
(5)3G移动搜索
(6)交叉语言检索技术
8、按检索机制划分
(1)目录型 Yahoo
(2)索引型 Google
(3)混合型
9、按检索领域划分P48
(1)综合型网络检索工具
(2)专业型网络检索工具
(3)特殊型网络检索工具
10、按集成检索工具数量划分P48
(1)独立型网络检索工具
(2)集合型网络检索工具
11、搜索引擎的主要类型P49
(1)通用搜索引擎
(2)垂直搜索引擎
(3)元搜索引擎
12、Bing(http://doc.001pp.com/) 创建者。Bing是***于2009年5月发布的一款用以取代Live Search 搜索引擎。
13、Ask Jeeves 因采用“自然语言搜索”而一举成名。
14、Lycos(http://doc.001pp.com)创建者。Lycos是第一个在搜索结果中使用了网页自动摘要,曾远胜过其他搜索引擎的数据量著称。
15、搜狗(http://doc.001pp.com/)通用搜索引擎。
16、垂直搜索:是针对某一特定领域、某一特定人群或某一特定需求提供的信息搜索和有一定价值的相关信息服务,其特点就是:专、精、深。
17、“主题爬虫”技术:与通用搜索引擎不同,是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的网页URL,并重复上述过程,直到达系统的某一条件时才停止。
18、垂直搜索引擎的特征。
(1)信息采集
(2)信息加工,也即是说通用搜索引擎进行检索的最小单位为网页,而垂直搜索引擎的最小单位是结构化的数据。
(3)信息检索
19、酷讯:是国内第一个全旅游搜索引擎。
20、优酷网(doc.001pp.com):是垂直搜索引擎。
21、元搜索引擎:又称集合式搜索引擎、并行搜索引擎之搜索引擎。他是将多个搜索引擎集成在一起,并提供一个统一的检索界面。
22、元搜索引擎的优点
(1)信息覆盖面大,检索效率高。
(2)检索工具扩展性能强。
(3)服务多样化
(4)无需考虑网页索引数据库的建立和维护。
23、元搜索引擎的缺点
(1)检索结果全面性和可靠性差
(2)不能灵活控制结果的输出。
(3)检索结果排序不够理想。
(4)信息搜索覆盖面存在局限性。
(5)检索式处理较复杂。
第4章互联网检索工具(二)——目录型网络检索工具
1、互联网黄页是目录型。
2、目录型网络检索工具的分类法
(1)主题分类法
(2)学科分类法
(3)图书分类法
(4)分面组配法
3、目录型网络检索工具的类型
(1)网络资源目录
(2)学科信息门户
(3)搜索工具门户
4、目录型网络检索工具的使用方法
(1)采用广度优先查询法
(2)注意了解各个检索工具的收录特点,选择适当的工具。
(3)掌握各目录型检索工具的分类体系。
(4)关注热门主题和常用目录。
(5)关注开放目录型检索工具。
5、学科信息门户:是经过人工处理、专家排选、定期检查处理的学科信息导航系统,其主要功能是:提供学科信息浏览检索和对有效资源的链接。
6、BUBL LINK 是一个覆盖了所有学术领域的互联网资源目录。
第5章多媒体信息检索
1、可以用来帮助图像分析、标引的Web文档内容包括以下几方面:
(1)图像文件名及网址。
(2)图像的替代文字。
(3)图像周围的文字。
(4)图像所在页面的标题。
(5)图像的超链接。
(6)图像所在网页彼此间的链接。
2、可以用来处理图像的主要特征包括以下几点:颜色;纹理;形状
3、谷歌图像。
(1)概况,世界上最好用的图像搜索工具。
(2)检索功能:一般检索和高级检索两种模式。
(3)结果显示,检索结果以缩略图的方式显示。
(4)评价。无愧无“最佳图像搜索引擎”的称号,它提供给用户最精准的搜索。
4、Flickr,被认为是分众分类法的典范,也是第一个使用标签云的网站。
5、百度图片,号称是世界上最大的中文图片搜索引擎。
6、基于内容的图像搜索引擎。查询模式有以下3种:
(1)按例查询。
(2)按绘查询。
(3)按描述查询。
7、QBIC:基于内容图像检索系统。
8、Allmusic,基于文本的音频搜索引擎。
9、OPERABASE是一个专门用来查找歌剧信息的网站。
10、目前视频检索的方法主要有以下三种。
(1)基于关键帧的检索
(2)基于运动的检索。
(3)基于故事单元的浏览检索。
第6章学术信息的网上检索与获取
1、世界各地图书馆在开发、建设数据图书馆系统的进程中,已将传统的图书馆目录发展“联机图书馆公共可检索目录”即一个基于网络的开放式书目检索系统。
2、互联网worldcat是OCLC系统提供的一个在线联合目录数据库,是世界上最庞大、最完整、收录图书馆最多的联合目录。
3、方正Apabi数字图书馆是北京大学***开发的数字图书系统。
4、古腾堡计划,是互联网上最早的免费电子图书生产者,现在它几乎平均每一天都生产一步电子书。
5、IEEE/IEE。简称IEL,是一套由IEEE和IEE出版的全文数据库,是当今世界信息量最大的电子、工程类信息源之一。
6、High wire是全球最大的提供免费全文学术文献的出版商。
7、中国学术会议在线,进行会议检索。
8、学位论文:指高等院校或学术研究机构的学术为获得某种学位而撰写的科学论文,包括学士论文、硕士论文、博士论文等。
9、标准:指按规定程序制订,经公认权威机构或主管机关批准的一整套在特定领域内必须执行的规格、规则、技术要求等规范性文献。
10、中国标准服务网,提供对标准信息的免费查询。
11、国际组织:亦称国际团体或国际机构,是具有国际性行为特征的组织,是3个或3个以上国家(或其他国际法主体)为实现共同的政治经济目的,一句其地接的条约或其他正式法律文件建立的有一定规章制度的常设性机构。
第7章参考信息的网上检索
1、参考信息:即指人名、地名、机构、时间、统计数据等一类数据、事实信息,是人们在工作研究和日常生活中经常要查考、引用的信息。
2、百科全书对旅游地点的历史、人文等信息提供全方位查询。
3、维基百科:是一个语言、内容开放的网络百科全书计划。
4、传记资料:记录历史人物或当代著名人物的生平资料等相关信息,这些信息一般包括生卒年、学历、职务、经历、家庭、政治背景、学术观点、团体、著述、评价、通信方式等。
5、网上白某某:是专用于查找个人信息的特殊工具,这些个人信息包括电话号码、e-mail地址、邮政编码、通讯住址。
6、IAF:为用户提供极为优质的黄白某某检索服务,是目前世界上最好的黄白某某信息查询工具之一。
7、地理信息查询:与人民的生活密切相关,用户可以根据自身的查询需求选择适当的地址信息参考源。
8、地名工具书是地理信息的核心,可以用来查找古今中外的地名及所代表的地理、历史、人文等简况。
9、Sky Auction 是一个非常流行的拍卖网站。
10、年鉴:是指“每年出版的统计数据和事实的汇编,兼有现期性和回溯性内容。其包含的地区和学科领域一般比较广泛,也可能限于某一特定国家或特定的领域”。
11、Infoplease 是一个集百科全书、字典、地图集合年鉴与一体的网站。
12、机构名录又称名录、指南、便览、行名录,是用来查找机构团体相关信息的一类检索工具。不同于黄页。
13、词典:是根据一定的编撰目的汇集词语(或词语的某些成分),并加以描述、说明,通常按字顺排列,共人们查找词语信息的工具书。
第8章互联网信息检索策略、技巧与提高
1、关键词的选取步骤:
(1)抽取基础关键词,排除常用词。
(2)考虑基础关键词的同义词。
(3)考虑上位词和下位词。
(4)考虑相关词。
(5)总结审视。
2、引号操作符:对应英文关键词即为词组检索方式,词组检索强制检索结果必须与词组的形式完全一致(顺序和间隔都不变),不允许拆分关键词,这样对检索结果限制得更严,检准率也更高。
3、截词检索:分为前截词检索,后截词检索,中间截词检索,前后截词检索。同时,各截断部分还可以分为精确截断(即被截字符串的字符数目是确定的,通常用通配符“?”表示,“?”的个数即是被截字符串的字符数)和模糊截断(即被截字符串的字符数目是不确定的,通常用通配符“*”表示,被截字符串的字符数可以为零,亦可以是具有检索意义的任何字符个数)。
4、选择检索工具:搜索引擎、元搜索引擎、网络资源目
5、背记
第9章网络信息检索的未来发展趋势
1、搜索引擎的“瓶颈”:
(1)搜索引擎的索引能力,搜索引擎的索引量或覆盖率对搜索结果的相关性、时效性和查某某等都具有深远的影响;搜索引擎并不一定能提供比索引量小的搜索引擎更好的搜索结果;搜索引擎抓取和索引大量级网页需要时间,因此本身就存在一定的滞后性。
(2)迎战“深网”。深网也称暗网,主要指哪些通过搜索引擎难以发现、索引、检索到信息内容的网页。
(3)搜索结果的排序与输出。
① 链接分析法,即基于超链分析的排序算法,其出发点是人文,一个网页被链接的次数越多说明此网页的质量越高,并且从更重要、更权威的页面发出的链接有更大的权重。
② 词频统计法,即以索引项的词频和位置作为相关度的判定标准,采用词频加权方法来计算相关度。
2、网络信息检索中的法律风险。
(1)版权风险
(2)侵犯隐私的风险
(3)搜索引擎营销的法律风险
(4)避风港原则
3、网络信息检索技术
(1)智能检索
(2)语义检索
(3)垂直搜索
(4)基于内容的多媒体信息检索
(5)跨语言检索
(6)信息检索可视化
4、网络信息检索服务
(1)个性化
(2)多样化
(3)社会化
★行车/步行路线实时查询:地点定位搜索,的最佳参考信息搜索工具是网上地图,给出到达该出的驾驶、行走和交通路线。
计算机信息检索 复习题
(课程代码02139)
一、单选题
1.下列属于通用型搜索引擎的是(A)
A. Google B.Sogo
C. Yahoo! D.Someta
2.下列选项,属于Web信息资源的是(D)
A.用户组信息资源B. Ftp
C. HTML D. Telnet
3.中国期刊网的中国专利数据库的网址是(D)
A. doc.001pp.com.cn/zljs B. doc.001pp.com.cn
C. doc.001pp.com D. www.cnki/index.htm
4.下列不可用基于内容的搜索原理进行搜索的文件格式是(C)
A. *.Mpeg B. *.Bmp
C. *.Pdf D. *.Mp3
5.国外专利信息的网上检索可以访问的网址有(D)
A. 1S0 Online B. CSSN
C. ANSI D. Espacenet
6下列属于常用桌面式元搜索引擎的是(D)
A. doc.001pp.com B. doc.001pp.com
C. doc.001pp.com D. doc.001pp.com
7.以下属于基于内容图像搜索引擎的是(B)
A. images.Google.com B. image.Yahoo.cn
C. doc.001pp.com D. image.Baidu.com
8.决定是否能够对不同的数据库、文档和可检字段进行选择的检索功能是(D)
A.检索效率B.检索方式
C.检索技术D.检索限定
9.信息需求的描述中可以用5WIH来梳理,其中的最后需要考虑的“W”是(B)
A. WHAT B. WHY
C. WHEN D. WHERE
10.用于截词检索的布尔逻辑操作符是(D)
A. OR B. AFTER
C. AND 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 说明其工作原理的四个步骤,以及其工作需要的四种主要信息预处理技术。
答:搜索引擎诗集检索的对象并不是真正的互联网,而是预先经过加工整理的网页索引数据库;其对网页的检索并不是基于语义,而是一种机械性的匹配网页文字。
搜索引擎的工作的主要步骤如下:抓取:从互联网上抓取网页;
1)索引:建立索引数据库;
2)搜索、排序:在索引数据库中搜素排序;
3)显示:对搜素结构进行处理排序。
搜素引擎对信息的预加工和预处理技术主要有
1)关键词提取技术
2)垃圾信息消除技术
3)链接分析技术
网页重要性计算技术
30.在使用搜索引擎时,关键词的有效选取非常重要;请说明关键词选取常川的5步骤,以及常见的可配套使用的布尔逻辑操作符。
答:关键词选取的常用步骤如下:
1)抽取基础关键词,排除常用词;
2)考虑基础关键词的同义词;
3)考虑上位词和下位词;
4)考虑相关词;
5)总结审视。
常见的配套关键词使用的布尔逻辑操作符如下:
1)AND操作符;2)OR操作符;3)“”(引号操作符);4)NEAR操作符;5)BEFORE和AFTER操作符;6)AND NOR操作符;7)通配符(*和?);8)括号操作符。
[文章尾部最后500字内容到此结束,中间部分内容请查看底下的图片预览]
以上为《《计算机信息检索》复习资料》的无排版文字预览,完整格式请下载
下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。