信息过滤

更新时间:2022-08-25 12:01

信息过滤有很多定义,Belkin和Croft的文章给出了这样的定义:信息过滤是用以描述一系列将信息传递给需要它的用户处理过程的总称。

概念

不同定义

信息过滤是用以描述一系列将信息传递给需要它的用户处理过程的总称。

相当于传统的数据库来说,信息过滤系统是一个针对非结构化或半结构化的信息系统。

信息过滤系统主要处理的是文本信息。

信息过滤系统常常要处理巨大的数据量。

信息过滤系统的目的是从大量动态产生的信息中选择,并展现给那些满足他(或她)信息需求的用户。信息过滤是根据给定的对信息的需要,只在输入数据流中保留特定数据的行为。

信息过滤是指从动态的信息流中将满足用户兴趣的信息挑选出来,用户的兴趣一般在较长一段时间内不会改变(静态)。信息过滤通常是在输入数据流中移除数据,而不是在输入流中找到数据。

可以说,信息过滤的定义大致相似。简单地讲,信息过滤可以认为是满足用户信息需求的信息选择过程。在内容安全领域,信息过滤是提供信息的有效流动,消除或者减少信息过量、信息混乱、信息滥用造成的危害。但在研究阶段看,仍然处于较为初级的人研究阶段,为用户剔除不合适的信息是当前内容安全领域信息过滤的主要任务之一。

研究的历史

1958年,美国的卢恩提出了“商业智能机器”的设想。在这个概念框架中,图书馆工作人员根据每个用户的不同需求,建立相应的查询模型,然后通过精确匹配的文本选择方法,为每个用户产生一个符合其查询需求的新文本清单。同时,记录用户所订阅的文本以用来更新用户的查询模型。他的工作涉及了信息过滤系统的每一个方面,为信息过滤的发展奠定了有力额基础。

1969年,选择性信息分发系统(SDI)引起了人们的广泛兴趣。当时的系统大多遵循Luhn模型,只有很少的系统能够自动更新用户查询模型,其他大多数仍然依靠职业的技术人员或者由用户自己来维护,SDI兴起的两个主要原因是实时电子文本的可用性和用户查询模型与文本匹配计算的可实现性。

1982年,Denning提出了“信息过滤”的概念。他描述了一个信息过滤的需求例子,对于实时的电子邮件,利用过滤机制识别出紧急的邮件和一般的例行邮件。之后,1986年,Mlone等人发表了较有影响的论文,并且研制了“information Lens”系统,提出了3种信息选择模型,即认知、经济和社会,所谓认知模式,即基于信息本身的过滤。

分类体系

信息过滤按照操作方法和获取用户知识的不同进行分类。

按操作方法分类

(1)主动信息过滤系统:这些系统动态地为用户查找相关的信息。这些查找可以在一个很狭窄的领域内进行,如新闻组;也可以在很宽的领域内进行,如WWW。系统通过用户的特征描述,在一定的空间中查找、搜集并发送相关的信息给用户。一些系统还采用了“推”技术,把相关信息“推”给用户。

(2)被动信息过滤系统:这种系统从输入信息流和数据中忽略不相关的信息。被动过滤系统通常应用到电子邮件过滤或者新闻组中,因为在这种系统中不需要收集数据。一些系统过滤出不相关的内容,而另外一些系统提供给用户所有信息,但是按照相关性给出一个排序。

获得知识的方法

不同的信息过滤系统使用不同的方法获取用户的知识。这些知识形成了用户模型,通常以用户特征描述或者规则的形式存在。获取用户知识的方法包括显式的方法和隐含的方法。

基于内容的方法不考虑特殊用户群体的特点,针对内容进行区别对待,可用的方法有基于匹配的方法、基于分类的方法等。

(1)显式的方法:显式的方法包括用户的审核和填充表单。这是最通用的显式方法,通常要求用户填充一个描述用户兴趣和其他相关参数的一个表单,系统利用这种方法,得到用户的偏好。

(2)隐含的方法:隐含的方法不需要用户的参与知识询问,对用户来讲,这是一种更容易接受的方法。这种方法往往通过记录用户的行为。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}