1. 什么是IR? IR与数据库的区别?
答:数据库是检索结构化的数据,例如关系数据库;而信息检索是检索非结构化/半结构化的数据,例如:一系列的文本。信息检索是属于NLP(自然语言处理)里面最实用的一个场景,应用之一。
2. 什么是term-document incidence matrix?
答:文档中,出现了某个词记做1,未出现记做0的矩阵。 e.g, 单词集合 W={w1, w2, w3, w4},文章集合 D={d1, d2, d3, d4, d5}。 term-document incidence matrix 如下所示:
d1 | d2 | d3 | d4 | d5 | |
w1 | 0 | 1 | 1 | 1 | 1 |
w2 | 1 | 1 | 0 | 1 | 1 |
w3 | 1 | 0 | 1 | 1 | 1 |
w4 | 0 | 0 | 0 | 0 | 1 |
查询语句:w1 ∩ w2 ∩ w3 ∩ w4 (意思是:查找一篇文档,要求文档中出现了单词w1, w2, w3, w4)
答: 做字节与运算:
01111
+ 11011
+ 101111
+ 00001
--------
00001
结果表示, 只有文档d5符合条件。 也就是只有d5中同时出现了w1~w4这四个单词。
来源:youtube的一个information retrieval course,链接如下:https://www.youtube.com/watch?v=Hy78R3yuutg&list=PL0ZVw5-GryEkGAQT7lX7oIHqyDPeUyOMQ&index=4