发布时间:2024-04-11 10:01
计算机视觉的专家将Bag-of-words方法应用于图像的检索中就有了Bag-of-features。
和Bag-of-words原理相似,若将文档对应一幅图像的话,那么文档内的词就是一个图像块的特征向量。一篇文档有若干个词构成,同样的,一幅图像由若干个图像块构成,而特征向量是图像块的一种表达方式。我们求得N幅图像中的若干个图像块的特征向量,然后用k-means算法把它们聚成k类,相当于我们的词袋里就有k个词,然后来了一幅图像,看它包含哪些词,若包含单词A,就把单词A的频数加1。
k-means算法:最小化每个特征 x i x_i xi 与其相对应的聚类中心 m k m_k mk 之间的欧式距离
算法流程:
- 随机初始化 K 个聚类中心
- 重复下述步骤直至算法收敛:
对应每个特征,根据距离关系赋值给某个中心/类别
对每个类别,根据其对应的特征集重新计算聚类中心
TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
TF(Term Frequency)指的是词频,即一个词在文中出现的次数, 这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。
公式:单词w在文档d的词频为 t f w , d = n w ∑ n j tf_w,_d= \\frac{n_w}{\\sum n_j} tfw,d=∑njnw
IDF(Inverse Document Frequency)指的是逆向文件频率。某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。
公式: l o g 总 文 件 数 目 包 含 该 词 语 的 文 件 的 数 目 log \\frac{总文件数目}{包含该词语的文件的数目} log包含该词语的文件的数目总文件数目
如果包含词条t的文档越少, 则IDF越大,则说明词条具有很好的类别区分能力。
TF-IDF实际上是:TF * IDF
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
在BOW中,一些常用词汇譬如the,it,do等等词汇,不能体现文本内容特征,但是出现频率却很高,利用TF-IDF可以降低这种不必要词汇的影响。同理,在BOF图像搜索中,图像之间也会有这样的无意义的特征出现,所以需要降低这类特征的权值。
所以我们在将输入图像转换为频率直方图时需要根据TF-IDF赋予权值。
权值为:词频与逆文档频率的乘积即TF*IDF
倒排表是一种逆向的查找方式,在BOW中大体的思路是通过已经提取出来的词汇,反向查找出现过这个词汇的文章。如图,查找多个词汇,就形成了一个倒排表。就可以通过倒排表到相应文档快速查找词汇。
BOF中倒排表也是同理。通过对视觉词汇的反向查找,就会得到拥有同一视觉词汇的图像集合,反复多次就能得到一张倒排表。倒排表可以快速的得到新的图像与数据库里相似的图像。
准备了六组不同花卉的照片,每组20张
# -*- coding=utf-8 -*-
# name: nan chen
# date: 2021/6/1 11:06
# -*- coding: utf-8 -*-
from PCV.localdescriptors import sift
from PCV.tools.imtools import get_imlist
# 获取图像列表
imlist = get_imlist(r\'D:\\bof-picture\')
nbr_images = len(imlist)
# 获取特征列表
featlist = [imlist[i][:-3] + \'sift\' for i in range(nbr_images)]
# 提取文件夹下图像的sift特征
for i in range(nbr_images):
sift.process_image(imlist[i], featlist[i])
# -*- coding=utf-8 -*-
# name: nan chen
# date: 2021/6/1 11:13
# -*- coding: utf-8 -*-
import pickle
from PCV.imagesearch import vocabulary
from PCV.tools.imtools import get_imlist
# 获取图像列表
imlist = get_imlist(r\'D:\\bof-picture\')
nbr_images = len(imlist)
# 获取特征列表
featlist = [imlist[i][:-3] + \'sift\' for i in range(nbr_images)]
# 生成词汇
voc = vocabulary.Vocabulary(\'bof_test\')
voc.train(featlist, 50, 10)
# 保存词汇
with open(r\'D:\\bof-picture\\vocabulary50.pkl\', \'wb\') as f:
pickle.dump(voc, f)
print(\'vocabulary is:\', voc.name, voc.nbr_words)
# -*- coding=utf-8 -*-
# name: nan chen
# date: 2021/6/1 11:16
# -*- coding: utf-8 -*-
import pickle
from PCV.imagesearch import imagesearch
from PCV.localdescriptors import sift
import sqlite3
from PCV.tools.imtools import get_imlist
# 获取图像列表
imlist = get_imlist(r\'D:\\bof-picture\')
nbr_images = len(imlist)
# 获取特征列表
featlist = [imlist[i][:-3] + \'sift\' for i in range(nbr_images)]
# 载入词汇
with open(r\'D:\\bof-picture\\vocabulary50.pkl\', \'rb\') as f:
voc = pickle.load(f)
# 创建索引
indx = imagesearch.Indexer(\'testImaAdd.db\', voc)
indx.create_tables()
# 遍历所有的图像,并将它们的特征投影到词汇上
for i in range(nbr_images)[:120]:
locs, descr = sift.read_features_from_file(featlist[i])
indx.add_to_index(imlist[i], descr)
# 提交到数据库
indx.db_commit()
con = sqlite3.connect(\'testImaAdd.db\')
print(con.execute(\'select count (filename) from imlist\').fetchone())
print(con.execute(\'select * from imlist\').fetchone())
对数据集中的所有图像进行量化,为所有图像创建索引,再遍历所有的图像,将它们的特征投影到词汇上,最终提交到数据库保存下来。
# -*- coding=utf-8 -*-
# name: nan chen
# date: 2021/6/1 11:23
import pickle
from PCV.imagesearch import imagesearch
from PCV.geometry import homography
from PCV.tools.imtools import get_imlist
from PCV.localdescriptors import sift
import warnings
warnings.filterwarnings(\"ignore\")
# load image list and vocabulary
# 载入图像列表
imlist = get_imlist(r\'D:\\bof-picture\')
nbr_images = len(imlist)
# 载入特征列表
featlist = [imlist[i][:-3] + \'sift\' for i in range(nbr_images)]
# 载入词汇
with open(r\'D:\\bof-picture\\vocabulary10.pkl\', \'rb\') as f:
voc = pickle.load(f, encoding=\'iso-8859-1\')
src = imagesearch.Searcher(\'testImaAdd.db\', voc) # Searcher类读入图像的单词直方图执行查询
# index of query image and number of results to return
# 查询图像索引和查询返回的图像数
q_ind = 3
nbr_results = 10
# regular query
# 常规查询(按欧式距离对结果排序)
res_reg = [w[1] for w in src.query(imlist[q_ind])[:nbr_results]] # 查询的结果
print(\'top matches (regular):\', res_reg)
# load image features for query image
# 载入查询图像特征进行匹配
q_locs, q_descr = sift.read_features_from_file(featlist[q_ind])
fp = homography.make_homog(q_locs[:, :2].T)
# RANSAC model for homography fitting
# 用单应性进行拟合建立RANSAC模型
model = homography.RansacModel()
rank = {}
# load image features for result
# 载入候选图像的特征
for ndx in res_reg[1:]:
locs, descr = sift.read_features_from_file(featlist[ndx]) # because \'ndx\' is a rowid of the DB that starts at 1
# get matches
matches = sift.match(q_descr, descr)
ind = matches.nonzero()[0]
ind2 = matches[ind]
tp = homography.make_homog(locs[:, :2].T)
# compute homography, count inliers. if not enough matches return empty list
# 计算单应性矩阵
try:
H, inliers = homography.H_from_ransac(fp[:, ind], tp[:, ind2], model, match_theshold=4)
except:
inliers = []
# store inlier count
rank[ndx] = len(inliers)
# sort dictionary to get the most inliers first
# 对字典进行排序,可以得到重排之后的查询结果
sorted_rank = sorted(rank.items(), key=lambda t: t[1], reverse=True)
res_geom = [res_reg[0]] + [s[0] for s in sorted_rank]
print(\'top matches (homography):\', res_geom)
# 显示查询结果
imagesearch.plot_results(src, res_reg[:6]) # 常规查询
imagesearch.plot_results(src, res_geom[:6]) # 重排后的结果
最后的重排序是先将检索出来的挑选出来,再把每一张图像进行一一比对,按照相似程度得到一个排列顺。
维度越大,生成视觉词典所需要的时间越长
并且可以看到随着维度的增加,视觉词典的大小也随之增加
由上面的实验结果可以看出:
ModuleFoundError: No module named pysqlite2.
解决方法:
python3中已将pysqlite2取消,进入报错的.py文件用import sqlite3 as sqlite
替换from pysqlite2 import dbapi2 as sqlite
2.
TypeError: a bytes-like object is required, not ‘str’
解决方法:
python3和Python2.7在套接字返回值解码上有区别,进入相应的.py文件,将str去掉即可
TypeError: ‘cmp’ is an invalid keyword argument for this function
解决方法:
python3中的sort函数sort(*, key=None, reverse=None)
取消了cmp参数
1.手动添加cmp函数
def cmp_for_py3(a, b):
return (a > b) - (a < b)
tmp.sort(key=cmp_to_key(lambda x,y:cmp_for_py3(x[1],y[1])))
参考:
TF-IDF算法介绍及实现