相似图片搜索原理

发表于 2024-09-12 15:05:01

算法原理

不拐弯抹角，直接算法思路：

1、缩小尺寸，如缩小到8x8，总64个像素。这一步的作用是去除图片的细节，只保留结构、明暗等基本信息，摒弃不同尺寸、比例带来的图片差异；
2、简化色彩，将缩小后的图片，转为64级灰度。也就是说，所有像素点总共只有64种颜色；
3、计算平均值，计算所有64个像素的灰度平均值；
4、比较像素的灰度，将每个像素的灰度，与平均值进行比较。大于或等于平均值，记为1；小于平均值，记为0；
5、计算哈希值，将上一步的比较结果，组合在一起，就构成了一个64位的整数。

这就是这张图片的指纹。组合的次序并不重要，只要保证所有图片都采用同样次序就行了。
得到指纹以后，就可以对比不同的图片，看看64位中有多少位是不一样的。
在理论上，这等同于计算"汉明距离"（Hamming distance）。
如果不相同的数据位不超过5，就说明两张图片很相似；如果大于10，就说明这是两张不同的图片。

优点是简单快速，不受图片大小缩放的影响
缺点是图片的内容不能变更。如果在图片上加几个文字，它就认不出来了。

所以，它的最佳用途是根据缩略图，找出原图。

实际应用中，往往采用更强大的 pHash 算法和 SIFT 算法，它们能够识别图片的变形。只要变形程度不超过25%，它们就能匹配原图。这些算法虽然更复杂，但是原理与上面的简便算法是一样的，就是先将图片转化成Hash字符串，然后再进行比较。

其他算法

1、颜色分布法：
每张图片都可以生成颜色分布的直方图（color histogram）。如果两张图片的直方图很接近，就可以认为它们很相似。
寻找相似图片就变成了找出与其最相似的向量。这可以用皮尔逊相关系数或者余弦相似度算出，但是汉明距离在这里是不合适的。

2、内容特征法（重点）：
除了颜色构成，还可以从比较图片内容的相似性入手。
首先，将原图转成一张较小的灰度图片，假定为50x50像素。然后，确定一个阈值，将灰度图片转成黑白图片。如果两张图片很相似，它们的黑白轮廓应该是相近的。

于是，问题就变成了，第一步如何确定一个合理的阈值，正确呈现照片中的轮廓？

显然，前景色与背景色反差越大，轮廓就越明显。这意味着，如果我们找到一个值，可以使得前景色和背景色各自的"类内差异最小"（minimizing the intra-class variance），或者"类间差异最大"（maximizing the inter-class variance），那么这个值就是理想的阈值。

1979年，日本学者大津展之证明了，"类内差异最小"与"类间差异最大"是同一件事，即对应同一个阈值。他提出一种简单的算法，可以求出这个阈值，这被称为"大津法"（Otsu's method）。下面就是他的计算方法。

假定一张图片共有n个像素，其中灰度值小于阈值的像素为 n1 个，大于等于阈值的像素为 n2 个（ n1 + n2 = n ）。w1 和 w2 表示这两种像素各自的比重。
再假定，所有灰度值小于阈值的像素的平均值和方差分别为 μ1 和 σ1，所有灰度值大于等于阈值的像素的平均值和方差分别为 μ2 和 σ2。

类内差异 = w1(σ1的平方) + w2(σ2的平方)
类间差异 = w1w2(μ1-μ2)^2

可以证明，这两个式子是等价的：得到"类内差异"的最小值，等同于得到"类间差异"的最大值。不过，从计算难度看，后者的计算要容易一些。

找到这个阈值后，根据当前像素的灰度值，当少于这个阈值的灰度值的像素是背景，当大于这个阈值的则为前景。在计算50x50像素的黑白缩略图，根据阈值进行判断得到了一个50x50的0-1矩阵。
矩阵的每个值对应原图的一个像素，0表示黑色，1表示白色。这个矩阵就是一张图片的特征矩阵。

两个特征矩阵的不同之处越少，就代表两张图片越相似。这可以用"异或运算"实现（即两个值之中只有一个为1，则运算结果为1，否则运算结果为0）。对不同图片的特征矩阵进行"异或运算"，结果中的1越少，就是越相似的图片。“汉明距离”和“余弦相似度”都可以在这里使用。

延伸

JS版实现上面提到的所有算法
https://juejin.cn/post/6844904016686628877

几点延伸：
1、用户侧的设备，如pc，手机，其性能是强大的，同时也是过剩的，用户在大多数的使用场景下是吃不满设备的性能的。一些手机甚至会有额外的浮点运算芯片来加速，很多时候这个芯片在拍摄录像，视频图片编辑的时候才会启动。
2、通过用户设备上的硬件，合理利用好用户的设备进行部分运算，实现运算前置，即可大大减轻服务器的资源。在一些众包场景下，如审核或者标注的工作，如果能把一些运算前置的任务前置到的工作者的设备上，即可大大减轻服务器的压力，减低成本，更有竞争力。
3、关键技术点就是客户端的技术，例如能运行在浏览器上的 tensorflow.js。

客户端技术的现况：
一些现成的、被包装成NPM包的模型
MobileNet（图像分类）：
@tensorflow-models/mobilenetwww.npmjs.com/package/@tensorflow-models/mobilenet
COCO-SSD（物体检测）：
@tensorflow-models/coco-ssdwww.npmjs.com/package/@tensorflow-models/coco-ssd
PoseNet（人体姿态识别）：
@tensorflow-models/posenetwww.npmjs.com/package/@tensorflow-models/posenet
SpeechCommands（声音识别）：
@tensorflow-models/speech-commandswww.npmjs.com/package/@tensorflow-models/speech-commands

另外还有一些第三方开发的现成模型包，比如ML5，里面有pix2pix，SketchRNN等好玩的模型。
ml5js/ml5-librarygithub.com/ml5js/ml5-library

还有人脸识别和关键点标注的face-api.js
https://itnext.io/face-api-js-javascript-api-for-face-recognition-in-the-browser-with-tensorflow-js-bcc2a6c4cf07itnext.io/face-api-js-javascript-api-for-face-recognition-in-the-browser-with-tensorflow-js-bcc2a6c4cf07

如果有一个 python 训练好的模型想要在网页里面做推断，可以使用TensorFlow.js Converter进行转换
1、针对Keras模型：
js.tensorflow.org/tutorials/import-keras.html
2、针对TensorFlow SavedModel
js.tensorflow.org/tutorials/import-saved-model.html

思考

现有的审核和标注产品模型，是否存在被颠覆的可能性，我认为是会发生的，为什么呢？
现在的产品模型是重服务器的，这一类模型相对成本高，迭代维护成本高，在商业社会里，谁成本更低，谁就有优势，谁就能打倒成本高的一方，脱颖而出，赢得市场。目前两种趋势，一种是通过减低硬件成本的方式，如自制gpu芯片，还有一种是众包模式，使用用户侧的硬件来做运算。

423 0