基于视觉转换器的人脸识别框架

人脸识别工具是一种计算模型，可以识别图像、闭路电视或视频片段中的特定人物。这些工具已经在广泛的现实环境中使用，例如协助执法和边境管制人员进行刑事调查和监视工作，以及用于身份验证和生物识别应用。虽然大多数现有模型的性能都非常好，但仍有很大的改进空间。

伦敦玛丽女王大学的研究人员最近创建了一种新的、有前途的人脸识别架构。这种架构在arXiv上预发表的一篇论文中提出，它基于一种从图像中提取面部特征的策略，这与迄今为止提出的大多数方法不同。

“使用卷积神经网络(CNN) 和基于边缘损失的整体方法主导了人脸识别的研究，”进行这项研究的两位研究人员 Zhonglin Sun 和 Georgios Tzimiropoulos 告诉 TechXplore。

“在这项工作中，我们以两种方式偏离这种设置：(a) 我们采用 Vision Transformer 作为一种架构来训练非常强大的人脸识别基线，简称为 fViT，它已经超越了大多数最先进的技术人脸识别方法。(b) 其次，我们利用 Transformer 的固有属性来处理从不规则网格中提取的信息(视觉标记)，以设计人脸识别管道，这让人想起基于部分的人脸识别方法。”

最广泛的人脸识别方法基于 CNN，这是一类人工神经网络 (CNN)，可以自主学习在图像中寻找模式，例如识别特定物体或人。虽然其中一些方法取得了非常好的性能，但最近的工作强调了另一类人脸识别算法的潜力，称为视觉转换器 (ViTs)。

与通常完整分析图像的 CNN 相比，ViT 将图像分成特定大小的块，然后将嵌入添加到这些块中。然后将生成的向量序列馈送到标准转换器，这是一种深度学习模型，可以对正在分析的数据的不同部分进行不同的加权。

“与 CNN 不同，ViT 实际上可以对从不规则网格中提取的块进行操作，并且不需要用于卷积的均匀间隔采样网格，”研究人员在他们的论文中解释道。“由于人脸是由部分(例如，眼睛、鼻子、嘴唇)组成的结构化对象，并且受到深度学习之前基于部分的面部识别的开创性工作的启发，我们建议将 ViT 应用于代表面部部分的补丁。”

基于视觉转换器的人脸识别框架

猜你喜欢

最新文章

今日推荐

热门文章