您的位置:首页 >精选综合 >

基于视觉转换器的人脸识别框架

人脸识别工具是一种计算模型,可以识别图像、闭路电视或视频片段中的特定人物。这些工具已经在广泛的现实环境中使用,例如协助执法和边境管制人员进行刑事调查和监视工作,以及用于身份验证和生物识别应用。虽然大多数现有模型的性能都非常好,但仍有很大的改进空间。

伦敦玛丽女王大学的研究人员最近创建了一种新的、有前途的人脸识别架构。这种架构在arXiv上预发表的一篇论文中提出,它基于一种从图像中提取面部特征的策略,这与迄今为止提出的大多数方法不同。

“使用卷积神经网络(CNN) 和基于边缘损失的整体方法主导了人脸识别的研究,”进行这项研究的两位研究人员 Zhonglin Sun 和 Georgios Tzimiropoulos 告诉 TechXplore。

“在这项工作中,我们以两种方式偏离这种设置:(a) 我们采用 Vision Transformer 作为一种架构来训练非常强大的人脸识别基线,简称为 fViT,它已经超越了大多数最先进的技术人脸识别方法。(b) 其次,我们利用 Transformer 的固有属性来处理从不规则网格中提取的信息(视觉标记),以设计人脸识别管道,这让人想起基于部分的人脸识别方法。”

最广泛的人脸识别方法基于 CNN,这是一类人工神经网络 (CNN),可以自主学习在图像中寻找模式,例如识别特定物体或人。虽然其中一些方法取得了非常好的性能,但最近的工作强调了另一类人脸识别算法的潜力,称为视觉转换器 (ViTs)。

与通常完整分析图像的 CNN 相比,ViT 将图像分成特定大小的块,然后将嵌入添加到这些块中。然后将生成的向量序列馈送到标准转换器,这是一种深度学习模型,可以对正在分析的数据的不同部分进行不同的加权。

“与 CNN 不同,ViT 实际上可以对从不规则网格中提取的块进行操作,并且不需要用于卷积的均匀间隔采样网格,”研究人员在他们的论文中解释道。“由于人脸是由部分(例如,眼睛、鼻子、嘴唇)组成的结构化对象,并且受到深度学习之前基于部分的面部识别的开创性工作的启发,我们建议将 ViT 应用于代表面部部分的补丁。”

免责声明:本文由用户上传,如有侵权请联系删除!