要佳软,一等好软件聚集地

Magika,AI 快速高效识别文件类型

在很多场景下,需要对文件类型及格式进行正确识别,例如论坛用户上传附件、网盘用户上传分享的文件、邮件用户发送邮件附带附件、病毒检测以及 下载文件 MIME TYPE智能检测 等等。

由于文件后缀可以任意修改,因此依靠文件后缀并不能正确识别文件类型。题外话:很多人通过百度网盘之类分享文件,试图通过修改文件后缀方式来规避检测是毫无意义的。

某一种文件类型是有固定特征的,通常由文件存储的二进制格式开头的几个字节(大多数为 2-4 字节)标识,一般称之为 File signature (或者 Magic Number)。要正确识别一个未知文件的类型,需要维护一个文件类型格式数据库,例如 List of file signaturesGCK’S FILE SIGNATURES TABLEfilesignatures.net。但这些数据库一般都是由个人维护,受限于维护人员的时间精力,更新不一定及时。

Google 最近开源 Magika,基于人工智能快速高效地识别文件格式和内容类型。

Magika 采用了一个定制的、高度优化的深度学习模型,即使在 CPU 上运行,也能在几毫秒内精确识别文件类型。

Google 内部已经在Gmail、Google Drive、Safe Browsing 中大规模部署使用Magika ,与以前依赖手工创建规则的系统相比,Magika 发现文件类型识别的准确率提高了 50%。

谷歌分享 Magika 的性能数据,100 多种格式的 100 万个文件基准评估测试结果显示,Magika 的性能比现有工具高出约 20%,Magika 的精确度和召回率均达到 99% 以上。

 

项目官网:https://google.github.io/magika/

Blog介绍:Magika: AI powered fast and efficient file type identification

 

更多AI工具

赞(0)
未经允许不得转载:要佳软,一等好软件聚集地 » Magika,AI 快速高效识别文件类型

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址