日前,阿里巴巴旗下广告交易平台阿里妈妈图像团队的OCR(图中文字识别)技术刷新了ICDAR Robust Reading竞赛数据集的全球最好成绩,并大幅超越第二名。
Robust Reading竞赛是当前OCR技术领域全球最具影响力的比赛。这也是继阿里巴巴图像搜索领军人物华先胜获得ACM(美国计算机协会)“杰出科学家”称号之后,阿里的图像识别技术再一次登上国际顶尖舞台。
借助这一领先的OCR技术,阿里妈妈图像团队能够以95%的超高准确率识别图中违规文字信息,有效过滤商家恶意推广,维护消费者权益。2015年,阿里妈妈累计屏蔽了4600万条恶意推广。
OCR是计算机视觉领域的经典问题,长久以来,一直受到学术界和工业界的持续关注。在工业界,Google、Microsoft、Amazon等大型互联网公司,以及商汤科技、旷视科技(拥有Face++、Image++)等计算机视觉技术创业公司,都在OCR技术上耕耘多年。随着技术不断成熟,OCR也开始在互联网及其他行业逐步上线使用。
据阿里妈妈定向算法技术负责人盖坤介绍,在阿里巴巴平台上营销创意、商品等均是以图片形式展示,图像技术是理解这些信息的重要手段。同时,也有不良商家在图片中内嵌一些违规的信息达到其恶意推广的目的,图片内文字违规是比例相当大的一类,而传统监控手段多以人工肉眼来审核,费时费力,尤其是随着图片数量越来越大,这几乎已成为不可完成的任务。
针对这一强烈需求,从2014年开始,阿里妈妈图像团队开始重点攻坚OCR技术,通过机器视觉的方式从图片中识别出文字,从而鉴别出违规的文案信息。
对恶意推广的定义,盖坤表示,一方面依据国家相关法律法规,对于违禁品、色情信息、封建迷信、假冒伪劣、减肥丰胸、夸大虚假等违规类型进行不同程度的处罚和管理,另一方面在法规之外平台有着更高要求,对损害消费者利益或进行不正当竞争的推广类型积极尝试进行管控。其中,与消费者关系最为密切的假冒伪劣单项违规类型,被阿里妈妈作为重点审查对象。
小编推荐阅读《热血江湖手游技能加点攻略》(掌握技能加点要诀,成就无敌江湖之王)
阅读新版本赏金玩法出装攻略(全面解析最优出装方案,让你在新版本赏金玩法中独领风骚)
阅读《公主级2-6攻略技能大揭秘》(掌握攻略技能,成为公主级2-6的王者!)
阅读《赵云关羽出装铭文攻略视频大揭秘》(如何为赵云和关羽选择最佳装备和铭文?—MOBA游戏攻略)
阅读P5Sband攻略技能加点详解(P5Sband技能加点策略与建议)
阅读《狐狸职业比赛出装攻略男》(以狐狸为主角,揭秘职业比赛中的最佳出装策略)
阅读《钻石局炸鱼英雄出装攻略》(了解最强出装搭配,带你玩转炸鱼英雄局!)
阅读