原标题:阿里 FashionAI 数据集:用知识重建构造「时尚+AI」的巴别塔
雷锋网 AI 科技评论按:《圣经 ·旧约·创世记》第 11 章记载,人类希望能联手共建通往天堂的巴别塔,但因为各种族语言不通,计划因此失败。而在时尚领域,人工智能同样面临巴别塔难题,专业人士、机器智能和普通消费者之间存在信息阻滞和沟通不畅。
客观科学和主观时尚,这两个概念看似互相矛盾,实际上从某种程度上也反映着传统行业与全新技术的鸿沟。如何用机器能理解的逻辑语言,清楚地定义、规范和传递一个行业、尤其是时尚行业的 benchmark? 在阿里巴巴「图像和美」团队和香港理工大学纺织及服装学系的这次深度合作中,我们或许能找到答案。
7 月 4 日至 6 日,由阿里巴巴「图像和美」团队联合香港理工大学纺织及服装学系、英国纺织协会联合举办的「人工智能与时尚纺织大会」学术会议在香港理工大学举行,同期包括学术主题演讲、2018 FashionAI 全球挑战赛决赛答辩会及线下 FashionAI 概念店体验活动等多项内容。这一事件在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中有相应加分。
2018 FashionAI 全球挑战赛自今年 3 月发起,共吸引全球 42 个国家和地区的 5272 支队伍共 6594 名选手参与,争夺 134 万的人民币奖金池。
7 月 5 日答辩会当天,来自西安交通大学、马里兰大学、北京邮电大学、中科院深圳先进技术研究院、唯品会等高校及企业的 10 支队伍进行了现场展示及答辩环节。
最终,早稻田大学博士研究生李玮特的单人团队 bilibili 摘得关键点赛道的冠军奖项;来自西安交通大学的禾思众成团队在服饰属性赛道获得冠军。
针对本次比赛,中科院计算所研究员、中科院智能信息处理实验室常务副主任山世光博士作为 FashionAI 全球挑战赛的决赛评委代表向雷锋网 AI 科技评论表示,本次 FashionAI 受到众多高校及研究机构的关注,除了阿里天池平台本身的影响力以及诱人的奖金激励外,AI 对于时尚行业的渗透,本身也是一个在学术界逐步受到重视的问题。「随着人工智能特别是计算机视觉的进步,AI 未来会在零售、电商等应用中得到更多的体现。」
根据赛制介绍 [1],FashionAI 全球挑战赛的两大赛道分别为服饰关键点赛道及服饰属性赛道,前者专注于女装的服饰关键点定位。基于服装设计知识,赛事组委会定义了一套服饰的关键点,并梳理了在女装 6 大专业类别(上衣、外套、裤子、半身裙、连身裙、连身裤)下的具体定义,要求参赛者设计算法进行定位预测;而后者基于数据集所构建的女装标签知识体系,要求选手在属性维度和属性值两个层面对单主体(单人模特或单件平铺)服饰商品进行局部属性识别。
这两大赛道的设置,反映的是认知时尚的两大基础问题。据阿里巴巴副总裁、淘宝事业部技术总经理兼阿里巴巴大文娱优酷高级副总裁兼 CTO 庄卓然的介绍,阿里巴巴于今年年初和香港理工大学一起开始投入到该领域的建设,一同梳理服饰领域的知识和规则,并将成果制作成这个严谨、实用、符合商业场景的服饰数据集,与 FashionAI 全球挑战赛同期发布。
这个业界首个同时满足服饰专业性和机器学习要求的大规模高质量数据集 [2],包括服饰关键点定位、服饰基础属性识别等任务。据介绍,前者的关键点定义源自服装设计原理,目前覆盖女装 5 大类部件,共 41 个细分类目,24 种关键点,总计 10 万张标注图片;后者通过对基础属性的专业整理,构建了一个层次化的标签分类体系,目前覆盖女装 5 大类部件,41 个细分类目,8 个维度 54 个标签,总计 25.7 万标注图片。数据集中使用的所有图像数据全部来源于电商真实场景,从各个季节、类目等维度的上亿的服装数据中采样得到,从而保证了数据的多样性。
服饰,特别是女装,是淘宝上最大的商品类目。2017 年双十一当天,服饰领域的成交占比超过 30%,阿里巴巴深知用户在服饰时尚领域巨大的消费能力,也密切关注互联网和技术在其中能创造的商业价值。