一项人工智能识图技术的曲折历程

时间:2020-01-13 来源:www.chinaxinghong.com

我曾经谈过一个事实,虽然人工智能的科幻色彩能唤起公众的想象和好奇,但在实际应用层面,企业仍然需要考虑这项技术的实用性。他们需要有无拘无束和宏伟的风格,也需要务实扎根。就像谷歌的“阿尔法围棋(AlphaGo)”一样,其主要任务是在选择了惊人的围棋技巧后,帮助谷歌销售更多广告。

历史学家认为战争和商业是促进人类进步的唯一两个因素。由于战争成本太高,拥抱商业已经成为唯一的选择,驱使天才日夜奋斗。人工智能本质上与交流电相同,但前者没有见过西屋和西屋,它们都属于人工智能。

在中国的人工智能领域,就有这样一个案例,对于如何将高端而深刻的技术带入商业市场可能具有很大的指导意义。

马龙科技,深圳的一家人工智能企业,发布了一个企业级平台“产品人工智能”,专门提供“地图搜索”。它的两位创始人分别来自中国和美国。他们与技术领域被称为“黄埔军校”的微软亚洲研究院有着密切的联系,并获得了2015年图像网(人工智能图像识别领域的奥运会)。

更直白地说,“产品人工智能”的应用场景之一是为各种电子商务和零售平台提供技术支持,以便它们能够添加映射功能。用户可以上传拍摄的照片,利用人工智能的计算能力找到相同的外套、包或织物,从而接受消费者的行为。

这和“高大商”的人工智能有一点不同吗?

有人甚至问,这也是人工智能吗?事实上,一些黑客在论坛上回答:这真是一个非常真实的人工智能。以前,图片是静态的,“生产”更像是一个能量模块。它有能力给图片贴标签,这将使每张图片有能力了解自己并与更多图片互动。

“搜索图片”过去是专业搜索引擎的功能。随着谷歌、必应和百度等通用搜索引擎的加入,其“黑色技术”成分被稀释了很多。图像识别的原理与文本相似。这一切都是通过基于位的分解,记住信息内容的特征,然后机器在数据库中匹配,给用户最接近的结果。

就像机器翻译总是只获得逐字的转换而不理解语义和修辞一样,人工智能的功能是模拟人脑的思维结构来优化这项工作。普通搜索引擎的“地图搜索”只能以“数据库冲突”的形式在很大程度上索引信息。当两幅图片的元素稍微不同时,例如拍摄角度、遮挡、成像质量等。精确匹配非常困难。例如,机器可以在一秒钟内从数亿张图片中找到相同的两幅图像。然而,很难理解猫和狗是两种不同的动物。

早些时候,脸书的机器算法将哥本哈根著名雕塑《小美人鱼》的照片屏蔽为色情内容,引起了公众的骚动。在微博上,识别各种植物的人肉搜索引擎《自然历史》杂志受到广泛欢迎,这无疑是对现有地图阅读技术的赤裸裸的嘲弄。

如果精确度无法解决,就很难开始商业化的进程。在实验室呆得太久也会导致技术研发和市场需求的错位。虽然标准化测绘应用程序,如K12人的照片解决产品,近年来势头迅猛,但在具有巨大实际产值的企业市场中,人工智能与测绘引擎的结合仍存在相当大的差距。

马龙科技支付了这个行业的学费。

2014年,黄定龙和他的同事马特斯科特(Matt Scott)一起创业。微软也是人工智能领域的顶级技术公司之一。两人推出的第一款产品是“时尚人工智能”(Style AI),直接面向c端市场,直接进入了时尚领域。用户可以通过拍摄他们最喜欢的杂志模特,从服装到鞋子和靴子,从手表到珠宝,在应用程序中获得相同或最接近的产品页面。

然而,技术的尖端性质不能等同于市场的容量。虽然大多数首次下载并使用“风格人工智能”(Style AI)的用户认为这个功能足够新颖有趣,但归根到底只是这个应用程序不是一个电子商务门户。在那一天,像猫和JD.com这样的巨型平台已经以错综复杂的方式屏蔽了每一个消费者的行为,蛋形的“人工智能风格”(Style AI)显然无法与之竞争。

支付学费后,黄定龙和他的团队意识到扬长避短的重要性。由于他们对技术本身很有信心,避免直接说服用户使用的高端市场,而寻求已经拥有用户资源的低端企业的合作,可能更现实、更轻松。

与面料交易平台的合作强化了马龙科技的转型理念:

纺织行业的贸易匹配离不开阿里巴巴式平台。然而,即使有了图片的辅助解释,用户仍然发现很难清楚地表达一块织物的特征和材料。马龙科技(Malone Technology)为其提供映射技术时,面料与面料之间的视觉对比以及基于某一种图案风格的相关搜索变得简单快捷。

合作伙伴的各种好评初步证实了马龙科技为B端企业提供图像扫描服务的商业探索。后来,黄定龙决定推出具有开放能力的“产品”(producta ai),其中包括电子商务、安全、医药、艺术等行业,以访问这个“擅长识别图片的人工大脑”,融入自己产品的独特特征,提升用户体验。

暴风影音、上海卫视等视频媒体也是“产品人工智能”的典型客户。观看电影或电视节目时,用户可以直接在JD.com下订单,订购图片中主人公目前使用的手机,这是技术合作的经典应用场景。

产品人工智能后台支持一组神经网络。它不是压缩图片的像素进行比较和识别,而是通过大量的学习和消化来理解图片的含义并提取语义。根据黄定龙的解释:由ProductAI驱动,每个GPU的工作效率相当于200到400名经过培训的专业人员。

在互联网公司越来越重视“授权”的时代,传统企业的春天似乎来得更早。马云表示,互联网将成为未来的电力,它也适合普惠公司的所有生产组织。

人工智能符合这一说法。在可见阶段,它不适合作为人们购买的商品放在超市的货架上,但任何企业都必须将其实力作为获得服务的关键支柱。

有一个有趣的故事,强迫症患者闹钟应用的操作模式是让人们在睡觉前拍一张静物画。例如,当第二天早上客厅里的电视响起时,用户必须起身去客厅,以相同的角度拍照。当两个图片被判断为一致时,闹钟可以关闭,从而迫使那些喜欢随意按闹钟的人打盹。

只有一次,一个用户在睡觉前在冰箱里拍了一张苹果的照片。第二天早上,当他打开冰箱时,他发现苹果被室友咬了,这使得清理起来很困难。闹钟在任何情况下都无法停止响铃,他也无法通过换一个新苹果来“欺骗”系统,所以他不得不再次刷机,将手机恢复到原来的状态。

显然,人工智能的理论和想象力并不比解决这些问题更令人眼花缭乱。