首页>>科技 >>内容

什么是图像识别,如何实现图像识别

发布时间:2023-10-12 11:00:16编辑:温柔的背包来源:

什么是图像识别,如何实现图像识别

很多朋友对什么是图像识别,如何实现图像识别不是很了解,每日小编刚好整理了这方面的知识,今天就来带大家一探究竟。

无论如何,我们不得不承认,在我们这个时代,技术发展对现代生活有着决定性的影响。但苦乐参半的是,技术变化如此之快,我们几乎跟不上,更不用说预测未来了。发展最快、最具影响力和吸引力的技术进步之一是图像识别。什么是图像识别?图像识别是计算机视觉的机制之一,计算机视觉是人工智能的一个分支。

正如我们在《AI,机器学习和深度学习的区别》一文中提到的,人工智能(也称为AI)是一种能够模仿人类特征并能够胜任通常需要人类智能的任务的计算机系统。为了让AI更有说服力,我们需要所谓的“计算机视觉”。根据Venture Beat的说法,计算机视觉是“主要从视觉线索或热传感器、超声波和其他类似来源获取、处理和分析数据的计算机。

简而言之,计算机视觉使机器能够“看到”事物——,甚至是人类看不到的事物。例如,匹兹堡的卡内基梅隆大学实际上正在研究一种叫做“呼吸凸轮”的计算机视觉应用。该应用程序配备了四个与云连接的摄像头,用户可以监控和记录空气污染,甚至可以追溯到源头。是的,它看到了空气质量。

但是,要想让机器做人类做不到的事,首先要让机器做人类能做的事:看到并标记物体和生物。这是图像识别的主要功能。Tensorflow是由Google开发者创建的开源软件库。它将图像识别定义为计算机将图像或视频分解成像素,识别形状,从而“看到”这些图像的内容并进行分类的过程。

比如股票网站,每天有几百万张图片上传,几十亿次搜索。通常,网站建设者必须在他们上传的每张照片上添加标签和描述,以匹配用户的搜索词。通过安装图像识别应用程序,一旦图像传输到服务器,机器就可以自动识别图像中的人或物。然后,它可以自动描述图像,比人类描述更具体,从而优化搜索引擎,提高用户体验。如何实现图像识别?

深度学习是目前最有可能让机器实现“看”的能力的技术。简单来说,深度学习是一种机器学习框架,通过模仿人类的神经元系统,为计算机提供自主学习能力。因此,计算机无需按照指令安装手动编码的软件——,也能准确识别图片中的内容,但需要大量的数据才能完成识别。

所以全世界都在致力于开发大量的数据,最典型的例子就是ImageNet和PASCAL数据集。经过多年的努力,这些庞大且免费的数据集包含了数百万张图片,每张图片都标有与图片内容相关的关键词。

1.ImageNet:由普林斯顿大学的研究人员于2009年创建,这个可视化数据集有超过1400万个从Flickr等搜索引擎收集的URL图像。在创建数据集的过程中,工作人员和志愿者对提交的图片进行了详细的注释,并将其分为约1000个对象类。2.PASCAL: Pascal是由欧盟国家的大学联合创办的。Pascal相比ImageNet数据集相形见绌,——,只有20个对象类,总共20000个训练图像。

你可能已经从类数量的巨大差异中猜到了,帕斯卡的分类更具有普遍性。相反,ImageNet注意到了图像识别技术发展的一个关键特征:类之间的区别——机器可以识别包含相同物种或物体的两种不同类型的图像,因此将图像分为不同的类别。比如,同一张图片虽然在PASCAL中只属于“狗”的范畴,但在ImageNet中却可能被归类为“柯吉权”、“牧羊犬”或“哈巴狗”。

为什么要投资图像学习?好像每个人都在这么做,不是吗?因为他们正在这么做。2012年,高通互联体验公司首次推出Vuforia软件平台。该平台采用图像识别技术,提供大量AR和VR相关功能,使移动应用开发者能够随意拓展视野。

2016年,脸书开始帮助盲人“看见”照片和图像。通过使用图像识别,脸书IOS应用程序将为每张照片生成描述,并大声朗读给用户听。

今年早些时候,全球最值得关注的人工智能公司之一谷歌推出了CloudAutoML,这是一款旨在简化AI在企业运营中的应用的工具。Cloud AutoML首先启动了图像识别功能,允许谷歌用户拖入图像,并教会用户系统在谷歌云上识别图像。迪士尼和Urban Outfitters等公司已将其应用于网站搜索,使搜索结果更符合用户需求。

然而,人工智能的应用并不是大公司的特权。根据彭博首席经济学家麦克多诺(McDonough)的分析,自2015年年中以来,提及“AI”或“AI公司”的企业财报电话会议越来越多。事实上,80%的受访公司表示,他们在生产中应用了AI应用程序。为什么这项技术要投入数十亿美元?我们的猜测是图像识别有很大的潜力。

图像识别是一个非常抽象的领域。然而,当应用于具体情况时,它改变企业的潜力是无可争议的。让我们看看图像识别在各种行业和业务流程中的几种潜在应用:

1.医疗保健:图像识别最突出的能力之一是帮助创建增强现实(AR)——,这是一种“将计算机生成的图像叠加在用户对现实世界的视角上”的技术。如果你为人工智能提供AR技术和包含疾病视觉线索的数据集,你将拥有一个终生难忘的医疗助手。通过它,医生可以在检查过程中获得患者伤口的实时详细诊断建议或医疗文档。

2.教育:图像识别可以让有学习困难或身体残疾的学生以他们可以感知的形式获得他们需要的教育。计算机视觉支持的应用程序可以提供文本到语音和图像到语音的功能,以帮助有视觉障碍或阅读障碍的学生“阅读”提供的内容。

3.食物和饮料:通过使用图像识别,智能手机上的简单应用程序可以获得Instagram和脸书上图像的视觉线索,分析它们并提供实时数据。例如,根据这些照片,应用程序可以告诉你新加坡的咖啡店是你的家人和朋友经常光顾的地方,还是疯狂聚会的地方。这样,用户可以一目了然地获得当地定制的解决方案,餐厅也可以有效地触达目标受众。

电商:想象一个用户在街上看到自己想买的东西,却找不到人问在哪里买,于是他拍了一张照片。然后,用户将其上传到一个配备了图像识别技术的电子商务网站。该算法本身可以“看”图片,扫描数百万个选项,并推荐一个与客户正在寻找的东西看起来相同的选项,至少是最接近的。这是Savvycom在2018年3月创建新AI实验室时的初衷。

现在,我们的工程师正在开发人工智能视觉搜索工具,通过使用包含数千种产品的大规模电子商务数据集来扩展电子商务体验。

5.业务流程管理:先进的图像识别系统也可以帮助企业识别。例如,机器可以进行面部识别,这将取代传统的身份证来确定某人是否被授予执行某项任务的权利,如访问文件存储系统、参加会议或检查工作。但是,我们不得不承认,由于个人感觉、妆容等因素,“看到”和“认出”人脸要比认出物体复杂得多。

所以Savvycom的目标就是尽快在即将到来的项目中解决这个问题。

图像识别技术发展的障碍有哪些?图像识别不是一个新的领域,但仍处于早期阶段。就像任何典型的成长中的青少年一样,在适应现实世界方面存在问题。

还记得“80%的组织表示在生产中使用了AI应用”吗?在这些应用了人工智能技术的公司中,约有33%的公司表示,采用人工智能技术的最大障碍是不稳定性——不成熟和未经证实。34%的人认为很难招聘到合格的工程师,40%的人表示信息技术基础设施的建设阻碍了人工智能技术的引入,并且很容易对公司财务造成不利影响。

资金也是一个重要因素。随着数据流编程的开源软件库越来越多,如微软CNTK、Accord.Net等,机器学习爱好者可以用很低的成本进行研究和学习。然而,并不是所有的问题都能解决,因为并不是所有的事情都是已知的。为了实现产品创意和平衡预算,公司还有很长的路要走

有一个解决方案可以解决上述许多问题:外包。IT外包公司注重技能和专业知识,能够以可预测的管理成本提供高端工具和最佳实践。简言之,他们知道自己在做什么。那是他们的工作。

总之,图像识别是计算机视觉时代到来的早期标志。无论它将如何应用,应用于哪些行业,图像识别技术永远不可能孤立地发展。只有访问更多的图片、实时数据,花费更多的时间和精力,才能变得更加强大。只有认识到这一点,并充分利用这些联系,企业才能在未来取得成功。

以上知识分享希望能够帮助到大家!