您的位置:首页 >单场解盘 >

浅黑科技06月25日17:40关注确定不再关注此人吗

时间:2022-04-04 02:01:10 来源:网络整理

AI界的老球(si)迷(ji)是怎么变成的?谈AI数据标注

光黑科技 6 月 25 日 17:40 关注 确定不再关注此人?

当球盲们忙着区分“梅东和梅西”、“内马尔和怀马尔”的时候,真正的球迷已经可以通过一个动作和一个凌空抽射,从远处辨认出自己喜欢的球星。

当年轻司机还在论坛发帖、发帖求种子“借片”时,真正的老司机已经可以通过一个镜头、一个眼神确定演员、号码和剧集。

这就是“数不清的球”的威力。

擦干鼻血继续阅读。

这个世界上有很多真理。事实上,在人工智能领域足球场地图片(要标注),“数不清的球”的故事也时有发生。

老球迷的感悟是从逐场看球的经验中积累起来的。老司机的热情是一块块积累起来的。同样,图片识别系统可以立即识别物品,语音识别系统可以立即阅读您所说的内容。

为了给大家解开谜底,这次联系到了京东众智平台产品经理“小七”。京东中智是AI数据标注行业的新黑马。

今天就和小七一起给大家讲一下AI界的老司机是怎么练出来的。

1

问:如何教人工智能系统识别足球?

答:就像大人教孩子一样。

教孩子们理解“什么是足球”。如果你试着告诉孩子“圆”、“踢”、“黑白格”等特点,估计孩子还没说完就糊涂了,容易出错。

足球不必只用脚踢(就像守门员一样,就像马拉多纳的上帝之手),而且不只是黑白分明。

最直接、最简单、最常用的方法就是找一个真正的足球放在孩子面前,指着球告诉他,“足球”、“足球”、“足球”,如果你不会找到真正的球,使用图片。或视频。

尝试几次后足球场地图片(要标注),你会发现,即使你从来没有告诉过你的孩子“什么是足球”,用不了多久,孩子就会“自然地”认出足球。

网上有个笑话说“如果一个人没有梦想,那么深度神经网络和深度神经网络有什么区别”。事实上,孩子认识世界的过程真的很像深度神经网络的训练过程。

工程师希望 AI 模型能够准确识别足球。最好的办法不是用代码来描述足球,而是在建立深度学习网络模型之后,直接找很多有足球的图片,用AI能读懂的方式。将图片中的足球“标记”出来,放入AI模型中进行训练,然后它“自然”地获得了识别足球的能力。

工程师不需要编写代码来描述“什么是足球”,甚至工程师也不一定需要理解为什么 AI 模型可以识别足球。

在人工智能领域,将原始数据转化为可供算法使用的数据的过程有一个专业术语叫做“数据标注”,而寻找原始数据的过程也有一个专业术语叫做“数据收集”。

小七告诉我,目前数据采集和标注主要分为视觉类(图片和视频)、语音类、文本类。

这个逻辑还是可以用大人教孩子的例子来理解的:

视觉课——用于训练图像识别系统,相当于用成人的卡通(视频)教孩子识别各种物体。

语音课——用来训练语音识别系统,相当于大人教孩子说话聊天

文本类——用于训练语义理解等系统,相当于成人教孩子识字和阅读

孩子的学习速度主要取决于两件事:“1.孩子的天赋”、“2.认知提升的次数”

人工智能系统的强大还取决于两件事:“1.算法模型的质量”、“2.训练数据的数量和质量”

小七表示,人工智能领域很多公司使用的算法模型其实都差不多,很多甚至是同一个开源项目修改的。

也就是说,当“人才”相似时,用于后期训练的数据量和标注的质量可以起到决定性的作用。

突然想起那句烦人的广告语:我不是生来坚强,我只是生来坚强……

2

小七告诉我,目前人工智能领域对数据采集和标注的需求巨大。

到什么程度?拿之前在微信群里广为流传的“中国天网监控系统9秒视频”来体验一下:

在人车往来的主干道上,监控系统可以准确识别每一个来来往往的行人和车辆,每个人身上都有几个小标签,准确显示机动车和非机动车的种类车辆,以及行人的年龄。、 性别、 着装。

这个系统的背后是海量的数据训练。虽然视频素材可以直接从监控系统中调用,但是后期的很多“数据标注”工作是不可避免的。

仅行人身上就有多达四个标签,包括性别、年龄和服装细节。这些特征中的每一个都需要大量的材料进行训练才能实现准确的识别。

小七告诉我,京东众志平台上也有类似路边标注视频标注的实际案例。从下面带标签的截图来看,每张截图都有20多种标签,行人、骑自行车的人、小车、大车、电线杆、广告牌……

对于一些自动驾驶系统来说,准确识别道路上的每一个物体是多么重要!

任何时候,路边可能会出现一只小狗,可能会漂浮一个垃圾袋,地面上可能会出现一群人形的污渍……而每一个需要准确识别的物体,大多都需要一个大大量的高质量数据标记材料在早期用于训练。

而且,标签越精细,自动驾驶系统的安全性和稳定性就越高。

“除了视觉识别,语音识别、文本识别等领域对数据采集和标注的需求也很大。”

例如,我们会发现某家公司的语音识别功能特别准确,即使有背景噪音或轻微的方言口音。

这背后是依靠大量基于场景的语料训练,比如专门区分儿童和老人的声音、方言、口音、各地户外噪音标注等……

从这个角度来看,AI系统就像一个等待喂食的婴儿,等待数据喂食,随着时间的推移,它的胃口越来越大。

3

那么,在哪里可以找到用于“喂养”人工智能系统的海量数据材料呢?哪里能找到这么多人给数据打标签?

小七告诉我,大大小小的公司在数据收集和标注方面各有千秋:

大公司通常不缺钱。他们需要的是质量和效率,所以他们大多会成立自己的数据部门,并招聘很多全职数据标注员。

这些注释器就像工厂流水线上的员工。他们在日常工作中不断根据公司的需要对采集到的图片、文字、语音数据进行标注。

他们通常还会招聘一些实习生或兼职人员到公司,经过培训,他们会承担一些简单的标签工作。

据小七说,我在豆瓣、贴吧和论坛上发现了各种用招聘数据标明兼职的帖子。

中小型公司有时会直接从第三方购买标记数据,或使用公开可用的免费数据。

如果需要定制标注,他们会从一些小型标注工作室或中型专业标注公司和平台购买相应的数据采集和标注服务。

大概是因为需求比较大的缘故,这两年在网上出现了很多专门做数据标注服务的公司和很多社会闲置的小标注群。

搜索了数据标注相关的关键词,发现了一堆相关的QQ群:

小七表示,在数据标注领域,小团队的资源和能力非常有限,很多时候无法满足客户的需求。

“最直接的,如果客户需要在两周内标注上万张图片,并且对标注质量要求很高,如果整个团队只有几十个人,几乎不可能完成标注,急于工作会延迟。标注质量低。”

市场需求继续迫使小团队集体合作。于是,AI数据众包平台开始兴起。

越来越多做得好的小团队和个人会主动向更大的众包平台靠拢,在数据众包平台的统一管理和分配下接手。

京东众志平台网站首页亮眼地写着“我要赚钱”“我有需求”等字样。众包平台的商业逻辑显而易见。连接一端购买数据采集和标注服务的公司,另一端连接想通过标注数据赚钱的人,是典型的 B2C 业务,类似于打车平台的逻辑。

4

最好试一试。决定直接在京东众智平台体验一次“AI调优”。

然而,没有成功。

登录我的账户后,我发现我想参加评分任务,但我仍然要参加考试。右边的星级显示我每个指标只有一颗星:

小七告诉我,人工标注的平均准确率最终将决定AI系统的准确率。一旦注释者出错,机器最终也会出错。因此,把控数据采集和标注的质量是AI数据众包平台生存的基础,就像商场要严查假冒商品一样。

“我们会对贴标者进行评分,并根据级别匹配相应难度的任务,这样可以很好地控制工作效率和准确性,”小七说。

除了贴标质量,客户最关心的还有两点:

1)数据安全

数据真的很特别,只要通过一次,就可以被复制。

但是,在很多情况下,数据标注需要双方将数据打包,然后传递下去。

甲方将需要打标的数据发送给接收订单的团队,打标完成后再发回甲方验收。遇到一些非正式的小作坊,可能会直接复制数据,卖给竞争对手。

数据安全问题的本质是信任问题。我想让客户相信,一方面是为了推广品牌,依靠背后的大公司和品牌来支持,让客户相信,即使是为了长远利益,平台也会尽力而为以确保数据安全。

另一方面,依靠严格的技术手段“绑手”换取信任。

小七表示,京东众智平台采用的是“数据切割”方案。他们会将机密资料拆分成许多部分,分配给几个不相关的团队,并使用数据接口进行传输。数据,避免客户数据被直接打包传输,尽可能提高安全性。

2)速度

在很多情况下,数据标注的速度决定了一个公司AI商业产品的开发速度,而产品开发的效率则关系到一个公司的命运。

例如,某公司研发了猪脸识别系统,可以辅助养猪场科学养猪。模型建好后,他们花了三个月的时间找了一个外包团队来收集猪脸数据,又花了三个月的时间。标注数据,到现在已经半年多了。在此期间,如果其竞争对手找到更高效的标签团队并在更短的时间内推出相同的产品,他们将能够“切入正题”并挫败他们的商业计划。

为了提高打标效率,一些数据打标公司和平台已经开始使用深度学习网络构建AI打标系统来辅助打标工人。说起来也很有意思,用AI来帮助训练AI……

小七表示,京东的平台使用了一种叫做“Pre-AI”的解决方案。

在贴标机打标前,系统会使用人工智能系统辅助贴标机打标,可以大大简化贴标机的工作难度。

比如下面这个原本需要标注人员对每个点一个一个标注,现在系统会自动标注轮廓,人工只需要检查和修正即可。

另一个例子是下面的录音。如果让你用文字写下谈话的内容,你至少需要听一遍,如果遇到听不清楚的部分,你可能需要听四五遍。

但是,在“Pre-AI”方案中,可以提前自动标记和转录相应的部分。人类只需要听它并修改错误的句子。

从这个角度来看,AI数据众包平台不会简单地把社会上的闲散劳动者聚集起来,扔给他们一堆标记的订单,而是会提供一整套的考试、评分、辅助系统,针对专业服务。方向正在发展...

其实这也是所有B2C的必然发展路径。

很多B2C商城最初的定位是卖闲置物品,后来都是专业卖家;很多网约车平台最初是希望每个普通私家车主都能共享自己的汽车,但现在几乎所有平台都是职业司机。...

或许在不久的将来,类似于“数据标注”,“教”AI学习的工作会形成一种职业。届时,人工智能将走向更专业的领域。医学生将开始教人工智能看医生。像我这样的人可以教AI写稿子,黑客教AI做渗透测试,自动化攻防,读无数老司机,教AI检测色情……

有人觉得这有点吓人,人家教AI,然后AI代替人的工作。

我想说的是,人类之所以是进化的人类,很大程度上是因为使用了先进的工具来代替原来的工作,让人类可以投身于更高级的工作。可以说是一种劳动解放,也可以说是一种落后的力量。

今天的人工智能也是如此。人工智能已经取代了现有的工作,并迫使(解放)人们创造更先进的东西。这不就是汹涌的科技浪潮的本质吗?

人工智能取代了工作,而不是人,对吧?

最后,让我自我介绍一下。我是科技科普作家谢瑶。我通常以通俗有趣的方式讲解各种高级技术知识和黑科技。有什么有趣的技术问题可以知道@谢瑶,或者加我的个人微信:dexter0。

不想迷路的请关注【光黑科技】!


郑重声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。
猜你喜欢