揭秘AI训练内幕:
科技行业的大多数人都会告诉你,AI是他们行业的未来,这项技术正在快速发展,这要归功于一种叫做机器学习的东西。但科技公司的高管很少讨论其创建过程中的劳动密集型努力。
- 在AI系统能够学习之前,必须有人标记提供给它的数据,这项工作对自动驾驶汽车、监控系统和自动化医疗等AI的创造至关重要。
- 大型科技公司对注释数据的工作往往保持沉默,因为他们面临着隐私维权人士对他们存储并与外部企业共享大量个人数据的担忧加剧。
- 数以万计的上班族和通常在家里工作的独立承包商,正通过Amazon Mechanical Turk等众包服务对数据进行注释和贴标签,每个标签只能赚几分钱。
据外媒报道,在距离孟加拉湾约60公里远的印度布巴内斯瓦尔市中心,纳米塔·普拉丹(Namita Pradhan)坐在办公桌前,盯着世界另一端某家医院录制的视频。
视频显示了某人结肠的内部,普拉丹正通过视频寻找息肉,即大肠中可能导致癌症的小肿块,看起来有点儿像黏糊糊的痘痘。当她找到息肉时,会用她的电脑鼠标和键盘标记,在这个小凸起周围画个数字圆圈。普拉丹没有接受过专门的医学培训,但她正在帮助训练一个人工智能(AI)系统,这个系统最终可以完成医生的工作。
在一座小型办公楼的四楼,数十名印度年轻男女在办公桌前认真工作,普拉丹就是其中之一。他们接受的训练是对各种数字图像进行注释,从街道场景中的停车标志和行人,再到卫星照片中的工厂和油罐车,他们都能精确定位。
在AI系统能够学习之前,必须有人标记提供给它的数据。例如,人类必须精确定位息肉。这项工作对自动驾驶汽车、监控系统和自动化医疗等AI的创造至关重要。然而,科技公司对这项工作保持沉默,因为他们面临着隐私维权人士对他们存储并与外部企业共享大量个人数据的担忧加剧。
较早前,资深科技编辑凯德·梅茨(Cade Metz)设法进入了解AI培训的幕后场景。梅茨在印度进行了一次漫步旅行,走访了五个办公室,那里的人们正在从事培训AI系统所需的、几乎没有终点的重复工作,所有这些工作都由名为iMerit的公司运营。
在这里,有肠道测量师和区分咳嗽好坏的专家,有语言专家和识别街景标识的专业人士。什么是行人?那是双黄线还是虚白线?将来,机器人汽车需要知道其中的区别。
还有数万名工人,也就是通常在家里工作的独立承包商,也通过Amazon Mechanical Turk等众包服务对数据进行注释,这种服务让任何人都可以将数字任务分配给美国和其他国家的独立工人,工人们每个标签能挣几分钱。
总部设在印度的iMerit,为科技和汽车行业的许多大牌公司贴数据标签。该公司以保密协议为由,拒绝公开这些客户的名字。但该公司最近透露,其在全球九个办事处的2000多名员工正在为亚马逊的在线数据标签服务SageMaker Ground Truth做出贡献。之前,它还将微软列为客户。
可以肯定的是,AI将来可能会掏空就业市场。但就目前而言,它正在创造收入相对较低的工作岗位。根据研究公司Cognilytica的数据,2018年数据标签市场价值超过5亿美元,到2023年将达到12亿美元。研究表明,这类工作占建设AI技术所花费时间的80%。
在印度,这是通往中产阶级的门票。在美国新奥尔良,这是一份体面的工作。但对于作为独立承包商的人来说,这往往是一条“不归路”。
有些技能是必须学习的,比如在视频或医学扫描中发现疾病的迹象,或者在汽车或树的图像周围画数字套索时保持手部稳定。在某些情况下,当任务涉及医疗视频、色情或暴力图像时,工作就会变得可怕。
AI研究人员希望他们能够建立能从少量数据中学习的系统。但在可预见的未来,人类的劳动依然是必不可少的。微软的人类学家玛丽·格雷(Mary Gray)说:“这是个隐藏在技术之下、不断扩张的世界,很难将人类排除在循环之外。”
起初,iMerit专注于简单的任务,为在线零售网站整理产品清单,审查社交媒体上的帖子,但它已经转移到了为AI提供支持的工作中。iMerit和类似公司的增长代表着从像Mechanical Turk这样的众包服务的转变。iMerit及其客户可以更好地控制员工的培训方式和工作完成方式。
拜迪亚现在是iMerit的经理,他负责为美国一家大公司为培训无人驾驶汽车所使用的街道场景贴上标签的工作。拜迪亚说这份工作可能会很乏味,但它给了他一种他本来可能不会拥有的生活。他和妻子最近在加尔各答买了一套公寓,步行就可到达她工作的iMerit办公室。拜迪亚说:“我的生活发生了梦幻般的变化,无论是从我的财务状况、个人经历以及英语技能等方面来看,都是如此。我获得了一个机会!”
42岁的格伦达·赫尔南德斯(Glenda Hernandez)出生在危地马拉,她喜欢读书,曾为大型出版公司在网上评论书籍,这样她就可以获得免费的副本,她很享受用西班牙语进行阅读带来的有偿阅读机会。
赫尔南德斯的工作是对图像标记或对人们咳嗽的录音进行注释,她显然不感兴趣,但这是建立AI的一种方式,可以通过电话识别疾病症状。她说:“整天听咳嗽有点儿让人觉得恶心!” 微软人类学家格雷说,这项工作很容易被误解。整天听人们咳嗽可能令人恶心,但这也是医生度过他们日子的方式。她说:“我们不认为这是苦差事。”
赫尔南德斯女士的工作是为了帮助医生做好他们的工作,或者也许有一天,取代他们。她以此为荣。在抱怨了这个项目后不久,她指了指办公室里的同事说:“我们都是咳嗽诊断大师。”