低学历、贫困、女性占50% 揭秘印度全球AI数据标注村

低学历、贫困、女性占50% 揭秘印度全球AI数据标注村


【网易智能讯3月25日消息】Kumaramputhur是喀拉拉邦帕拉卡德区(Palakkad)西北约45公里处的一个小村庄,大约有3500户人家,可能不比一般的班加罗尔郊区大多少。

除此之外,它的性别比例和识字率都低于全国水平,除了一些现代化的痕迹,Kumaramputhur似乎没有什么值得注意的。

然而,高中辍学生Mujeeb Kolasseri就是在这个村子里指挥着一个由200多名员工组成的团队,为美国、欧洲、澳大利亚和亚洲的客户提供人工智能解决方案。28岁的科拉塞里是Infolks公司年龄最大的成员,Infolks是他三年前创办的一家公司。

在连接帕拉卡德和科泽科德(Kozhikode)的高速公路边,不起眼的办公室里,团队的大部分成员都在为自动驾驶汽车上摄像头拍摄的车辆、交通灯、路标和行人的图像进行高亮和标签处理。这项工作困难的地方是精确地标记被LIDAR激光雷达的远程传感器捕获的数据,这为自动驾驶车辆创建3D地图,获得对周围物体的感知奠定了基础。

低学历、贫困、女性占50% 揭秘印度全球AI数据标注村


Infolks的办公室

大约2000公里外,在加尔各答西南边缘——Metiabruz的胡格利河岸(the Hooghly river)附近,大约200名女性正在给图像贴标签,这些图像将被用于训练自动驾驶汽车和增强现实系统中的算法。总部位于印度和美国的数据注释公司iMerit的技术和营销副总裁贾伊纳塔拉詹(Jai Natarajan)表示:“她们从事最尖端的图像相关项目。”

iMerit在加尔各答、兰契、布巴内斯瓦尔、威扎吉和西隆的其他办公室也有数千名员工在做着类似的工作,他们为数百万条数据打上标签,帮助培训和推动全球公司开发的人工智能算法。

随着全球企业巨头拥抱人工智能,以及为人工智能算法提供支持的数据集渐渐成为私人财产,企业需要在需求、质量控制、反馈和可交付成果方面与数据标签团队进行更高程度的合作。

由于世纪之交的业务流程外包热潮,印度人对此类术语和需求并不陌生。数据注释和标记也是过程驱动的工作,仅需要精确的技能,即使受过高中教育的人也可以通过训练走上岗位。

低学历、贫困、女性占50% 揭秘印度全球AI数据标注村


iMerit创始人兼首席执行官Radha Basu在Metiabruz中心

随着以众包为主的第一代工作被更高级的需求取代,Infolks、iMerit和Playment等公司开始迎合全球客户的需求,这使印度成为一个新兴的数据标签和注释中心。

“这是一个新兴行业……在印度,所有人都开始意识到它带来的巨大机遇,”印度软件和服务公司协会(Nasscom)高级副总裁兼首席战略官桑吉塔古普塔(Sangeeta Gupta)表示,“人工智能需要正确标注、分类和匿名化数据,与此同时也必须使用熟练的人力,这就是AI为印度带来的机遇。”

根据研究公司Cognilytica的一份报告,到2023年底,人工智能和机器学习相关数据准备解决方案的全球市场预计将从2018年的约5亿美元增至12亿美元。

什么是资料标签?

数据标记和注释是一个过程,通过标记、着色或高亮显示来自相机、传感器、电子邮件和社交媒体等非结构化来源的数据集,以及来自数据库等结构化来源的数据集,来标记差异、相似性或类型。这样,当数据被输入一个算法用于训练人工智能系统时,算法可以正确地识别数据并从中学习。

假设你想训练一种算法,使用车载摄像机捕捉的图像来理解路标。数据注释器或标签器将使用注释工具检阅所有的图像数据集,标记或突出道路标志,并将其提供给人工智能算法学习。下次当算法在实际行驶中遇到路牌时,它也许就能够识别路牌了,对道路标志图像的训练越多,该算法的精度就越高。

低学历、贫困、女性占50% 揭秘印度全球AI数据标注村


Infolks的创始人兼首席执行官Mujeeb Kolasseri

人工智能或机器学习迅猛发展的原因之一是,人们开始可以从互联网、社交媒体、传感器和其他来源获取大量数据。今天的算法有能力吸收更多的数据,因此更加准确。只要数据良好且清洁,再向算法输入数据集就会逐步提高其准确性,这导致了在人工智能算法和应用程序领域对良好注释和标记数据的无尽需求。

据Cognilytica的报告,如今,在大多数人工智能和机器学习项目中,数据准备和工程任务占据了80%以上的时间。

总部位于班加罗尔和旧金山的Playment公司首席执行官席特哈尔特霍尔(Siddharth Mall)表示:“如果你谈论自动驾驶,一个小时的视频数据可以带来800个工时的工作量。

人工智能村庄

高中辍学后,Kolasseri在铝制造业工作,但由于健康原因不得不离开。在印度,他注册了亚马逊的众包就业市场Mechanical Turk (MTurk),开始接受来自全球各地公司的批注工作。

“我能够保持99.8的评分,因为我能够提供质量,曾经工作过的一家公司认可我的工作,直接找到我,为我提供了更多的工作。“我们最初在家里工作,2016年初,当我们开始成长时,我决定注册并成立这家公司。”

创业之初,Kolasseri的兄弟和朋友投资了2.5万卢比,帮助建立了这家公司,后来他们加入了董事会。如今,Infolks是一个不断壮大的团队,其大部分员工都来自Kumaramputhur及其周边地区。

Kolasseri说:“公司的愿景是把我们的村庄改造成一个全球性的村庄,同时为农村地区的年轻人提供经济机会。我们近200名员工中,90%的人年龄在20到25岁之间。”

低学历、贫困、女性占50% 揭秘印度全球AI数据标注村


Kolasseri在Infolks办公室与团队进行互动

尽管该团队致力于医疗、机器人和农业等领域的数据集,但约75%的工作属于自动驾驶汽车领域。Kolasseri的客户包括德国汽车公司戴姆勒(Daimler)和其他国际科技公司。Kolasseri表示无法透露与这些公司签署的协议。