Kumaramputhur是喀拉拉邦Palakkad西北约45公里处的一个小村庄,约有3500个家庭在这里居住。这个村庄没有第一产业可言,它的性别比例和识字率都低于该州的平均水平。除了有一些现代化的痕迹,这里似乎没有什么值得引起注意。 然而,正是在这个村子里,高中辍学生Mujeeb Kolasseri指挥着一支由200多名员工组成的团队,为美国、欧洲、澳大利亚和亚洲的客户开发人工智能解决方案。Kolasseri 于三年前创办了这家名为Infolks的公司,28岁的他是该公司资格最老的成员。 该公司的办公室位于连接Palakkad和Kozhikode的高速公路上,虽然不起眼,但团队里的大部分成员都在这里工作。他们所要做的就是将固定在自动驾驶车辆上的摄像机拍摄的车辆、交通灯、路标和行人的图像进行强调和标记。这份工作看似简单,但却很困难,因为他们需要将激光雷达遥感器捕获的数据进行精确标记(激光雷达为自动驾驶车辆创建3D地图,以获得对周围物体的感知)。 约2000公里之外,加尔各答西南边缘的梅蒂阿布鲁兹胡格利河岸附近,约有200名妇女正在给图像贴标签,这些图像将用于训练自动驾驶车辆和增强现实系统中的算法。 “他们参与着一些我们最前沿的图像项目,”数据注释公司iMerit的技术和营销副总裁Jai Natarajan表示,其员工参与标记和准备数据,以训练人工智能算法。 iMerit在加尔各答、兰奇、布巴内斯瓦尔、维扎格和夏隆办事处的数千名员工也在从事着类似的工作,通过给数百万数据贴上标签,帮助训练全球各大公司开发的人工智能算法。 全球企业巨头正在逐步采用人工智能,为人工智能算法提供支持的数据集也变得越来越专有,所以这些公司需要在要求、质量控制、反馈和交付方面与数据标签团队进行更高程度的合作。 由于本世纪初业务流程外包的繁荣,印度人对这些行话和要求并不陌生。数据注释和标记也是一种由流程驱动的工作,需要精确的工作和技能,即使是受过高中教育的人也可以接受培训。 随着以众包为主的第一代工作被更先进的要求所取代,Infolks、iMerit和Playment等公司开始迎合全球客户,并使印度成为数据标签和注释工作的新兴中心。 “这是一个新兴行业。在印度,每个人都已经开始意识到它带来的巨大机遇,”印度科技产业机构Nasscom的高级副总裁兼首席战略官Sangeeta Gupta表示。“人工智能需要适当注释、分类和匿名的数据。为此,不管喜不喜欢,你都将使用自动化,但你也必须使用熟练的人力资源,而这就是它给印度带来的机会。” 根据研究公司Cognilytica的一份报告,到2023年底,与人工智能和机器学习相关的数据准备解决方案的全球市场,预计将从2018年的约5亿美元增长至12亿美元。 什么是数据标记? 通过数据标记和注释,来自非结构化来源(如照相机、传感器、电子邮件和社交媒体等)以及来自结构化来源(如数据库)的数据集被标记、标注、着色或突出显示,以标记出差异、相似性或类型。通过这样的方法,当数据被输入到用于训练人工智能系统的算法中时,该算法可以正确地识别数据并从中学习。 比方说,你想训练一种算法,利用车载摄像机拍摄的图像来理解路标。数据标签工或注释工将通过图像数据集,使用标注工具标记或高亮显示路标,并将其输入人工智能算法进行学习。下一次,当算法在一个区域内实时行驶并遇到路标时,它应该能够识别出路标。算法训练的路标图像越多,其准确性就越高。 推动人工智能或机器学习激增的是从互联网、社交媒体、传感器和其他来源获取的大量数据。如今的算法有能力吸收更多的数据,从而也更精确。只要数据是优质且干净的,将另外一百万个数据集输入一个算法将会提高它的准确性。因此,这也导致了人工智能算法和应用对标注良好的数据产生了无止境的渴望。 根据Cognilytica的报告,现如今,数据准备和工程任务占据了大多数人工智能和机器学习项目80%以上的时间。 “比如自动驾驶,一个小时的视频数据可能需要消耗800个工时,”Playment首席执行官Siddharth Mall表示。 Infolks之旅 Kolasseri高中辍学后,在铝加工行业工作,但由于健康原因不得不离开。在国内,他注册了亚马逊称为“Mechanical Turk”(MTurk)的众包就业市场,并开始从全球各地的公司从事注释工作。 “我能够保持99.8的评级是因为我能够提供高质量的服务。我工作过的一家公司非常喜欢我的工作,于是直接找到我,并提供了更多的工作,”Kolasseri说,他随后成立了一个六人团队来完成这项工作。“我们最初在家工作,2016年初,随着业务的增长,我决定注册成立这家公司。” 最初,Kolasseri的兄弟和一个朋友投资了2.5万卢比,帮助他建立了这家公司。如今,Infolks是一个正在成长中的团队,其大部分员工来自Kumaramputhur及其周边地区。 Kolasseri说:“公司的愿景是将我们的村庄变得全球化,并为农村地区的年轻人提供经济机会。近200名员工中有90%在20到25岁之间。” 尽管该团队也负责医疗保健、机器人和农业等领域的数据集,但他们大约75%的工作都是在自动驾驶车辆领域。其客户包括德国汽车公司戴姆勒和其他国际科技公司,由于签署的协议,Kolasseri并未透露这些公司的名称。 至于注释,该公司使用客户提供的工具,或者使用第三方工具。“我们的研发团队正在开发自己的注释工具。它目前正在测试中,应该会在接下来的几周内推出,” Kolasseri表示。Infolks还在Kozhikode区附近的一个科技园区内设立了另一个办事处。Kolasseri希望这能够增加公司的收入,因为新的地点属于经济特区,有助于扩大其全球客户群。
印度人工智能后台
亚马逊的MTurk在开始限制非美国员工之前,曾是印度人寻找数据标签和注释工作的热门平台。尽管后来取消了限制,但随着企业客户开始更加重视数据安全,MTurk在数据标签商中的受欢迎程度有所下降。此外,包括Spare5、Cloudfactory和Figure Eight在内的新众包平台也已经进入市场,它们则更加关注注释和标签市场。 Kolasseri说:“在创办公司之前,我曾于2015年至2016年期间在MTurk平台上工作过,如今,仍然不断有新的平台出现。但是,由于企业客户非常关注数据安全,尤其是考虑到许多数据集都是专有的,因此信任这些平台上的工作人员成为他们面临的更大挑战。” 由前Flipkart员工Mall、Ajinkya Malasane和Akshay Kumar Lal所创立的Playment,则以一种略有不同的方式对待注释和标签行业。 该公司为各种用例开发了一系列注释工具,并开发了一个由受过这些工具培训的标签工和注释工组成的众包平台。该公司直接与客户或相关的信息技术服务公司进行合作。 “要将原始数据转换为带注释的结构化数据,你需要前端注释工具、熟练且经济高效的人力资源。此外,由于处理数据的规模化,你还需要有合适的中间件来支持不同的工作流并管理远程人力资源,”Mall说。 Playment的众包平台拥有30多万标签工和注释工。其中,该公司认为约有2.5万人是“高技能顶级玩家”。据Mall称,这些人几乎整天都在平台上,平均月收入为2万至3万卢比。 Playment的大部分工作也来自国际客户,其中包括三星、滴滴出行、阿里巴巴、Drive.ai和Continental AG,其中大部分都属于自动驾驶车辆领域。 iMerit的战略则以员工为中心。其2000多名劳动力中,约80%来自月收入低于100美元的家庭;其中大约一半是女性。“我们的社会使命是在贫困社区和公司或工业较少的地区创造技术就业机会。我们在科技产业稍低、科技就业机会较少的城市开展业务,” Natarajan说道。 所谓的利他主义也有很好的商业意义。Natarajan表示:“我们的合作伙伴和办公地点,允许我们以非常经济高效的方式扩大数据注释和标签团队,并为客户提供高质量的工作。” 尽管iMerit的大部分业务都来自美国——客户包括微软、易趣和Tripadvisor——但其90%的数据注释和标签工作是在印度完成的。 注释自动化 虽然各大公司正在开发用于注释的自动化工具,但由于许多工作需要更为细致的定制注释或标签工作,要想让自动化工具达到高精度还需要一段时间。 Natarajan说,与五年前人工智能还在区分猫和狗的不同相比,现在的人工智能需要处理更高级的工作。“机器学习已经向前发展,所以不再有人要求我们为狗和猫进行标记。如今,每家公司都有定制的需求和非常细微的需求,所以不可能自动实现这一点,也不可能自动给出数据并由一群匿名人士贴上标签。” 他说,基于人工智能的自动化注释工具是不可避免会出现的,但它并不是一个威胁。“自动化注释工具本身就是经过良好注释训练出来的结果。当你试图解决一个问题时,这些工具只能把你带到一定的水平,但是要超越这个水平,你还需要自定义注释,”Natarajan说。 当然,加以一段时间,自动化工具会变的足够有效,从而能够创建更好地数据集。“从更长远的角度来看,我们确实认识到这个行业并不能永久存在。当客户成功时,我们的任务就结束了,”Natarajan说。“但我们也发现,这也并不是一个100%肯定的事情,因为它总是一个持续不断的学习和改进的过程。此外,当客户转向下一个问题时,一切又都从零开始了。” 换句话说,印度的数据标签和注释公司尚未见顶,这一行业可能需要很长时间才会走上业务流程外包的老路。
|