尽管AI由于指数级的发展而变得更加先进,但这种现代技术的局限性仍然存在。
那么,合成数据能否成为所有与AI相关的问题的解决方案?
在第四次工业革命中,每个行业都发现了现代技术的潜力;比如AI和ML。
几乎所有其他组织都在部署AI以创建更高效的业务流程并确保更好的客户满意度。但是,初创企业、SOHO和中小型企业在采用AI时面临一个重大问题——这就是所谓的冷启动问题。虽然初创企业和中小企业一般没有资源收集大数据,但冷启动问题基本上是缺乏此类相关数据。
另一方面,行业巨头已经拥有资源来收集真实世界的数据并将这些数据应用于训练他们的AI系统。因此,对中小型企业的胜算很大。在这种情况下,合成数据可能是必要的启动器。
合成数据可以成为数据驱动的商业模式背后的驱动力。此外,研究表明合成数据产生与真实数据相同的结果。与真实数据相比,合成数据被认为更便宜且处理时间更短。因此,合成数据的出现可以平衡目前由大企业主导的竞争环境,有利于中小企业和初创企业。
发现合成数据的好处
合成数据是基于用户指定参数的计算机生成的人工数据,以确保数据尽可能接近真实世界的历史数据。通常,Unreal引擎和Unity等游戏引擎通常用作模拟环境,用于测试和训练基于AI的应用,例如自动驾驶汽车。基于合成数据开发AI驱动的应用程序有很多优势。其中一些优势包括:
1.开发原型
查找、聚合和建模大量相关的真实数据是一个乏味的过程。因此,生成合成数据可能是最佳解决方案。此类数据将能够在大规模生产之前构建原型并测试此类原型以获得所需的结果。与真实数据相比,使用合成数据构建原型更高效、更具成本效益。
非营利性AI研究企业Open AI正在开发大量基于AI的应用。在这些应用中,研究人员开发了用合成数据训练的机器人,可以在看到一个动作只执行一次后学习一项新任务。一家美国加州科技初创企业正在开发一个AI平台,其愿景类似于Amazon Go。这家初创企业旨在借助合成数据为便利店和零售商提供免结账解决方案。他们还引入了AI驱动的智能系统来监控商店中的每一位购物者,以识别和分析他们的学习模式。
2.确保数据隐私
2018年11月,5亿万豪客户在一次备受瞩目的数据泄露事件中受到影响。在这5亿人中,有3.27亿用户的护照信息、电子邮件地址、邮寄地址和信用卡信息等数据被盗。由于此类事件,人们担心其数据的安全性和隐私性。
合成数据可以有效地解决此类隐私问题。合成数据不包括任何个人数据。因此,可以轻松确保数据隐私。合成数据在为医疗保健应用训练AI系统方面非常有用。AI系统通常需要真实的患者数据。这威胁到患者的隐私。合成数据允许在医疗保健领域开发先进的AI应用程序,同时保持患者的机密性。
例如,来自Nvidia的研究人员正在与明尼苏达州的Mayo Clinic以及波士顿的MGH和BWH临床数据科学中心合作,正在使用生成对抗网络来生成用于训练神经网络的合成数据。生成的合成数据包含来自阿尔茨海默病神经影像学倡议数据集的3,400个MRI和来自多模态脑肿瘤图像分割基准数据集的200个4D脑MRI和肿瘤。同样,模拟X射线也可以与实际X射线一起使用,以训练AI系统识别多种健康状况。
3.前所未有的场景测试和训练
开发AI驱动的应用最重要的过程之一是测试系统性能。如果系统没有产生所需的输出,则需要对其进行重新训练。在这种情况下,合成数据可以证明是有益的。合成数据可以生成场景来测试AI系统,而不是使用真实数据或在真实环境中测试系统。这种方法比获取真实数据便宜且耗时更少。
同样,合成数据还可以针对未来可能出现的缺乏真实数据或事件的场景训练新的或现有的系统。通过这种方法,研究人员可以开发更具未来感的AI应用。此外,使用合成数据重新训练AI系统更简单,因为生成合成数据比收集准确的真实数据要简单。
由于这些好处,合成数据已成为测试和训练自动驾驶汽车的一种可访问的替代方案。许多自动驾驶汽车开发人员正在使用GTA V等模拟游戏环境来训练他们的基于AI的系统。同样,May Mobility正在通过使用合成数据训练他们的车辆来构建自动驾驶微型交通服务。
另一家名为Waymo的自动驾驶汽车开发商已经通过在模拟道路上行驶50亿英里和在真实道路上再行驶800万英里来测试其自动驾驶汽车。合成数据方法允许开发人员在模拟道路上测试他们的自动驾驶汽车,这比在实际道路上直接测试要安全得多。
4.提高数据灵活性
获取真实数据是一个乏味的过程,包括支付注释费用并确保避免任何侵犯版权的行为。此外,真实数据只能用于在特定领域具有足够历史数据的特定场景。与真实数据不同,合成数据可以立即呈现对象、场景、事件和人员的任意组合。合成数据可以生成能够发现利基应用的通用数据集。因此,研究人员可以利用合成数据探索无限的可能性。几家初创企业通过开发满足客户要求的训练数据集,创造了开放的数据经济。
5.探索合成数据的局限性
尽管合成数据可以帮助AI到达未被发现的领域,但其局限性可能成为其主流部署的主要障碍。对于初学者来说,合成数据模拟了真实世界数据的多个属性,但它不会完全复制原始数据。在对此类合成数据进行建模时,AI系统只会在真实数据中寻找共同的趋势和情况。因此,现实世界数据中极端案例中包含的罕见场景可能永远不会包含在合成数据中。
此外,研究人员还没有开发出一种机制来检查数据是否准确。发现真实数据中的缺陷并减少它们比使用合成数据更简单。AI驱动的系统已经有阴暗面这会助长无意的偏见。使用合成数据,预测这种偏见的范围和影响可能还为时过早。
6.克服挑战
企业组织需要了解合成数据是一个相当新的发现。此类数据的效率和准确性还没有根据当前的行业标准进行评估。因此,合成数据不应被视为独立的数据源。尤其是在面临安全问题的应用中,例如医疗保健应用和自动驾驶汽车,合成数据必须与现实世界数据相结合,以开发AI系统。但零售业的应用具有较低的风险因素,很容易依赖合成数据。
出于测试目的,合成数据是一种可行且成本低廉的解决方案。但是,出于其他目的,在采用合成数据作为独立解决方案之前,需要彻底研究和分析AI系统的结果。随着进一步的研究,合成数据对于多种操作可能会变得更加可靠。