数据稀缺？生成式AI正在学习如何创造自己

财经 2022-03-24 22:50:13

35阅读

“人类一直在努力制造真正智能的机器，也许我们需要让他们自己动手。”《麻省理工评论》的《AI正在学习如何创造自己》文章中写道。

“Generative AI”（生成式AI）是人工智能领域近期的热议话题，《福布斯》3月23日发文《探索生成式AI在各个领域的大量用例》，Gartner在总结2022年最有影响力的5项技术时列入Generative AI，Venture Beat则在3月20日更为直接指出《深度生成模型可以为人工智能提供最有希望的前景》。

所以Generative AI（以下用“生成式AI”）是什么，为什么被赋予这样高的期待？

在回答“是什么”的问题前，可以先理解生成式AI算法希望解决的核心问题：有效数据的稀缺性，以及采样偏差，这些也是机器学习发展的关键瓶颈所在。

生成式AI的突破在于，其可以从现有数据（图像、音频文件、文本）中生成相似的原始数据，如经常产生各种负面用例的Deepfake也属于生成式AI。

“生成模型可能是我们目前最强大的工具，可以利用科学中的大量数据，并用它来提出设计和发现新材料、药物等的起点。”IBM Research的研究人员Matteo Manica在采访中说道，“我们可以创建生成模型来帮助回答我们也不知道从哪里开始的问题，如如何为未知蛋白质寻找新的抗病毒药物，或者我们是否可以制造大气中二氧化碳的催化剂。”

生成式AI有几种模型，最流行的是可以无监督学习的生成对抗网络（GAN），两个神经网络互相竞争，一个做“生成器”——尽可能逼真地生成与输入数据相似的人工数据，一个做“鉴别器”——不断尝试区分真实数据和原始数据。每次测试后，生成器都会调整参数以创建更有说服力的数据，直到不停迭代后鉴别器无法区分真假。

因此，GAN可以创造出具有原作风格的可信新作品，而不是一幅画的复印版。由麻省理工学院(MIT)发起的“认识动物”项目创建了混合动物的逼真图像，展示了这种从头开始创建新数据（称为“合成数据”）的能力。机器学习算法的性能通常与数据量相关。在数据稀缺的某些情况下，使用合成数据可以增加训练集中的数据量（称为数据增强）或改变它。

Venture Beat提到的“深度生成模型”（Deep Generative Models）即除了作为生成模型之外，它们还利用了深度神经网络。神经网络是一种计算架构，它能够随着时间的推移学习新模式——使神经网络“深入”的是模型输入和输出之间多个隐藏“层”推理带来的复杂度提高，使深度神经网络能够处理具有许多变量的极其复杂的数据集。

如蛋白质折叠问题——氨基酸残基形成的长链将会折叠成错综复杂的3D结构。错误折叠的蛋白质有可能引发阿兹海默病、帕金森病、亨廷顿舞蹈病和囊性纤维化等疾病的发生，我们需要发现蛋白质的3D结构，找出哪些药物和化合物与各种类型的人体组织相互作用，以及如何相互作用，这对于药物发现和医学创新至关重要。

但发现蛋白质如何折叠是一个非常困难的问题，科学家需要在分析蛋白质之前溶解和结晶，单个蛋白质的整个过程可能持续数周或数月。传统的深度学习模型也不足以帮助解决蛋白质折叠问题，因为它们的重点主要是对现有数据集进行分类，而不能生成数据输出。

推出蛋白质结构预测算法的DeepMind团队，其命名为AlphaFold的模型可以仅根据基因“代码”预测生成蛋白质的3D形状。通过能够在数小时或数分钟内生成结果，AlphaFold有可能节省数月的实验室工作，并极大地加速几乎所有生物学领域的研究。

但深度生成模型也面临一些明显的技术挑战，如在数据集有限的情况下训练难以得到很好效果以及确保在实际应用中模型能产生始终如一的准确输出。还有伦理问题，深度生成模型的决策过程不可解释，这可能导致AI模型在人类不知情的情况下产生不合理或不道德的偏见，进而产生不准确或具歧视性的输出。

以下为对Hello Future《Generative AI: a new approach to overcome data scarcity》提到的应用案例编译：

合成脑磁共振成像

医学是数据量稀缺的领域之一，因为数据稀有性——具有异常现象的医学图像本身并不常见，同时法律限制对患者病历记录的使用和共享。

2018年，美国的Nvidia公司、Mayo Clinic和MGH&BWH临床数据科学中心的研究人员开发了一种模型，该模型可以生成合成的脑部肿瘤核磁共振成像，从而用于训练深度学习模型。研究团队认为，这些合成图像既是数据增强的补充工具，也是一种有效的匿名化方法。它们提供了低成本的多样数据，从而提高了肿瘤分割（在核磁共振扫描中区分肿瘤组织与正常脑组织的过程）的性能，同时允许不同机构之间的数据共享。

加速药物开发

药理学也可以从这种方法中受益。设计一种新药不仅困难重重，且昂贵耗时：一款药物上市通常需要超过12 年时间，平均花费10亿欧元。成本如此之高的原因之一是：在临床前研究开始之前需要合成数千个分子，以便确定一个候选化合物。这个过程需要使用多目标优化方法来探索广阔的“化学空间”（包含所有可能的分子和化合物、几乎无限的广阔空间），因为人工智能系统必须根据几个关键标准评估这些分子并做出决策，这些标准包括药物的活性、毒性或合成的难易程度。该优化方法需要大量的训练数据，而部分数据可以由生成模型提供。

Insilico Medicine创建了Chemistry42平台，该平台结合了生成算法和强化学习，可在几天内自动找到具有特定属性的全新分子结构（称为“从头”分子设计）。英矽智能已将该平台与其他工具整合，应用于肺部疾病等多个治疗领域。2021年，英矽智能宣布发现了一个具有全新治疗靶点（药物作用于人体的部分，如蛋白质）的全新分子，有望治疗特发性肺纤维化（IPF）。这是全球首例完全由AI发现和设计的分子，用时不到18个月，预算仅为传统研究成本的10%。

咨询公司Gartner表示，到2025年，超过30%的新药和新材料将使用生成式人工智能技术发现。

合成的脑补核磁共振成像

抽样偏差是面部识别技术受到指摘的原因之一。一些面部识别工具存在这样的问题：深肤色人种的识别率低于浅肤色人种，或者女性的识别率低于男性。这些记录在案的偏差，通常与培训数据库中某些群体的代表性不足有关，而这可能导致对部分人口的歧视。

为了避免抽样偏差，人工智能工程师需要能够提现人口多样性的数据集。然而，这些数据集很少，并且由于生物特征数据的敏感性，它们的使用受到限制。

合成数据有助于减少抽样偏差。一开始仍然需要使用真实的面孔来训练生成模型，之后设计人员可以根据不同属性（性别、年龄、肤色等）精细控制合成数据的生成来平衡数据集。

合成数据的另一个好处在于它可以克服敏感数据机密性带来的限制，并降低干预风险。生成模型产生的数据虽然真实，但仍然是不与任何人相关的合成数据。一些研究试图表明合成数据在保护个人隐私的同时，可以与真实数据一样有用。

Datagen、Synthesis AI等公司专门提供合成人脸。在瑞士，由Idiap研究所开展、苏黎世大学和SICPA参与的SAFER项目旨在使用合成人脸创建代表性的数据库，从而用于“合乎伦理的面部识别”工具。

the end

免责声明：本文不代表本站的观点和立场，如有侵权请联系本站删除！本站仅提供信息存储空间服务。

数据稀缺？生成式AI正在学习如何创造自己

精选推荐

随机推荐