全球生命科学领域正面临转型，AI+生命科学元年正在开启

发布时间：2023-12-27 09:00

　　中国人工智能企业天壤自研的深度学习蛋白质折叠预测平台TRFold在基于CASP14(2020年第14届国际蛋白质结构预测竞赛)蛋白质测试集的企业内测中，获得82.7/100的成绩(TM-Score)，已经超过来自华盛顿大学的生物学家DavidBaker团队研发的RoseTTAFold81.3/100的成绩，仅次于AlphaFold2的91.1/100的成绩。在400个氨基酸的蛋白链预测时，TRFold仅耗时16秒。这是目前国内所有公开蛋白质结构预测模型中取得的最好成绩，它标志着中国计算生物学领域的表现已经处于世界第一梯队。
　　在新冠肺炎疫情大流行的背景下，全球生命科学领域正面临转型，AI+生命科学元年正在开启。相信在未来几年内，将有大量的机构和公司加入到技术创新与生命科学研究的热潮中。
　　DeepMind发表语言模型社会危害评估论文
　　2021年12月，DeepMind发表论文，研究预训练语言模型带来的伦理和社会危害。研究者主要探究了模型在六大方面的不良影响，并谈到两个伦理和社会影响方面需要研究者持续关注。一是当前的基准测试工具不足以评估一些伦理和社会危害。例如，当语言模型生成错误信息，人类会相信这种信息为真。评估这种危害需要更多与语言模型进行人机交互。二是对于风险控制的研究依然不足。例如，语言模型会学习复现和放大社会偏见，但是关于这一问题的研究仍处于早期阶段。
　　MIT-IBM 联合实验室基于果蝇大脑构建神经网络学习NLP任务
　　2021年3月，MIT-IBM 联合实验室的研究者基于果蝇大脑中的成熟神经生物学网络模体(Motif)，将结构进行数学形式化后构建神经网络。该网络可以学习语义表征，生成静态的、依赖于上下文的词嵌入。根据实验，该网络的性能不仅可以与现有NLP方法相媲美，内存占用率也更小，需要的训练时间更短。在上下文单词任务中，果蝇网络的表现比GloVe高出近 3%，比Word2Vec高出6%以上。
　　OpenAI提出大规模多模态预训练模型DALL·E和CLIP
　　在大数据、大参数和大算力的支持下，预训练模型能够充分学习文本中的表征，掌握一定的知识。如果模型能够学习多种模态的数据，在图文生成、看图问答等视觉语言(VisionLanguage)任务上具有更强表现。
　　2021年1月，OpenAI同时发布了两个大规模多模态预训练模型——DALL·E和CLIP。DALL·E可以基于短文本提示(如一句话或一段文字)生成对应的图像，CLIP则可以基于文本提示对图片进行分类。OpenAI表示，研发多模态大模型的目标是突破自然语言处理和计算机视觉的界限，实现多模态的人工智能系统。
　　谷歌提出多任务统一模型MUM
　　2021年5月，谷歌在2021IO大会上公开了多任务统一模型(MultitaskUnifiedModel，MUM)的发展情况。MUM模型能够理解75种语言，并预训练了大量的网页数据，擅长理解和解答复杂的决策问题，并能够从跨语言多模态网页数据中寻找信息，在客服、问答、营销等互联网场景中具有应用价值。

全球生命科学领域正面临转型，AI+生命科学元年正在开启

相关推荐