发布时间:2023-12-27 09:00
中国人工智能企业天壤自研的深度学习蛋白质折叠预测平台TRFold在基于CASP14(2020年第14届国际蛋白质结构预测竞赛)蛋白质测试集的企业内测中,获得82.7/100的成绩(TM-Score),已经超过来自华盛顿大学的生物学家DavidBaker团队研发的RoseTTAFold81.3/100的成绩,仅次于AlphaFold2的91.1/100的成绩。在400个氨基酸的蛋白链预测时,TRFold仅耗时16秒。这是目前国内所有公开蛋白质结构预测模型中取得的最好成绩,它标志着中国计算生物学领域的表现已经处于世界第一梯队。
在新冠肺炎疫情大流行的背景下,全球生命科学领域正面临转型,AI+生命科学元年正在开启。相信在未来几年内,将有大量的机构和公司加入到技术创新与生命科学研究的热潮中。
DeepMind发表语言模型社会危害评估论文
2021年12月,DeepMind发表论文,研究预训练语言模型带来的伦理和社会危害。研究者主要探究了模型在六大方面的不良影响,并谈到两个伦理和社会影响方面需要研究者持续关注。一是当前的基准测试工具不足以评估一些伦理和社会危害。例如,当语言模型生成错误信息,人类会相信这种信息为真。评估这种危害需要更多与语言模型进行人机交互。二是对于风险控制的研究依然不足。例如,语言模型会学习复现和放大社会偏见,但是关于这一问题的研究仍处于早期阶段。
MIT-IBM 联合实验室基于果蝇大脑构建神经网络学习NLP任务
2021年3月,MIT-IBM 联合实验室的研究者基于果蝇大脑中的成熟神经生物学网络模体(Motif), 将结构进行数学形式化后构建神经网络。该网络可以学习语义表征,生成静态的、依赖于上下文的词嵌入。根据实验,该网络的性能不仅可以与现有NLP方法相媲美,内存占用率也更小,需要的训练时间更短。在上下文单词任务中,果蝇网络的表现比GloVe高出近 3%,比Word2Vec高出6%以上。
OpenAI提出大规模多模态预训练模型DALL·E和CLIP
在大数据、大参数和大算力的支持下,预训练模型能够充分学习文本中的表征,掌握一定的知识。如果模型能够学习多种模态的数据,在图文生成、看图问答等视觉语言(VisionLanguage)任务上具有更强表现。
2021年1月,OpenAI同时发布了两个大规模多模态预训练模型——DALL·E和CLIP。DALL·E可以基于短文本提示(如一句话或一段文字)生成对应的图像,CLIP则可以基于文本提示对图片进行分类。OpenAI表示,研发多模态大模型的目标是突破自然语言处理和计算机视觉的界限,实现多模态的人工智能系统。
谷歌提出多任务统一模型MUM
2021年5月,谷歌在2021IO大会上公开了多任务统一模型(MultitaskUnifiedModel,MUM)的发展情况。MUM模型能够理解75种语言,并预训练了大量的网页数据,擅长理解和解答复杂的决策问题,并能够从跨语言多模态网页数据中寻找信息,在客服、问答、营销等互联网场景中具有应用价值。