武汉大学计算机学院刘菊华教授谈“大模型研究进展与思考”

2023-10-18 来源：中国社会科学网

微信公众号

— 分享 —

链接已复制

　　中国社会科学网讯（记者李秀伟通讯员鲁彦君）10月11日晚，武汉大学计算机学院教授、博士生导师刘菊华教授应邀作题为“大模型研究进展与思考”的讲座，本次讲座是“武汉大学科学技术哲学论坛”系列线上讲座第六讲。讲座由武汉大学哲学学院程勇教授主持，武汉大学计算机学院武宇教授评议。

程勇主持

武汉大学计算机学院刘菊华教授做线上讲座“大模型研究进展与思考”

　　刘菊华首先回顾了语言、视觉和多模态大模型历史和发展现状。大模型是新一轮人工智能（artificial intelligence，以下简称AI）热潮的焦点，它是通用人工智能的基础模型，具备场景通用、泛化能力强、可规模化复制等优势。大模型的参数规模远超传统小模型，后者针对特定任务来搜集数据和训练模型，因此存在数据标注成本高、模型容量小、模型泛化性差、应用场景受限等问题，大模型通过“高质量数据集构建—大规模预训练—指令微调—基于人类反馈的强化学习—模型轻量化部署”这一新训练范式弥补了上述不足。在大模型智能程度达到了人类所需智能程度的前提下，大模型可以实现通过个人化助手带来多模态自然交互、精准意图识别等体验，助力医学诊断等重要应用。

　　经典大模型包括：（1）语言大模型BERT基于Encoder-only构架，采用掩码语言建模和下一句子是否连续预测进行训练，擅长文本理解；（2）语言大模型GPT，是基于Decoder-only构架，通过给出一段文本让模型预测下一个文本进行训练，擅长文本生成；（3）视觉大模型Vison Transformer，参考了NLP的Transformer结构，直接将图像转化成自然语言中的token序列进行后续处理，后续又推出了Swin Transformer模型。

　　武汉大学计算机学院团队和京东探索研究院合作提出ViTAE Transformer模型，该模型通过结合CNN（卷积神经网络）和Transformer的优势，在引入CNN的局部性和尺度不变性的同时保持Transformer的全局性。后续基于该模型又推出了ViTAEv2 Transformer，其通过将全局MHSA窗口化加速计算，不需要循环窗口操作和相对位置编码，类CNN分层设计使得模型便于迁移大多种下游任务。这两个模型都在ImageNet数据集上表现了出色的分类性能。

　　除此之外，因为我们真实生活的环境是一个多模态环境，将各种模态融合而训练出的大模型才是AI的真正目标，因此越来越多的人也将目光转向了多模态大模型，典型的多模态大模型包括CLIP和BEiT-3，BEiT-3提出后，学界内提出了“多模态大一统”概念。

　　其后，刘菊华介绍了武汉大学计算机学院智能感知与机器学习组所取得的一些研究进展。在语言大模型领域，学习组提出了基于编码增强的自监督预训练方法、基于语义一致Token Dropping的预训练方法和基于知识蒸馏的高效率prompt微调方法等代表性方法。在此基础上，刘菊华团队联合京东探索研究所推出了织女大模型v1和织女大模型v2，通过下游迁移学习，织女模型能够广泛应用于语法纠错、文本匹配、常识推理等多种下游自然语言处理任务，同时接连刷新自然语言理解技术世界记录，分别在全球自然语言处理领域顶级测试GLUE和国际权威复杂语言理解任务SuperGLUE评测中荣登榜首。

　　最后，刘菊华对大模型中存在的风险和伦理问题进行了初步探讨。大模型目前主要面临以下四个问题：（1）幻觉问题：输出结果是看似符合逻辑，但实际上却是错误的或不存在的虚假事实，这一问题的解决有赖于幻觉评估与去除、可控生成成本等；（2）隐私保护问题：大模型可能存储敏感信息，导致隐私泄露、未授权访问等隐私安全问题，需要通过隐私数据检测与去除、隐私计算技术等来解决；（3）价值观问题：大模型可能输出违法有害内容，隐含对某些人类社群的偏见和歧视，违反人类和社会价值观，因此需要基于人类反馈的强化学习对齐人类社会价值观；（4）大模型部署：大模型的参数规模过大，导致大模型在端侧推理速度慢，计算资源消耗大，边缘部署困难，云端协同、模型轻量化等方法是突破的关键。

　　在评议环节，程勇对讲座内容进行了简要总结，随后武宇从原理、发展和应用三个角度，就“大模型中知识何以涌现”“团队在标准榜单上取得优秀成绩的经验”“在大多数企业争相推出基于LLaMa大模型的情况下，为避免资源浪费，应如何实现产业内资源整合”“是否存在更好的方式来避免幻觉问题等技术不足”等问题进行提问。

讲座互动

　　刘菊华做出了回应，首先，他将大模型和参数分别类比为人的大脑和神经元，认为当模型参数规模达到一定程度时，模型的推理过程就能近似于人类大脑的思维方式，如果这种类比成立，那么尽管设计的“神经元”和生物意义上的神经元稍有不同，但在参数规模已超过人脑神经元数量的情况下，出现知识涌现是可以理解的。其次，他谦虚且严谨地表示，团队能以较少参数量的大模型实现比Google等公司开发模型更好的性能，关键原因在于后者通用性更强，而前者是针对特定任务来训练的。再次，过多企业在相同路径下进行研究确实存在重复开发、资源浪费等问题，但是从多样性角度出发，只有从事这一领域的专业人才越多，才有可能将这一领域建设得更好，回顾AI发展历史，可以清楚地看到出现AI浪潮的重要原因就是从事相关研究的人和产业非常多，而相比于此，一个更大的问题则是大模型的评价问题。最后，他指出仅凭计算机科学家无法完全解决幻觉问题，因为只有相关领域专家介入，才能给知识真伪以恰当判断。

　　讲座后的互动交流环节，线上观众对“计算机科学家如何掌握和运行10万亿级别的参数”进行了提问，刘菊华表示目前大模型还存在很多争议，例如增大参数量后，输出结果有时是一本正经的胡说八道，其原因在于现在的大模型类似于黑盒，科学家无法对相关参数进行解释，也因此促使学界强调构建“可信人工智能（Trustworthy AI）”。“黑盒之谜”的解决需要更多数学家和神经科学家的加入，尤其是关于大脑神经元运作机制问题的解决可能是解决当下AI发展潜在瓶颈的钥匙。

　　在热烈的互动交流中，讲座圆满结束。来自国内外的600余名听众参与本次线上讲座。

转载请注明来源：中国社会科学网【编辑：李秀伟实习编辑：陈俊】

社科推荐

学科体系

新媒体矩阵

武汉大学计算机学院刘菊华教授谈“大模型研究进展与思考”