5月15日下午,开域集团CTO赵宇迪应邀来到传播研究院博士生“信息传播研究专题”课堂,做了题为“从机器学习到AIGC:原理与应用”的讲座。讲座由龚伟亮副教授主持,2023级传播学专业博士生参加。
赵宇迪从AIGC技术在开域产品中的应用、AI和机器学习的基本概念和原理、AIGC大模型的技术原理三个方面,从应用分布到技术逻辑全面深入介绍了AIGC的发展。
赵宇迪指出,2023年,人类社会进入到AI大模型元年,以GPT4.0、LLaMA2为代表的大模型涌现。赵宇迪介绍了不少当下时新有趣的智能应用。人工智能文生视频大模型Sora能创作出以假乱真的视频,但也存在成本高、耗时长的特点。高质量音乐制作平台Suno能够理解歌词的情况下按照不同曲风自动编辑音乐。而在图生软件Animix上传照片、输入描述则可以生成动画,并对画面前后景进行简单处理。
但多模态融合依然面临五大技术难题:高性能推理硬件成本、AI幻觉率、图像多语种文字生成、生成内容一致性和文本生成视频。如何降低成本、提高识别能力、拓展多语种应用场景、保持稳定输出以及生成完备可控的视频依然是当前多模态大模型需要攻克的重点。
为了让同学们更好了解当前智能技术,赵宇迪从基本概念、原理入手为大家深入浅出讲解深度学习的概念。赵宇迪梳理了人工智能、机器学习、神经网络、深度学习等概念,厘清了人工智能与机器学习、深度学习的关系,并讲解了核心算法和具体操作步骤、数学模型公式。
近年来,大语言模型和图像生成模型是业界和学界关注的焦点。赵宇迪以ChatGPT为例,讲解了语言模型的发展运用;并阐述了图像生成模型中Stable Diffusion(稳定扩散)的技术原理和细节。ChatGPT是基于GPT(Generative Pre-trained Transformer)模型开发的一种语言生成工具。GPT模型采用了先进的Transformer架构,这一种架构通过自注意力机制(Self-Attention Mechanism)来捕捉文本中的长距离依赖关系,从而生成连贯且富有逻辑的文本。ChatGPT在此基础上进行了优化和调整,使其更擅长生成对话式的文本内容。Stable Diffusion是一种基于神经网络的图像生成方法,它利用了扩散模型的优势,能够在短时间内生成高质量的图像。其核心在于利用扩散过程来模拟图像生成。在这个过程中,系统会从高斯噪声开始,逐步添加信息以生成最终的图像。
在课程结尾,针对技术的伦理问题、国内外技术对比以及人机关系,赵宇迪和同学们进行了热烈的讨论。
主讲人:赵宇迪,开域集团CTO。本硕毕业于清华大学计算机科学与技术系,历任无双科技CTO、Qunar高级系统架构师、IBM解决方案架构师。带领团队研发了开域AIGC平台、商业空间数字化AI分析平台、百亿级广告投放和分析系统、大规模机票酒店搜索引擎等诸多产品和系统。在AIGC、视觉AI分析、大数据、高并发系统等研发方向有丰富经验。