近日,德克萨斯大学奥斯汀分校(UT Austin)的 CS388《
自然语言处理
》简明课程放出了全部视频,一共有 98 个视频。
视频地址:https://www.youtube.com/playlist?list=PLofp2YXfp7TZZ5c7HEChs0_wfEfewLDs7
这是一系列线上硕士课程,涵盖
机器学习
和 NLP 基础知识、模型(BERT、BART、T5、GPT-3 等)以及指令调优、思维链、语言与视觉等大型
语言模型
(LLM)相关的热点主题。
该系列课程分为以下 14 周来学习,我们一一来看。
第一周:课程简介和线性分类。具体内容包括线性二元分类、情感分析与基本特征提取、学习基础与
梯度下降
、
感知
机、
逻辑
回归、情感分析、优化基础等。
第二周:多类与神经分类。具体内容包括多类分类、多类
感知
机与
逻辑
回归、多类分类示例、分类公平性、
神经网络
及可视化、前馈
神经网络
与反向传播、
神经网络
实现、
神经网络
训练与优化。
第三周:
词嵌入
。具体内容包括跳幅、
词嵌入
方法、
词嵌入
偏差、应用嵌入与深度平均网络。
第四周:语言建模与
自注意力
。具体内容包括 N-Gram 语言建模及平滑、语言建模评估、自然
语言模型
、循环
神经网络
(RNN)及缺陷、注意力与
自注意力
、多头
自注意力
、位置编码。
第五周:Transformer 与解码。具体内容包括 Transformer 架构、Transformer 语言建模、Transformer 扩展、束搜索。
第六周:预训练与
序列到序列
(seq2seq)语言建模。具体内容包括 BERT 掩码语言建模、BERT 模型与应用、seq2seq 模型、BART、T5、词块与字节对编码。
第七 – 八周:结构化预测:词性与句法分析。具体内容包括
词性标注
、序列标注以及利用分类器标注、
隐马尔可夫模型
(HMM)、HMM
参数
估计与
维特比算法
、
词性标注
HMM、成分句法分析、随机上下文无关文法、CKY 算法、精炼语法、依赖以及基于转换的
依存句法分析
。
第九周:现代大型
语言模型
(LLM)。具体内容包括 GPT-3、零样本提示、少样本提示、上下文内学习(ICL)与感应头(induction head)、指令调优、基于人类反馈的
强化学习
(RLHF)、LLM 的事实性。
第十周:解释。具体内容包括 NLP 可解释性、局部解释、模型探针、文本解释、思维链(CoT)及扩展与分析。
第十一周:问答与
对话系统
。具体内容包括阅读理解入门、设置与基线、开放域问答、多跳问答、对话与
聊天机器人
、任务导向型对话、神经
聊天机器人
。
第十二周:
机器翻译
与摘要。具体内容包括
机器翻译
入门、框架与评估、词对齐与
IBM
模型、基于短语的
机器翻译
、神经
机器翻译
与预训练
机器翻译
、摘要入门、抽取式摘要、预训练摘要及事实性。
第十三 – 十四周:多语言、语言基础与道德问题。具体内容包括跨语言标注与解析、跨语言预训练、语言与视觉、道德偏差、自动标注的风险、不道德使用与前进的道路。
最后介绍一下课程主讲人 Greg Durrett,他是 UT Austin 计算机科学助理教授。
他的研究主要集中在 NLP 领域,其团队致力于改进获取和推理文本知识的技术。最近 GPT-4 等大型
语言模型
(LLM)极大推进了前沿研究,因此团队观察这些 AI 系统成功与失败的地方,以及如何进一步增强它们的能力,特别是通过构建那些将 LLM 用作原语的模块化 NLP 系统。
个人主页:https://www.cs.utexas.edu/~gdurrett/
课程主页:
https://www.cs.utexas.edu/~gdurrett/courses/online-course/materials.html
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...