以下为《ChatGPT科普》的无排版文字预览,完整格式请下载
下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。
非严谨资料 仅供科普使用 内容含杜撰成分 请勿采信 后果自负
ChatGPT
2023.02
整理人:
SJB
清华金融硕 、北大计算机硕 法考/保某某(未注册)/CPA
/
非严谨资料 仅供科普使用 内容含杜撰成分 请勿采信 后果自负
目录
一.GPT系列模型
二.其他相关情况
/
非严谨资料 仅供科普使用 内容含杜撰成分 请勿采信 后果自负
一 、 GPT系列模型: 引入思考范式
??科研=方法效果好坏×方法创新程度×想解决的问题本身的大小
??工程=人力+物力+时间
??科研由引用量驱动,工程由商业化前景驱动
??AI小模型和大模型不是一个东西,AI小模型擅长领域狭窄 、任务明确的情形 (比如 烧在芯//的/LOS/B法硬件) ,AI大模型具备AGI雏形 (数字人,能通过图灵测试)
??人类擅长在通识基础上,想象 、创造 、推理
??AI迭代是靠“科研 、 工程 、算力 、数据 、解决方案”循环迭代,其中每个环节的一篇论 文就可能让全行业都动起来
/
非严谨资料 仅供科普使用 内容含杜撰成分 请勿采信 后果自负
一 、 GPT系列模型:2017.06-2020.08
《Improving Language
Understanding by
Generative Pre-Training》
GPT模型
2018年6月
https://gpt3demo.com/
包含587种调用GPT-3的API的应用,其中:
—— LLMs (此处是指微调GPT-3得到的大语言模型,使其更适用于具体场景) 有42款 ——聊天机器人有33款
——AI写作有51款
—— 图像生成有24款
/
非严谨资料 仅供科普使用 内容含杜撰成分 请勿采信 后果自负
一 、 GPT系列模型:2017.06-2020.08
Switch Transformer
2018年10月
Transformer ( 0.65亿参数) :Transformer中间模块包括编码器 、解码器,字节李航认为这个模块思想目前还是一统天下的 ,OpenAI Altman也认为其效 果拔群 。该论文发布前,nlp主要还是靠RNN,可学习参数是, Transformer不是工程不是产品,只是重大科研成果。
GPT ( 1.17亿参数) :在Transformer之后一年发布,核心技术是拿出Transformer的解码器 (擅长后推) ,然后在无标注数据 (驾驭大数据) 上训一个 pre-train模型,然后在去逐个针对子任务做微调 。pre-train模型打造一个身体素质都很好的士兵,微调他去完成侦查 、泅渡 、消防等等任务,文本推断、 QA问答 、语义相似度匹配 、文本分类等每个任务都需要一个微调过程。
Bert (3亿参数) :核心技术是拿出Transformer的编码器 (擅长后推和前推) ,用了更大数据集,有bert base和bert large两个模型,据说文章在一两个 月完成 (暗指参考GPT) 。
GPT-2 ( 15亿参数) :训练的数据取自于Reddit上高 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 比GPT-2数据和模型增大了100多倍, 出现了惊艳的效果 。论文是公开的但是没有发表,31个作者, 63页,作者多是因为实验太多了,工作量太大了 。GPT-3不使用微调了, 1750亿个可学习参数的模型,训练是在分布式机器上训的,微调来更新梯度是 很困难的事情 。只要在问题描述中,把任务讲清楚就好了,如果问题中带上一个例子,模型会更容易理解和解答 (Few-shots) 。
Switch Transformer ( 1.6万亿参数) :“稀疏激活” (很多参数变成0) 和“软硬结合“ (为算法而设计硬件环境) 。训练速度是T5的4-7倍,着眼于参数量。
/
[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]
以上为《ChatGPT科普》的无排版文字预览,完整格式请下载
下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。