|
Post by account_disabled on Dec 26, 2023 5:41:37 GMT
例如,单词[“search”]代表一个标记。但是,更复杂的单词可以拆分为多个标记,使标记成为单词的一部分。如果我们用 Open AI 测试“你没有投中 100% 的球”这句话,我们会得到 11 个标记。每个单词都是一个单独的标记,像百分号这样的特殊符号也被视为单独的标记,因为它们包含重要信息(例如,句子的结尾或问题的存在)。为了说明这一点,请参见下图: 来源:开放人工智能分词器。 这与人们感知语言和处理知识的方式完全不同。这些 LLM 根据输入的标记化版本预测下一个标记,这在实践中称为提示。大语言模型使用其操作的大量标记词汇为每个标记分配分数或概率。然后,主要目标是确定给定序列中接下来出现的最有可能的延续或单词。这只是文本预测,无法进行任何实际分析。 “……这只是文本预测,它无法真正分析东西……” 我举个例子。 我在网上看到过各种 SEO 场景,不了解 ChatGPT 工作原理的人建议 手机号码数据 在输入框中输入网站链接,并询问有关如何改进网站的 SEO 反馈。但是,该模型无法获取 URL、读取数据并充当针对您的特定案例的免费 SEO 软件。它只是查看您的提示,使用它来筛选经过训练的大量信息,找到您感兴趣的文本数据主题,并返回统计预测的答案。它不会分析网站本身,也没有能力这样做。不过,我将在接下来的部分中讨论其确切的功能和限制。 法学硕士和 Transformer 模型架构背后的科学 本节面向那些想要更深入地了解法学硕士在后台如何工作的人。需要对 NLP、计算机科学和深度学习有基本的了解。如果您对这些先决条件不满意,可以跳过本节并继续下一步。 当第一个 NLP 模型被开发出来时,最初的想法是为每个句子分配一个概率并计算它包含的单词的频率(词袋概念)。 这是对概率建模的一种方法。然而,这种方法有一个主要弱点:它不允许我们评估我们还没有见过的新句子。英语中有超过10万个单词,平均句子长度超过10个单词,我们有大量的句子组合,其中大多数没有被使用,甚至没有意义。因此,为了对语言进行建模,我们需要做的不仅仅是计算存在的句子。我们需要对语法和风格等元素进行建模,以理解语言本身。 如果我们开始将句子视为时间序列数据,其中每个单词都依赖于前一个单词,这会有所帮助。鲍勃·迪伦 (Bob Dylan) 的歌曲“Tangled up in Blue”的歌词示例: 清晨->一->早晨->太阳->太阳->是->照耀->我->是->躺在->在->在->床上 想知道->如果->她->会->改变->它->全部->如果->她->头发->曾经->仍然->红色 让我们将所有 [“was”] 和 [“if”] 实例合并为一个。
|
|