大语言模型如何在加密领域生根发芽？

作者：Yiping, IOSG Ventures

本文为IOSG原创内容，仅做行业学习交流之用，不构成任何投资参考。如需引用，请注明来源，转载请联系IOSG团队获取授权及转载须知。

写在前面

随着大语言模型（LLM）日益蓬勃，我们看见不少项目正在将人工智能（AI）和区块链融合。LLM 和区块链的结合越来越多，我们也看到人工智能重新与区块链融合的机会。其中值得一提的，当属零知识机器学习（ZKML）。
人工智能和区块链是两种具有根本性差异特征的变革性技术。人工智能需要强大的计算能力，通常由中心化的数据中心提供。而区块链提供了去中心化的计算和隐私保护，在需要进行大规模计算和存储任务上表现不佳。我们仍在探索和研究人工智能和区块链集成的最佳实践，后续也将向大家介绍目前一些”AI + 区块链”结合的项目案例。

大语言模型如何在加密领域生根发芽？

Source: IOSG Ventures

本篇研究报告分为上下两部发表，本文为上部，我们将重点关注 LLM 在加密领域的应用，并探讨应用落地的策略。

LLM 是什么？

LLM（大语言模型）是一种计算机化语言模型，由一个具有大量参数（通常为数十亿）的人工神经网络组成。这些模型在大量未标记的文本上进行训练。

2018年前后，LLM 的诞生彻底改变了自然语言处理的研究。与以往需要为特定任务训练特定监督模型的方法不同，LLM 作为一个通用模型，在各种任务上都表现出色。其能力和应用包括：

理解和总结文本：LLM 可以理解和总结大量的人类语言和文本数据。它们可以提取关键信息并生成简洁的摘要。
生成新内容：LLM 具有生成基于文本内容的能力。通过向模型提供 prompt，它可以回答问题、新生成的文本、摘要或情感分析。
翻译：LLM 可用于在不同语言之间进行翻译。它们利用深度学习算法和神经网络来理解词汇之间的上下文和关系。
预测和生成文本：LLM 可以基于上下文背景预测并生成文本，与人类生成的内容类似，包括歌曲、诗歌、故事、营销材料等。
在各个领域的应用：大型语言模型在自然语言处理任务中具有广泛的适用性。它们被用于对话式人工智能、聊天机器人、医疗保健、软件开发、搜索引擎、辅导、写作工具等众多领域。

LLM 的优势包括其对大量数据的理解能力、执行多种语言相关任务的能力，以及根据用户需求定制化结果的潜力。

常见的大型语言模型应用

由于其出众得自然语言理解能力，LLM 具有相当大的潜力，而开发者主要关注以下两个方面：

基于大量的上下文数据和内容，为用户提供准确的并且最新的答案
通过使用不同的代理和工具完成用户下达的特定任务

正是这两个方面让与 XX 聊天的 LLM 应用如雨后春笋般爆发。例如，与 PDF 聊天、与文档聊天以及与学术论文聊天。

随后，人们尝试将 LLM 与各种数据源融合。开发者已成功将平台，如 Github、Notion 和一些笔记软件与 LLM 整合。

为了克服 LLM 固有的限制，不同的工具被纳入了系统中。第一个这样的工具是搜索引擎，为 LLM 提供了访问最新知识的能力。进一步的进展将把 WolframAlpha、Google Suites 和 Etherscan 等工具与大型语言模型整合。

LLM Apps 的架构

下图概述了LLM应用在回应用户查询时的流程：首先，相关的数据源被转换为嵌入向量并存储在向量数据库中。LLM 适配器使用用户查询和相似性搜索从向量数据库中找到相关的上下文。相关的上下文被放入 Prompt 中并发送给 LLM 。LLM 将执行这些 Prompt，并使用工具生成回答。有时，LLM 会在特定数据集上进行调优，以提高准确性并降低成本。

大语言模型如何在加密领域生根发芽？

LLM 应用的工作流程可以大致分为三个主要阶段：

数据准备和嵌入：该阶段涉及将机密信息（例如项目备忘录）保留以供将来访问。通常，文件会被分割，并通过嵌入模型进行处理，保存在一种特殊类型的数据库中，称为向量数据库。
Prompt 的构建（Formulation）和提取（Extraction）：当用户提交搜索请求（在本例中，搜索项目信息）时，软件会创建一系列 Prompt，输入到语言模型中。最终的 Prompt 通常包含由软件开发人员硬编码的提示模板，作为 few-shot 示例的有效输出示例，以及从外部 API 获取的任何所需数以及向量数据库中提取的相关文件。
Prompt 的执行和推理：完成 Prompt 后，将它们提供给预先存在的语言模型进行推理，这可能包括专有模型 API 、开源或经过个别微调的模型。在此阶段，一些开发人员可能还会将操作系统（如日志记录、缓存和验证）整合到系统中。

将 LLM 引入加密领域

尽管加密领域（Web3）与Web2有一些类似的应用，但在加密领域中开发出优秀的 LLM 应用需要尤其谨慎。

加密生态系统独特，具有其特有的文化、数据和融合性。在这些加密限定的数据集上微调的 LLM 可以以相对较低的成本提供优越的结果。虽然数据丰富可得，但在类似 HuggingFace 等平台上明显缺乏开放数据集的。目前，只有一个与智能合约相关的数据集，其中包含 11.3 万个智能合约。

开发者还面临将不同工具整合到 LLM 中的挑战。这些工具与 Web2 中使用的工具不同，它们赋予 LLM 访问与交易相关的数据、与去中心化应用（Dapp）互动以及执行交易的能力。到目前为止，我们还没有在 Langchain 中找到任何 Dapp 的集成。

尽管开发高质量的加密 LLM 应用可能需要额外的投入，但 LLM 天然适合加密领域。这个领域提供了丰富的、干净的、结构化的数据。再加上 Solidity 代码通常简洁明了，这使得 LLM 更容易生成功能性的代码。

在《下部》中，我们将讨论 LLM 可以帮助区块链领域的8个潜在方向，如：

将内置的人工智能/LLM功能集成到区块链中

使用 LLM 分析交易记录
使用 LLM 识别潜在的机器人
使用 LLM 编写代码
使用 LLM 阅读代码
使用 LLM 帮助社区
使用 LLM 跟踪市场
使用 LLM 分析项目

大语言模型如何在加密领域生根发芽？