深度研报(上篇):AI与Web3数据行业融合现状、竞争格局与未来机遇探析
GPT的横空出世将全球的目光吸引至大语言模型,各行各业都尝试着利用这个“黑科技”提高工作效率,加速行业发展。Future3 Campus携手Footprint Analytics共同深入研究AI与Web3结合的无限可能,联合发布了《AI与Web3数据行业融合现状、竞争格局与未来机遇探析》研报。该研报分为上下两篇,本文为上篇,由Footprint Analytics研究员Lesley、Shelly共同编撰。
摘要:
-
LLM 技术的发展让人们更加关注 AI 与 Web3 的结合,新的应用范式正在逐步展开。本文中,我们将重点研究如何利用 AI 提升 Web3 数据的使用体验和生产效率。
-
由于行业尚处早期阶段和区块链技术的特性,Web3 数据行业面临着诸多挑战,包括数据来源、更新频率、匿名属性等,使得利用 AI 解决这些问题成为新关注点。
-
LLM 相对于传统人工智能的可扩展性、适应性、效率提升、任务分解、可访问性和易用性等优势,为提高区块链数据的体验和生产效率提供了想象空间。
-
LLM 需要大量高质量数据进行训练,而区块链领域垂直知识丰富且数据公开,可以为 LLM 提供学习素材。
-
LLM 也可以帮助生产和提升区块链数据的价值,例如数据清洗、标注、生成结构化数据等。
-
LLM 不是万灵药,需要针对具体业务需求进行应用。既要利用 LLM 的高效率,同时也要注意结果的准确性。
AI 与 Web3 的发展与结合
1.1 AI 的发展历史
人工智能(AI)的历史可以追溯到上个世纪 50 年代。自 1956 年起,人们开始关注人工智能这一领域,逐渐发展出了早期的专家系统,帮助专业领域解决问题。此后,机器学习的兴起,拓展了 AI 的应用领域,AI 开始更广泛地应用在各行各业。到如今,深度学习和生成式人工智能爆发,带给了人们无限可能性,其中的每一步都充满了不断的挑战与创新,以追求更高的智能水平和更广泛的应用领域。
图 1:AI 发展历程
2022 年 11 月 30 日,ChatGPT 面世,首次展示了 AI 与人类低门槛、高效率交互的可能性。ChatGPT 引发了对人工智能的更广泛探讨,重新定义了与 AI 互动的方式,使其变得更加高效、直观和人性化,也推动了人们对更多生成式人工智能的关注,Anthropic(Amazon)、DeepMind(Google)、Llama 等模型也随后进入人们的视野。与此同时,各行各业的从业者也开始积极探索 AI 会如何推动他们所在领域的发展,或者寻求通过与 AI 技术的结合在行业中脱颖而出,进一步加速了 AI 在各个领域的渗透。
1.2 AI 与 Web3 的交融
Web3 的愿景从改革金融体系开始,旨在实现更多的用户权力,并有望引领现代经济和文化的转变。区块链技术为实现这一目标提供了坚实的技术基础,它不仅重新设计了价值传输和激励机制,还为资源分配和权力分散提供了支持。
图 2:Web3 发展历程
早在 2020 年,区块链领域的投资公司 Fourth Revolution Capital(4RC)就曾指出,区块链技术将和 AI 结合,通过对金融、医疗、电子商务、娱乐等全球行业的去中心化,以实现对现有行业的颠覆。
目前,AI 与 Web3 的结合,主要是两大方向:
-
利用 AI 去提升生产力以及用户体验。
-
结合区块链透明、安全、去中心化存储、可追溯、可验证的技术特点,以及 Web3 去中心化的生产关系,解决传统技术无法解决的痛点或者激励社区参与,提高生产效率。
市场上 AI 与 Web3 的结合有以下的一些探索方向:
图 3:AI 与 Web3 结合全景图
-
数据:区块链技术可以应用在模型数据存储上,提供加密数据集,保护数据隐私和记录模型使用数据的来源、使用情况,以及校验数据的真实性。通过访问和分析存储在区块链上的数据,AI 可以提取有价值的信息,并用于模型训练和优化。同时,AI 也可以作为数据生产工具,去提高 Web3 数据的生产效率。
-
算法:Web3 中的算法可以为 AI 提供更安全、可信和自主控制的计算环境,为 AI 体统提供加密保障,在模型参数上,内嵌安全防护栏,防止系统被滥用或者恶意操作。AI 可以与 Web3 中的算法进行交互,例如利用智能合约执行任务、验证数据和执行决策。同时,AI 的算法也可以为 Web3 提供更智能化和高效的决策和服务。
-
算力:Web3 的分散式计算资源可以为 AI 提供高性能的计算能力。AI 可以利用 Web3 中的分散式计算资源进行模型的训练、数据分析和预测。通过将计算任务分发到网络上的多个节点,AI 可以加快计算速度,并处理更大规模的数据。
在本文中,我们将重点探索如何利用 AI 的技术,去提升 Web3 数据的生产效率以及使用体验。
Web3数据现状
2.1 Web2 & Web3 数据行业对比
作为 AI 最核心的组成部分“数据”,在 Web3 跟我们熟悉的 Web2 很着很多的区别。差异主要是在于 Web2 以及 Web3 本身的应用架构导致其产生的数据特征有所不同。
2.1.1 Web2 & Web3 应用架构对比
图 4:Web2 & Web3 应用架构
在 Web2 架构中,通常是由单一实体(通常是一家公司)来控制网页或者 APP,公司对于他们构建的内容有着绝对的控制权,他们可以决定谁可以访问其服务器上的内容和逻辑,以及用户拥有怎样的权益,还可以决定这些内容在网上存在的时长。不少案例表明,互联网公司有权改变其平台上的规则,甚至中止为用户提供服务,而用户对此无法保留所创造的价值。
而 Web3 架构则借助了通用状态层(Universal State Layer)的概念,将一部分或者全部的内容和逻辑放置在公共区块链上。这些内容和逻辑是公开记录在区块链上的,可供所有人访问,用户可以直接控制链上内容和逻辑。而在 Web2 中,用户需要帐户或 API 密钥才能与区块链上的内容进行交互。用户可以直接控制其对应的链上内容和逻辑。不同于 Web2,Web3 用户无需授权帐户或 API 密钥就能与区块链上的内容进行交互(特定管理操作除外)。
2.1.2 Web2 与 Web3 数据特征对比
图 5:Web2 与 Web3 数据特征对比
Web2 数据通常表现为封闭和高度受限的,具有复杂的权限控制,高度成熟、多种数据格式、严格遵循行业标准,以及复杂的业务逻辑抽象。这些数据规模庞大,但互操作性相对较低,通常存储在中央服务器上,且不注重隐私保护,大多数是非匿名的。
相比之下,Web3 数据更加开放,访问权限更广泛,尽管成熟度较低,以非结构化数据为主,标准化较为罕见,业务逻辑抽象相对简化。Web3 的数据规模相对 Web2 较小,但它具有较高的互操作性(比如 EVM 兼容),并可分散或集中存储数据,同时强调用户隐私,用户通常采用匿名方式进行链上交互。
2.2 Web3 数据行业现状与前景,以及遇到的挑战
在 Web2 时代,数据如石油的“储量”般珍贵,访问和获取大规模数据一直是极大的挑战。在 Web3 中,数据的开放性和共享性一下子让大家觉得“石油到处都是”,使得 AI 模型能够更轻松地获取更多的训练数据,这对于提高模型性能和智能水平至关重要。但对 Web3 这个“新石油” 的数据处理依然有很多问题待解决,主要有以下几个:
-
数据来源:链上数据“标准”繁杂分散,数据处理花费大量人工成本
处理链上数据时,需要反复执行耗时而劳动密集的索引过程,需要开发者和数据分析师花费大量时间和资源来适应不同链、不同项目之间的数据差异。链上数据行业缺乏统一的生产和处理标准,除了记录到区块链账本上的,events,logs,and traces 等都基本上是项目自己定义和生产(或生成)的,这导致非专业交易者很难辨别并找到最准确和可信的数据,增加了他们在链上交易和投资决策中的困难。比如,去中心化交易所 Uniswap 和 Pancakeswap 就有可能在数据处理方法和数据口径上存在差异,过程中的检查和统一口径等工序进一步加大了数据处理的复杂性。
-
数据更新:链上数据体量大且更新频率高,难以及时地处理成结构化数据
区块链是时刻变动的,数据更新以秒甚至毫秒级别计。数据的频繁产生和更新使其难以维持高质量的数据处理和及时的更新。因此,自动化的处理流程是十分重要的,这也是对于数据处理的成本和效率的一大挑战。Web3 数据行业仍处于初级阶段。随着新合约的层出不穷和迭代更新,数据缺乏标准、格式多样,进一步增加了数据处理的复杂性。
-
数据分析:链上数据的匿名属性,导致数据身份难以区分
链上数据通常不包含足够的信息来清晰识别每个地址的身份,这使得数据在与链下的经济、社会或法律动向难以联动。但是链上数据的动向与现实世界紧密相关,了解链上活动与现实世界中特定个体或实体的关联性对于特定的场景比如数据分析来说十分重要。
随着大语言模型(LLM)技术引发的生产力变更讨论,能否利用 AI 来解决这些挑战也成为 Web3 领域的一个焦点关注之一。
AI 与 Web3 数据碰撞产生的化学反应
3.1 传统 AI 与 LLM 的特征对比
在模型训练方面,传统 AI 模型通常规模较小,参数数量在数万到数百万之间,但为了确保输出结果的准确性,需要大量的人工标注数据。LLM 之所以如此强大,部分原因在于其使用了海量的语料拟合百亿、千亿级以上的参数,极大地提升了它对自然语言的理解能力,但这也意味着需要更多的数据来进行训练,训练成本相当高昂。
在能力范围和运行方式上,传统 AI 更适合特定领域的任务,能够提供相对精准和专业的答案。相比之下,LLM 更适合通用性任务,但容易产生幻觉问题,这意味着在一些情况下,它的回答可能不够精确或专业,甚至完全错误。因此,如果需要和客观,可信任,和可以追溯的结果,可能需要进行多次检查、多次训练或引入额外的纠错机制和框架。
图 6:传统 AI 与大模型语言模型 (LLM)的特征对比
3.1.1 传统 AI 在 Web3 数据领域的实践
传统 AI 已经在区块链数据行业展现了其重要性,为这一领域带来了更多创新和效率。例如,0xScope 团队采用 AI 技术,构建了基于图计算的群集分析算法,通过不同规则的权重分配来帮助准确识别用户之间的相关地址。这种深度学习算法的应用提高了地址群集的准确性,为数据分析提供了更精确的工具。Nansen 则将 AI 用于 NFT 价格预测,通过数据分析和自然语言处理技术,提供有关 NFT 市场趋势的见解。另一方面,Trusta Labs使用了基于资产图谱挖掘和用户行为序列分析的机器学习方法,以增强其女巫检测解决方案的可靠性和稳定性,有助于维护区块链网络生态的安全。另一方面,Trusta Labs 采用了图挖掘和用户行为分析的方法,以增强其女巫检测解决方案的可靠性和稳定性,有助于维护区块链网络的安全。Goplus 在其运营中利用传统人工智能来提高去中心化应用程序(dApps)的安全性和效率。他们收集和分析来自 dApp 的安全信息,提供快速风险警报,帮助降低这些平台的风险敞口。这包括通过评估开源状态和潜在恶意行为等因素来检测 dApp 主合同中的风险,以及收集详细的审计信息,包括审计公司凭证、审计时间和审计报告链接。Footprint Analytics 则使用 AI 生成生产结构化数据的代码,分析 NFT 交易 Wash trading 交易以及机器人账户筛选排查。
然而,传统 AI 拥有的信息有限,专注于使用预定的算法和规则执行预设任务,而 LLM 则通过大规模的自然语言数据学习,可以理解和生成自然语言,这使其更适合处理复杂且巨量的文本数据。
最近,随着 LLM 取得了显著进展,人们对 AI 与 Web3 数据的结合,也进行了一些新的思考与探索。
3.1.2 LLM 的优势
LLM 相对于传统人工智能具有以下优势:
-
可扩展性:LLM 支持大规模数据处理
LLM 在可扩展性方面表现出色,能够高效处理大量数据和用户互动。这使其非常适合处理需要大规模信息处理的任务,如文本分析或者大规模数据清洗。其高度的数据处理能力为区块链数据行业提供了强大的分析和应用潜力。
-
适应性:LLM 可学习适应多领域需求
LLM 具备卓越的适应性,可以为特定任务进行微调或嵌入行业或私有数据库,使其能够迅速学习和适应不同领域的细微差别。这一特性使 LLM 成为了解决多领域、多用途问题的理想选择,为区块链应用的多样性提供了更广泛的支持。
-
提高效率:LLM 自动化任务提高效率
LLM 的高效率为区块链数据行业带来了显著的便利。它能够自动化原本需要大量人工时间和资源的任务,从而提高生产力并降低成本。LLM 可以在几秒内生成大量文本、分析海量数据集,或执行多种重复性任务,从而减少了等待和处理时间,使区块链数据处理更加高效。
-
任务分解:可以生成某些工作的具体计划,把大的工作分成小步骤
LLM Agent 具备独特的能力,即可以生成某些工作的具体计划,将复杂任务分解为可管理的小步骤。这一特性对于处理大规模的区块链数据和执行复杂的数据分析任务非常有益。通过将大型工作分解成小任务,LLM 可以更好地管理数据处理流程,并输出高质量的分析。
这一能力对于执行复杂任务的 AI 系统至关重要,例如机器人自动化、项目管理和自然语言理解与生成,使其能够将高级任务目标转化为详细的行动路线,提高任务执行的效率和准确性。
-
可访问性和易用性:LLM 以自然语言提供用户友好互动
LLM 的可访问性使更多用户能够轻松与数据和系统进行互动,让这些互动更加用户友好。通过自然语言,LLM 使数据和系统更容易访问和交互,无需用户学习复杂的技术术语或特定命令,例如,SQL,R,Python 等来做数据获取和分析。这一特性拓宽了区块链应用的受众范围,让更多的人能够访问和使用 Web3 应用和服务,不论他们是否精通技术,从而促进了区块链数据行业的发展和普及。
3.2 LLM 与 Web3 数据的融合
图 7:区块链数据与 LLM 的融合
大型语言模型的培训需要依赖大规模数据,通过学习数据中的模式来建立模型。区块链数据中蕴含的交互和行为模式是 LLM 学习的燃料。数据量和质量也直接影响 LLM 模型的学习效果。
数据不仅仅是 LLM 的消耗品,LLM 还有助于生产数据,甚至可以提供反馈。例如,LLM 可以协助数据分析师在数据预处理方面做出贡献,如数据清洗和标注,或者生成结构化数据,清除数据中的噪声,凸显有效信息。
3.3 增强 LLM 的常用技术解决方案
ChatGPT 的出现,不仅向我们展示了 LLM 解决复杂问题的通用能力,同时也引发了全球范围的,对在通用能力上去叠加外部能力的探索。这里包括,通用能力的增强(包括上下文长度、复杂推理、数学、代码、多模态等)以及外部能力的扩充(处理非结构化数据、使用更复杂的工具、与物理世界的交互等)。如何将 crypto 领域的专有知识以及个人的个性化私有数据嫁接到大模型的通用能力上,是大模型在 crypto 垂直领域商业化落地的核心技术问题。
目前,大多数应用都集中在检索增强生成(RAG)上,比如提示工程和嵌入技术,已经存在的代理工具也大多都聚焦于提高 RAG 工作的效率和准确性。市场上主要的基于 LLM 技术的应用栈的参考架构有以下几种:
-
Prompt Engineering
图 8:Prompt Engineering
当前,大多数从业者在构建应用时采用基础解决方案,即 Prompt Engineering。这一方法通过设计特定的 Prompt 来改变模型的输入,以满足特定应用的需求,是最方便快捷的做法。然而,基础的 Prompt Engineering 存在一些限制,如数据库更新不及时、内容冗杂、以及对输入上下文长度(In-Context Length)的支持和多轮问答的限制。
因此,行业内也在研究更先进的改进方案,包括嵌入(Embedding)和微调(Fine-tuning)。
-
嵌入(Embedding)
嵌入(Embedding)是一种广泛应用于人工智能领域的数据表示方法,能高效捕获对象的语义信息。通过将对象属性映射成向量形式,嵌入技术能够通过分析向量之间的相互关系,快速找到最有可能正确的答案。嵌入可以在 LLM 的基础上构建,以利用该模型在广泛语料上学到的丰富语言知识。通过嵌入技术将特定任务或领域的信息引入到预训练的大模型中,使得模型更专业化,更适应特定任务,同时保留了基础模型的通用性。
用通俗的话来讲,嵌入就类似于你给一个经过综合训练的大学生一本工具书,让他拿着拥有特定任务相关知识的工具书去完成任务,他可以随时查阅工具书,然后可以解决特定的问题。
-
微调(Fine-tuning)
图 9:Fine Tuning
微调(Fine-tuning)与嵌入不同,通过更新已经预训练的语言模型的参数,使其适应特定任务。这种方法允许模型在特定任务上表现出更好的性能,同时保持通用性。微调的核心思想是调整模型参数,捕捉与目标任务相关的特定模式和关系。但微调的模型通用能力上限仍然受限于基座模型本身。
用通俗的话来讲,微调就类似于给经过综合训练的大学生上专业知识课程,让他掌握除了综合能力以外的专业课知识,能自行解决专业板块的问题。
-
重新训练 LLM
当前的 LLM 虽然强大,但不一定能够满足所有需求。重新训练 LLM 是一种高度定制化的解决方案,通过引入新数据集和调整模型权重,使其更适应特定任务、需求或领域。然而,这种方法需要大量计算资源和数据,并且管理和维护重新训练后的模型也是挑战之一。
-
Agent 模型
图 10:Agent 模型
Agent 模型是一种构建智能代理的方法,它以 LLM 作为核心控制器。这个系统还包括几个关键组成部分,以提供更全面的智能。
-
Planning,规划:将大任务分成小任务,这样更容易完成
-
Memory,反思:通过反思过去的行为,改进未来的计划
-
Tools,工具使用:代理可以调用外部工具获取更多信息,如调用搜索引擎、计算器等
人工智能代理模型具备强大的语言理解和生成能力,能够解决通用问题,进行任务分解以及自我反思。这使得它在各种应用中都有广泛的潜力。然而,代理模型也存在一些局限性,例如受到上下文长度的限制、长期规划和任务拆分容易出错、输出内容的可靠性不稳定等问题。这些局限性需要长期不断的研究和创新,以进一步拓展代理模型在不同领域的应用。
以上的各种技术并不是相互排斥的,它们可以在训练和增强同一个模型的过程中一起使用。开发者可以充分发挥现有大语言模型的潜力,尝试不同的方法,以满足日益复杂的应用需求。这种综合使用不仅有助于提高模型的性能,还有助于推动 Web3 技术的快速创新和进步。
然而,我们认为,虽然现有的 LLM 已经在 Web3 的快速发展中发挥了重要作用,但在充分尝试这些现有模型(如 OpenAI、Llama 2 以及其他开源 LLM)之前,我们可以从浅入深,从 prompt engineering 和嵌入等 RAG 策略入手,谨慎考虑微调和重新训练基础模型。
3.4 LLM 如何加速区块链数据生产的各个流程
3.4.1 区块链数据的一般处理流程
当今,区块链领域的建设者逐渐认识到数据产品的价值。这一价值覆盖了产品运营监控、预测模型、推荐系统以及数据驱动的应用程序等多个领域。尽管这一认知逐渐增强,但作为数据获取到数据应用中不可或缺的关键步骤,数据处理往往被忽视。
图 11:区块链数据处理流程
-
将区块链原始非结构化数据,如 events 或 logs 等,转换为结构化的数据
区块链上的每一笔交易或事件都会生成 events 或 logs,这些数据通常是非结构化的。这一步骤是获取数据的第一入口,但数据仍然需要被进一步处理以提取有用信息,得到结构化的原始数据。这包括整理数据、处理异常情况和转化为通用格式。
-
将结构化的原始数据,转换为具有业务意义的抽象表
在得到结构化原始数据后,需要进一步进行业务抽象,将数据映射到业务实体和指标上,比如交易量、用户量等业务指标,将原始数据转化为对业务和决策有意义的数据。
-
从抽象表中,计算提取业务指标
有了抽象的业务数据后,可以在业务抽象的数据上进行进一步计算,就可以得出各种重要的衍生指标。例如交易总额的月增长率、用户留存率等核心指标。这些指标可以借助 SQL、Python 等工具实现,更加有可能帮助监控业务健康、了解用户行为和趋势,从而支持决策和战略规划。
3.4.2 区块链数据生成流程加入 LLM 后的优化
LLM 在区块链数据处理中可以解决多个问题,包括但不限于以下内容:
处理非结构化数据:
-
从交易日志和事件中提取结构化信息:LLM 可以分析区块链的交易日志和事件,提取其中的关键信息,如交易金额、交易方地址、时间戳等,将非结构化数据转化为的带有业务意义的数据,使其更易于分析和理解。
-
清洗数据,识别异常数据:LLM 可以自动识别和清洗不一致或异常的数据,帮助确保数据的准确性和一致性,从而提高数据质量。
进行业务抽象:
-
将原始链上数据映射到业务实体:LLM 可以将原始区块链数据映射到业务实体,例如将区块链地址映射到实际用户或资产,从而使业务处理更加直观和有效。
-
处理非结构化链上内容,打标签:LLM 可以分析非结构化数据,如 Twitter 情感分析结果,将其标记为正面、负面或中性情感,从而帮助用户更好地理解社交媒体上的情感倾向。
自然语言解读数据:
-
计算核心指标:基于业务抽象,LLM 可以计算核心业务指标,如用户交易量、资产价值、市场份额等,以帮助用户更好地了解其业务的关键性能。
-
查询数据:LLM 可以通过 AIGC,理解用户意图,生成 SQL 查询,使用户能够以自然语言提出查询请求,而不必编写复杂的 SQL 查询语句。这增加了数据库查询的可访问性。
-
指标选择、排序和相关性分析:LLM 可以帮助用户选择、排序和分析不同的多个指标,以更好地理解它们之间的关系和相关性,从而支持更深入的数据分析和决策制定。
-
产生业务抽象的自然语言描述:LLM 可以根据事实数据,生成自然语言摘要或解释,以帮助用户更好地理解业务抽象和数据指标,提高可解释性,并使决策更具合理性。
3.5 目前用例
根据 LLM 自身的技术以及产品体验优势,它可以被应用到不同的链上数据场景,技术上从易到难可以将这些场景分成四类:
-
数据转换:进行数据增强、重构等操作,如文本摘要、分类、信息抽取。这类应用开发较快,但更适合通用场景,不太适合大量数据的简单批量化处理。
-
自然语言接口:将 LLM 连接知识库或工具,实现问答或基本工具使用的自动化。这可以用于构建专业聊天机器人,但其实际价值受其所连接的知识库质量等其他因素影响。
-
工作流自动化:使用 LLM 实现业务流程的标准化和自动化。这可以应用于较复杂的区块链数据处理流程,如解构智能合约运行过程、风险识别等。
-
协助机器人与助手辅助系统:辅助系统是在自然语言接口的基础上,集成更多数据源和功能的增强系统,大幅提高用户工作效率。
图 12:LLM 应用场景
3.6 LLM 的局限性
3.6.1 行业现状:成熟应用、正在攻克的问题以及尚未解决的挑战
在 Web3 数据领域,尽管已经取得了一些重要的进展,但仍然面临一些挑战。
相对成熟的应用:
-
使用 LLM 进行信息处理:LLM 等 AI 技术已成功用于生成文本摘要、总结、解释等工作,帮助用户从长篇文章、专业报告中提取关键信息,提高了数据的可读性和可理解性。
-
使用 AI 解决开发问题:LLM 已经应用于解决开发过程中的问题,例如替代StackOverflow 或搜索引擎,为开发者提供问题解答和编程支持。
有待解决与正在探索的问题:
-
利用 LLM 生成代码:行业正在努力将 LLM 技术应用于自然语言到 SQL 查询语言的转换,以提高数据库查询的自动化和可理解性。然而,过程中会有很多困难,比如在某些情境下,生成的代码要求极高的准确性,语法必须百分之百正确,以确保程序能够无 bug 运行,并获得正确的结果。难点还包括确保问题回答的成功率、正确率,以及对业务的深刻理解。
-
数据标注问题:数据标注对于机器学习和深度学习模型的训练至关重要,但在 Web3 数据领域,特别是处理匿名的区块链数据时,标注数据的复杂性较高。
-
准确性和幻觉(Hallucination)问题:AI 模型中幻觉的出现可能受多因素影响,包括有偏见或不足的训练数据、过度拟合、有限的上下文理解、缺乏领域知识、对抗性攻击和模型架构。研究人员和开发者需要不断改进模型的训练和校准方法,以提高生成文本的可信度和准确性。
-
利用数据进行业务分析和文章输出:将数据用于业务分析和生成文章仍然是一个具有挑战性的问题。问题的复杂性、需要精心设计的提示(prompt)、以及高质量的数据、数据量、减少幻觉问题的方法都是待解决的问题。
-
根据业务领域自动索引智能合同数据以进行数据抽象:自动为不同业务领域的智能合同数据建立索引以进行数据抽象仍然是一个未解决的问题。这需要综合考虑不同业务领域的特点,以及数据的多样性和复杂性。
-
处理时序数据,表格文档数据等更复杂的模态:DALL·E 2 等多模态模型非常擅长在文字生成图像、语音等常见模态。而在区块链以及金融领域需要特别地对待一些时序数据,而非简单地把文本向量化就能解决。联和时序数据与文本,跨模态联合训练等,是实现数据智能分析以及应用的重要研究方向。
3.6.2 为何只靠 LLM 不能完美解决区块链数据行业的问题
作为语言模型,LLM 更适用于处理对流畅度要求较高的场景,而在追求准确性方面,可能需要对模型进行更进一步的调整。在将 LLM 应用于区块链数据行业时,以下框架可提供一些参考。
图 13:区块链数据行业下 LLM 输出的流畅性、准确性和用例风险
在评估 LLM 在不同应用中的适用性时,关注流畅度和准确性是至关重要的。流畅度指的是模型的输出是否自然、通顺,准确性则表示模型的答案是否准确。这两个维度在不同应用场景中有不同的要求。
对于流畅度要求较高的任务,如自然语言生成、创意写作等,LLM 通常能够胜任,因为其在自然语言处理方面的强大性能使其能够生成流畅的文本。
区块链数据面临着数据解析、数据处理、数据应用等多方面的问题。LLM 拥有卓越的语言理解和推理能力,使其成为与区块链数据互动、整理和概括的理想工具。然而,LLM 并不能解决所有区块链数据领域的问题。
在数据处理方面,LLM 更适合快速迭代和探索性处理链上数据,不断尝试新的处理方法。然而,LLM 在生产环境中的详细核对等任务方面仍存在一些限制。典型的问题是 token 长度不够,无法应对长上下文的内容。耗时的 prompt,回答不稳定影响下游任务进而导致成功率不稳定的问题,以及执行大批量任务的效率不高。
其次,LLM 处理内容的过程中很可能出现幻觉问题。据估计,ChatGPT 的幻觉概率约为 15% 至 20%,而由于其处理过程的不透明性,很多错误难以察觉。因此,框架的建立和专家知识的结合变得至关重要。此外,LLM 结合链上数据还是有很多挑战:
-
链上数据实体类型多、数量庞大,以何种形式投喂给 LLM,有效地运用在具体的商业化场景,类似其他垂直行业,需要更多研究和探索。
-
链上数据包括结构化和非结构化数据,目前行业大多数数据解决方案,都是基于对业务数据的理解。解析链上数据的过程中,用 ETL 去过滤,清洗,补充和复原业务逻辑,进一步把非结构化数据整理为结构化数据,可以为后期多种业务场景提供更高效的分析。比如,结构化的 DEX trades,NFT marketplace transactions,wallet address portfolio 等,就具有前面提到的高质量,高价值,准确和真实等特点,可以给通用 LLM 提供高效的补充。
4、被误解的 LLM
LLM 可以直接处理非结构化数据,因此结构化数据将不再被需要?
LLM 通常基于海量文本数据预训练而来,天然适合处理各类非结构化的文本数据。然而,各个行业已经拥有大量结构化数据,尤其 Web3 领域中解析后的数据。如何有效的利用这些数据,增强 LLM,是一个行业的热门研究课题。
对于 LLM,结构化数据仍然具有以下的优势:
-
海量:大量的数据储存在各种应用背后的数据库和其他标准格式里面,特别是私有数据。每个公司和行业都还有大量 LLM 没有用于预训练的墙内数据。
-
已有:这些数据不需要重新生产,投入成本极低,唯一的问题是怎么用起来。
-
高质量和高价值:领域内长期积累的,蕴含专家的专业知识,通常都沉淀到了结构化数据里面,用于产学研。结构化数据的质量是数据可用性的关键,其中包括数据的完整性、一致性、准确性、唯一性和事实性。
-
高效率:结构化数据以表格、数据库或其他规范格式存储,模式是预先定义的,并且在整个数据集中保持一致。这意味着数据的格式、类型和关系都是可预测和可控的,使得数据的分析和查询更加简单和可靠。而且,行业已经有成熟的 ETL 及各种数据处理和管理工具,使用起来也更加高效和便捷。LLM 可以通过 API,把这些数据使用起来。
-
准确性和事实性:LLM 的文本数据,基于 token 概率,目前还不能稳定的输出确切的答案,产生的幻觉问题一直是 LLM 要解决的核心根本问题。对于很多行业和场景,会形成安全和可靠性问题,比如,医疗,金融等。结构化数据,正是可以辅助和矫正LLM 这些问题的一个方向。
-
体现关系图谱,和特定业务逻辑:不同类型的结构化数据,可以以特定的组织形式(关系型数据库,图数据库等),输入到 LLM,解决不同类型的领域问题。结构化数据使用标准化的查询语言(如 SQL),使得对数据进行复杂的查询和分析变得更加高效和准确。知识图谱 (Knowledge Graph) 可以更好地表达实体之间的关系,也更容易进行关联查询。
-
使用成本低:不用 LLM 每次重新从底层重新训练整个底座模型,可以结合 Agents 和LLM API 等 LLM 赋能方式,更快更低成本的接入 LLM。
目前市场上还有一些脑洞大开的观点,认为 LLM 在处理文本信息和非结构化信息方面的能力极强,只需将原始数据,包括非结构化数据,简单导入到 LLM,就能达到目的。这个想法类似于要求通用 LLM 解数学题,在没有专门构建数学能力模型的情况下,大多数 LLM 可能会在处理简单的小学加减题时出错。反而,建立类似数学能力模型,和图像生成模型的 Crypto LLM 垂直模型,才是解决 LLM 在 Crypto 领域更落地的实践。
4.2 LLM 可以从新闻、推特等文字信息推测内容,人们不再需要链上数据分析来得出结论?
LLM 虽然可以从新闻、社交媒体等文本中获得信息,但直接从链上数据中获得的洞察仍然是不可或缺的,主要原因有:
-
链上数据是原始的第一手资讯,而新闻和社交媒体中的信息可能存在片面性或误导性。直接分析链上数据可以减少信息偏差。尽管利用 LLM 进行文本分析存在理解偏差的风险,但直接分析链上数据可以减少误读。
-
链上数据包含全面的历史交互和交易记录,分析可以发现长期趋势和模式。链上数据还可以展现整个生态系统的全貌,如资金流向、各方关系等。这些宏观的洞察有助于更深入地理解状况。而新闻和社交媒体信息通常更零散且短期。
-
链上数据是开放的。任何人都可以验证分析结果,避免信息的不对称。而新闻和社交媒体未必都如实披露。文本信息和链上数据可以相互验证。综合两者可以形成更立体和准确的判断。
链上数据分析仍是不可或缺的。LLM 从文本中获取信息具有辅助作用,但不能取代直接分析链上数据。充分利用两者优势才能取得最佳效果。
4.3 利用 LangChain、LlamaIndex 或其他 AI 工具,在 LLM 的基础上构建区块链数据解决方案非常容易?
LangChain 和 LlamaIndex 等工具为构建自定义的简单 LLM 应用提供了便利,使快速搭建成为可能。然而,将这些工具成功应用于实际生产环境中涉及到更多的挑战。构建一个高效运行、保持高质量的 LLM 应用是一项复杂的任务,需要深入理解区块链技术和 AI 工具的工作原理,并有效地将它们整合在一起。这对于区块链数据行业来说,是一项重要但具有挑战性的工作。
在这个过程中,必须认识到区块链数据的特性,它要求极高的精准性和可重复校验性。一旦数据通过 LLM 进行处理和分析,用户对其准确性和可信度有很高的期望。这与 LLM 的模糊容错性之间存在着潜在的矛盾。因此,在构建区块链数据解决方案时,必须仔细权衡这两方面的需求,以满足用户的期望。
当前市场上,虽然已经有了一些基础工具,但这个领域仍在快速演进和不断迭代。类比于 Web2 世界的发展历程,从最初的 PHP 编程语言到更成熟、可扩展的方案如 Java、Ruby、Python,以及 JavaScript 和 Node.js 等,再到 Go 和 Rust 等新兴技术,都经历了不断的演变。AI 工具也在不断变化,新兴的 GPT 框架如 AutoGPT,Microsft AutoGen,及最近OpenAI 自己推出的 ChatGPT 4.0 Turbo 的 GPTs 和 Agents 等只是展示了未来可能性的一部分。这表明,区块链数据行业和 AI 技术都还有许多发展空间,需要不断努力和创新。
当前在应用 LLM 时,有两个陷阱需要特别注意:
-
期望值过高:很多人认为 LLM 可以解决一切问题,但实际上 LLM 有明显的局限性。它需要大量的计算资源,训练成本高昂,而且训练过程可能不稳定。对 LLM 的能力要有现实的期望,明白它在某些场景下表现出色,如自然语言处理和文本生成,但在其他领域可能无法胜任。
-
忽视业务需求:另一个陷阱是强行应用 LLM 技术,而不充分考虑业务需求。在应用 LLM 之前,务必明确具体的业务需求。需要评估 LLM 是否是最佳技术选择,并做好风险评估和控制。强调 LLM 的有效应用需要根据实际情况慎重考虑,避免误用。
尽管 LLM 在许多领域都具备巨大潜力,但开发者和研究者在应用 LLM 时需要保持谨慎,采取开放的探索态度,以找到更适合的应用场景并最大程度地发挥其优势。