AI + 数据分析一直是一个充满想象力的应用方向。在2023年之前,Text2SQL通常采用传统的自然语言处理(NLP)方法,但泛化能力较差,只能适应特定的场景。随着大型语言模型(LLM)的发展,AI + 数据分析逐渐走向现实。本文将介绍如何结合大模型、LangChain和DAG实现一个AI数据问答系统。
一、基础概念
构建AI数据问答系统可以简单地分为三个主要步骤:
SQL-生成:LLM根据用户输入的自然语言,以及数据库的相关Schema信息,生成查询SQL。
SQL-执行:利用数据库执行工具,执行生成的SQL,返回结果数据集。
自然语言生成:LLM根据用户的问题以及查询结果数据集,生成自然语言回答。
下图展示了上述步骤的具体流程:
二、关键步骤分析
其中的核心步骤是SQL-生成。在生成自然语言回答方面,LLM已经表现出很好的效果。但如果简单采用LLM生成SQL效果将不如人意。这主要是因为SQL是一种严格语法的数据库语言,而自然语言并不总是遵循严格的语法规则。此外,生成SQL效果不佳的原因包括:
LLM通常基于广泛的预训练数据,但并不专门针对SQL数据进行训练,因此对SQL的理解和生成质量较差。
缺乏相关领域知识和数据库结构信息,即使是人类数据库专家,如果没有这些信息,也难以写出合适的SQL。
三、解决思路
为了提高生成SQL的质量,目前常用的几种方法包括:
增加数据库Schema信息和业务领域知识:
补充Schema信息:通常数据库表在创建时会包含表和字段的备注信息,但这些信息往往过于简短。解决方案是为数据库表和字段增加更详细的描述信息,并在调用LLM时作为Prompt传入。这可以通过额外的信息维护来实现,避免对数据库结构的侵入。
检索相关信息:对于大型数据库,表数量众多,LLM的Token窗口大小限制了完整的Schema信息传入。解决方案是根据问题检索最可能相关的表,只将相关表信息作为Prompt。
增加业务领域背景知识:基于RAG(Retrieve-and-Generate)工作流,先查询相关信息,特别是专业名词和指标说明,再构建Prompt。
增加优秀的问题和SQL对作为示例:
利用Few-Shot Prompt和LLM的泛化能力,在Prompt中增加与用户问题相似的示例,可以大幅提高SQL生成的准确率。这些示例可以由专家整理,也可以通过系统运行过程中用户对生成SQL的反馈获取。
微调(Finetuning):
针对特定数据模型进行LLM的微调。利用收集的优秀问题和SQL示例作为样本,固化模型效果。初期可以采用RAG,等收集到一定阶段的数据后再进行微调。
使用合适的SQL LLM:
SQLCoder是一款基于StarCoder微调的针对SQL优化的大语言模型。Code Llama是一个开源大模型,主要用于Text2SQL任务。但通过实验发现,Llama3 70B等这种通用大模型在上下文理解和SQL生成准确性方面表现更佳。
四、演示系统
沪深ETF基金行情问答演示系统:https://bi.stockyun.top/
该系统具备RAG管理、SQL语句生成、数据自动查询和自动回答等功能。同时,当SQL生成错误时,可以通过“AI帮我解决”功能,将错误信息自动交给大模型进行修复。
五、下一步计划
增加tools和Open Interpreter,根据用户要求生成程序代码,并自动执行代码生成图表。
这样,AI数据问答系统将变得更加智能和高效,进一步提升用户的使用体验和数据分析能力。