从Text2SQL到AI数据问答

        AI + 数据分析一直是一个充满想象力的应用方向。在2023年之前,Text2SQL通常采用传统的自然语言处理(NLP)方法,但泛化能力较差,只能适应特定的场景。随着大型语言模型(LLM)的发展,AI + 数据分析逐渐走向现实。本文将介绍如何结合大模型、LangChain和DAG实现一个AI数据问答系统。

一、基础概念

构建AI数据问答系统可以简单地分为三个主要步骤:

SQL-生成:LLM根据用户输入的自然语言,以及数据库的相关Schema信息,生成查询SQL。

SQL-执行:利用数据库执行工具,执行生成的SQL,返回结果数据集。

自然语言生成:LLM根据用户的问题以及查询结果数据集,生成自然语言回答。

下图展示了上述步骤的具体流程:

二、关键步骤分析

     其中的核心步骤是SQL-生成。在生成自然语言回答方面,LLM已经表现出很好的效果。但如果简单采用LLM生成SQL效果将不如人意。这主要是因为SQL是一种严格语法的数据库语言,而自然语言并不总是遵循严格的语法规则。此外,生成SQL效果不佳的原因包括:

LLM通常基于广泛的预训练数据,但并不专门针对SQL数据进行训练,因此对SQL的理解和生成质量较差。

缺乏相关领域知识和数据库结构信息,即使是人类数据库专家,如果没有这些信息,也难以写出合适的SQL。

三、解决思路

为了提高生成SQL的质量,目前常用的几种方法包括:

增加数据库Schema信息和业务领域知识

补充Schema信息:通常数据库表在创建时会包含表和字段的备注信息,但这些信息往往过于简短。解决方案是为数据库表和字段增加更详细的描述信息,并在调用LLM时作为Prompt传入。这可以通过额外的信息维护来实现,避免对数据库结构的侵入。

检索相关信息:对于大型数据库,表数量众多,LLM的Token窗口大小限制了完整的Schema信息传入。解决方案是根据问题检索最可能相关的表,只将相关表信息作为Prompt。

增加业务领域背景知识:基于RAG(Retrieve-and-Generate)工作流,先查询相关信息,特别是专业名词和指标说明,再构建Prompt。

增加优秀的问题和SQL对作为示例

利用Few-Shot Prompt和LLM的泛化能力,在Prompt中增加与用户问题相似的示例,可以大幅提高SQL生成的准确率。这些示例可以由专家整理,也可以通过系统运行过程中用户对生成SQL的反馈获取。

微调(Finetuning)

针对特定数据模型进行LLM的微调。利用收集的优秀问题和SQL示例作为样本,固化模型效果。初期可以采用RAG,等收集到一定阶段的数据后再进行微调。

使用合适的SQL LLM

SQLCoder是一款基于StarCoder微调的针对SQL优化的大语言模型。Code Llama是一个开源大模型,主要用于Text2SQL任务。但通过实验发现,Llama3 70B等这种通用大模型在上下文理解和SQL生成准确性方面表现更佳。

四、演示系统

沪深ETF基金行情问答演示系统:https://bi.stockyun.top/

该系统具备RAG管理、SQL语句生成、数据自动查询和自动回答等功能。同时,当SQL生成错误时,可以通过“AI帮我解决”功能,将错误信息自动交给大模型进行修复。

五、下一步计划

增加tools和Open Interpreter,根据用户要求生成程序代码,并自动执行代码生成图表。

这样,AI数据问答系统将变得更加智能和高效,进一步提升用户的使用体验和数据分析能力。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容