2026世界杯

开云登顶Hugging Face论文热榜，LLM重写数据准备的游戏礼貌

发布日期：2026-02-09 18:26 点击次数：180

开头：市集资讯

（开头：机器之心）

在企业级系统中，数据团队无边靠近一个窘境：模子迭代速即，但数据准备的「老旧管谈」却愈发千里重。清洗、对皆、标注…… 这些责任依然深陷于东谈主工礼貌与大众训诲的泥潭。您的团队是否也为此困扰？

数据形状林林总总，正则抒发式越写越多，却总有出东谈想法想的「脏数据」出现

跨系统表结构不一致，对皆逻辑复杂，东谈主工映射耗时耗力

海量数据短缺标签和语义描写，分析师「看不懂、用不好」

数据形状林林总总，正则抒发式越写越多，却总有出东谈想法想的「脏数据」出现

跨系统表结构不一致，对皆逻辑复杂，东谈主工映射耗时耗力

海量数据短缺标签和语义描写，分析师「看不懂、用不好」

这背后是数据准备这已经典繁重 —— 它占用了数据团队近 80% 的时候与元气心灵，却依然是智能化进度中最顽强的瓶颈。传统步调主要依赖静态礼貌与领域特定模子，存在三大根底局限：高度依赖东谈主工与大众常识、对任务语义的感知能力有限、在不同任务与数据模态间泛化能力差。

张开剩余92%

如今，一份引爆 HuggingFace 趋势榜的齐集综述指出，大讲话模子（Large Language Models，LLMs）正在从根底上篡改这一方位，鼓吹数据准备从「礼貌运转」向「语义运转」的范式退换。

来自上海交通大学、清华大学、微软商讨院、麻省理工学院（MIT）、上海 AI Lab、小红书、阿里巴巴、港科大（广州）等机构的商讨团队，系统梳理了连年来大讲话模子在数据准备过程中的脚色变化，试图恢复一个业界脸色的问题：LLM 能否成为下一代数据管谈的「智能语义核心」，绝对重构数据准备的范式？

论文标题：Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

arXiv 论文地址：https://arxiv.org/abs/2601.17058

Huggingface 论文主页：https://huggingface.co/papers/2601.17058

GitHub 名目主页：https://github.com/weAIDB/awesome-llm

论文标题：Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

arXiv 论文地址：https://arxiv.org/abs/2601.17058

Huggingface 论文主页：https://huggingface.co/papers/2601.17058

GitHub 名目主页：https://github.com/weAIDB/awesome-llm

从「东谈主工礼貌」到「语义运转」的数据准备范式升沉

传统的数据准备高度依赖东谈主工礼貌和任务定制模子：正则抒发式、字段校验逻辑、领域特定的分类器，不仅构建和珍藏本钱腾贵，且一朝数据形状变化或靠近跨域集成，整套体系就显得颠倒脆弱。

商讨团队指出，LLM 的引入正在鼓吹这一过程从「礼貌运转」向「语义运转」退换。模子不再只是实践预设逻辑，而是尝试交融数据背后的含义，并据此完成检测、成立、对皆和补充等操作。

在这篇综述中，作家从应用层面（Application-Ready）的视角起程，构建了一个以任务为中心的分类框架，将 LLM 增强的数据准备过程拆分为三大核心门径：

数据清洗（Data Cleaning）：造作检测、形状圭臬化、颠倒成立、缺失值填补等；

数据集成（Data Integration）：实体匹配、模式匹配、跨源对皆与突破消解；

数据增强（Data Enrichment）：列类型识别、语义标注、表级与库级画像构建。

数据清洗（Data Cleaning）：造作检测、形状圭臬化、颠倒成立、缺失值填补等；

数据集成（Data Integration）：实体匹配、模式匹配、跨源对皆与突破消解；

数据增强（Data Enrichment）：列类型识别、语义标注、表级与库级画像构建。

图 1：数据准备三大核心任务：数据清洗、集成与增强，分歧处分数据的一致性与质地问题、断绝与集成阻截、以及语义与高下文限定

论文中的全体框架展示了 LLM 在数据准备活水线中的多维度脚色。商讨团队将现有技巧旅途归纳为三类，这与传统单一步调酿成分解对比：

基于 prompt 的步调（M1）：通过结构化请示和高下文示例，径直指点模子完成圭臬化、匹配或标注等任务，强调生动性与低开辟本钱。

检索增强与夹杂步调（M2）：结合检索增强生成（RAG）、模子调优（如微调）、袖珍模子或传统礼貌系统，在本钱、界限与踏实性之间寻求均衡。

智能体编排步调（M3）：让 LLM 四肢结合核心，调用外部器具和子模子，渐渐构建复杂的数据处理责任流，探索自动化与自主有筹画的界限。

基于 prompt 的步调（M1）：通过结构化请示和高下文示例，径直指点模子完成圭臬化、匹配或标注等任务，强调生动性与低开辟本钱。

检索增强与夹杂步调（M2）：结合检索增强生成（RAG）、模子调优（如微调）、袖珍模子或传统礼貌系统，在本钱、界限与踏实性之间寻求均衡。

智能体编排步调（M3）：让 LLM 四肢结合核心，调用外部器具和子模子，渐渐构建复杂的数据处理责任流，探索自动化与自主有筹画的界限。

图 2：LLM 增强的数据准备技巧全景总览，涵盖数据清洗、数据集成和数据增强三大任务相当细分技巧阶梯

代表性责任与系统：从表面到工程实践

在具体步调层面，论文梳理了连年来一批具有分解工程导向特征的代表性责任。举例：

在数据清洗场景中，CleanAgent 引入了八成自主计议的智能体架构，通过调用 Python 库等外部器具动态构建清洗责任流。

在数据集成领域，Jellyfish 探索了「大模子教小模子」的蒸馏范式，行使 GPT-4 的推理轨迹微调轻量级模子，权臣裁汰了大界限匹配的本钱。

而在数据增强方针，Pneuma 则结合了 RAG（检索增强生成）技巧，通过检索数据湖中的相关表格与文档，为原始数据补充缺失的语义高下文与元数据。

在数据清洗场景中，CleanAgent 引入了八成自主计议的智能体架构，通过调用 Python 库等外部器具动态构建清洗责任流。

在数据集成领域，Jellyfish 探索了「大模子教小模子」的蒸馏范式，行使 GPT-4 的推理轨迹微调轻量级模子，开云体育下载权臣裁汰了大界限匹配的本钱。

而在数据增强方针，Pneuma 则结合了 RAG（检索增强生成）技巧，通过检索数据湖中的相关表格与文档，为原始数据补充缺失的语义高下文与元数据。

{jz:field.toptypename/}

表 1：LLM 增强的数据准备步调技巧概览

论文纪念的「技巧领土式」对照表（如上方表 1），将不同步调按照技巧旅途（基于 prompt、RAG、智能体等）与任务门径（清洗、集成、增强）进行交叉定位。其核心价值在于匡助工程团队进行技巧选型：在不同界限、本钱约束与任务阶段下，应优先筹商哪类技巧阶梯。

从该表中，商讨团队索取出几条对工程实践极具带领道理的不雅察：

基于 prompt 的步调合乎小界限、高复杂度任务：举例高价值表格的语义成立、复杂实体歧义消解，但在大界限场景中本钱和一致性难以胁制。

RAG 与夹杂系统成为主流工程采用：通过检索、礼貌系统或轻量模子分管高频、低难度任务，让 LLM 专注于「难例」和核心语义有筹画，落幕更高的全体性价比。

智能体阶梯仍处于探索阶段：多步器具调用在复杂责任流中展现出后劲，但其踏实性、调试本钱和着力可评估性仍是现时的主要瓶颈。

基于 prompt 的步调合乎小界限、高复杂度任务：举例高价值表格的语义成立、复杂实体歧义消解，但在大界限场景中本钱和一致性难以胁制。

智能体阶梯仍处于探索阶段：多步器具调用在复杂责任流中展现出后劲，但其踏实性、调试本钱和着力可评估性仍是现时的主要瓶颈。

常用评估数据集与基准

除了代表性步妥洽系统，论文还整理了现时用于评估 LLM 数据准备能力的代表性数据集与基准（如下方表 2），为工程团队和商讨者提供了一份「可复实验验舆图」。

表 2：数据准备代表性数据集总览

从任务维度看，这些基准简易遮蔽了三类典型场景：

数据清洗（Data Cleaning）：常用数据集包括 Hospital 和 Flights，用于评估模子在形状造作成立、值圭臬化和缺失字段补全等任务中的踏实性与准确性。这类数据集频频包含东谈主为注入或真确汇注的噪声模式，合乎测试模子在结构性造作下的鲁棒性。

数据集成（Data Integration）：在实体匹配和跨源对皆任务中，WDC Products 和 Amazon-Google Products 等电商类数据集被庸俗使用，用于磨练模子在称呼歧义、属性不一致和多对多匹配场景下的语义判别能力。

数据增强（Data Enrichment）：表语义标注和列类型识别任务中，商讨责任常基于 OpenWikiTable、Public BI 等表格语义数据集，评估模子生成元数据和语义描写的准确性与一致性。

商讨团队指出，现时多数基准仍以中小界限表格和结构化数据为主，关于企业级数据湖、日记流和多模态数据场景的遮蔽仍然有限，这也在一定程度上限定了不同步调在真确系统中的横向对比能力。

核心洞见、现有挑战与工程指南

在对大批文件与系统进行潜入对比后，商讨团队给出了承接全文的核心洞见，并明晰地指出了迈向真确应用必须非凡的鸿沟：

工程可落地性优先：在真确系统中，朦拢量、延长、本钱胁制和着力可回溯性，往往比单次任务的皆备准确率更为环节。这意味着追求极致精度的复杂步调，有时是工程上的最优解。

夹杂架构是主流方针：短期内，LLM 更可能四肢「语义核心」镶嵌传统数据管谈，与礼貌系统、检索引擎和轻量模子酿成协同的夹杂架构，而非完全替代现有基础设施。

评估体系是现时瓶颈：不同商讨领受的数据集、方针和任务界说各异较大，阻隔斡旋、可复现的评估圭臬，严重制约了技巧的横向比拟、迭代与工程选型。

然则，走向大界限真确应用，仍靠近明确挑战：推理本钱与延长在大界限场景下仍显腾贵；踏实性与幻觉问题在条款严苛的清洗、匹配任务中亟待处分；而斡旋的评估体系建设更是任重谈远。

因此，综述指出，更实验的旅途并非用大模子完全取代现有设施，而是将其四肢「语义结合者」镶嵌环节节点。

这份综述为工程团队提供了一张详备的技巧舆图与选型指南。若是你正在搭建或优化企业级数据平台，它不错帮你判断：在哪些门径引入大模子担任「智能语义层」能带来最高性价比，而在哪些部分，经过考证的传统礼貌系统与数据库内核仍是更可靠、高效的采用。

发布于：北京市

热点资讯

	开云体育下载 2025年详尽所得
	开云体育起底墨西哥四大贩毒集团
	开云体育app 社交部恢复“特朗
	开云体育下载 2026高品性有机
	开云体育app 小肉揪引出大不毛

开云 登顶Hugging Face论文热榜，LLM重写数据准备的游戏礼貌

开云登顶Hugging Face论文热榜，LLM重写数据准备的游戏礼貌