沃卡惠行业资讯

资讯详情

十大抱抱脸(Hugging Face)数据集

2022-08-24 10:24:314636

任何机器学习模型中最重要的任务是找到或构建一个完美适应您的算法的数据集。如果没有正确的基础，您的机器学习模型可能无法按预期方式执行。

虽然Kaggle等知名网站允许您下载和使用数以千计的数据集，但其他一些数据集提供商的受欢迎程度正在增加。在本文中，我们将介绍一种称为抱抱脸的方法。

Hugging Face是一个开源数据集提供商，主要用于其自然语言处理(NLP)数据集。什么是NLP数据集？它有哪些用途？

NLP是人工智能的一个分支，负责使用自然语言进行计算机和人类交互。它专注于处理大量人类可以理解的语言（通常是文本格式）以提取隐藏的模式和见解。

NLP有许多好处和现实生活中的应用，例如：对项目（文本）进行分类、检测仇恨言论以及过滤掉垃圾邮件和消息。

下面我们将深入探讨Hugging Face提供的NLP数据集，它们包含哪些数据，如何组织，以及它们可以用于什么。

十大拥抱人脸数据集列表

1.IMDB数据集

IMDB数据集为用户提供了超过50,000条高度极性的电影评论，这些评论根据书面评论被标记为“正面”或“负面”。

数据被分成两等份，一份用于训练数据集，另一份用于测试数据集，如果用户需要，则带有额外的未标记数据。该数据集可以检测不同短信中的正面和负面电影反馈。此外，它可以帮助识别电影特别喜欢或不喜欢的特征。

2.亚马逊极性数据集

该数据集包含来自亚马逊的超过3500万条产品评论。每个数据点都包括客户的评论和给定产品的评级。每个数据点都被分类为正面评论或负面评论，具体取决于客户是喜欢还是不喜欢该产品。

这种类型的标记数据集在NLP和机器学习中很有用。通过使用亚马逊极性数据集，公司可以提高他们的广告和营销能力。与营销的情况一样，使用NLP技术可以让营销人员看到客户喜欢哪些产品，并知道哪些功能使客户决定购买产品。

类似的数据集包括Yelp评论完整数据集，其中包含大量按给定评分（从1到5）标记的评论。与前面提到的亚马逊数据集类似，在NLP中使用这样的数据集可以使餐厅或服务公司的营销工作受益。

此外，Amazon Polarity Datasets或Yelp评论数据集可用于推荐系统，以将产品或企业分类为不同的类别。分类有助于应用程序或网站过滤客户偏好并增加组织。

3.情绪数据集

情绪数据集将英文Twitter消息分为六类：

悲伤

喜悦

爱

愤怒

恐惧

惊喜

这种类型的数据集可用于训练和测试NLP模型，该模型专注于通过读取用户的文本段落来捕捉用户的情绪。其他用途包括通过利用愤怒和悲伤数据点类别来检测和消除令人沮丧的消息（仇恨言论）。

类似的数据集是基于Twitter的数据集。该数据集将用户的推文分类为不同的表情符号，包括笑声、爱情、幸福等等。与之前的数据集一样，推文评估数据集也可用于NLP，它专注于以表情符号表示的不同情绪。

4.通用语音数据集

该数据集包含记录和文本数据点的混合。Common Voice数据集包含超过9000小时的记录消息及其书面记录副本。还可以使用其他数据点，例如说话者的年龄、性别和口音，以帮助提高模型的语音检测性能。

该数据集可用于创建语音检测模型并提高其准确性，该模型能够理解来自世界各地的60多种语言。利用语音检测模型的程序在Google Home、Alexa和Siri等主流技术中变得越来越根深蒂固，所有这些都需要了解多个用户的语音输入。

5.硅胶数据集

该数据集将句子分类为承诺性、指示性、信息性或只是一个普通问题。Silicone数据集涵盖各种不同的领域，包括电话对话、电视对话等。所有给定的日期点都是用英文写的。

该数据集可用于训练和评估自然语言模型以及理解专为口语设计的系统。

6.雅虎问答主题数据集

雅虎答案数据集包含大量问题及其各自的答案，将每个数据点（问题和答案）分类为给定类别。此类类型包括体育、商业与金融、社会与文化、科学与数学、家庭与人际关系、计算机与互联网等。

该数据集可用于训练模型以将某些问题和答案分类为这些类别之一。

7.仇恨言论数据集

内容警告：请注意，此数据集包含攻击性文本。仇恨言论数据集包含从Stormfront论坛获得的文本消息样本。每个数据点根据其内容被标记为仇恨或非仇恨消息。顾名思义，这种类型的数据集可用于训练模型以通过不同的在线论坛检测仇恨言论。

类似的数据集是包含此类内容的仇恨言论攻击性数据集。该数据集可用于训练模型以过滤和禁止某些词在论坛、视频游戏（有儿童人口统计）和搜索栏查询中出现。

8.扫描数据集

扫描数据集是一个简单的语言驱动任务，用于研究组合学习和零样本泛化。

您可能在扫描的数据集中找到的数据点示例将被拆分为命令，例如向左走两次，因此预期的实际动作应该是向右走两次。

9.SMS垃圾邮件数据集

SMS垃圾邮件数据集包含超过5,000条英文SMS消息，它们被归类为垃圾邮件或非垃圾邮件（非垃圾邮件）。

过滤掉垃圾邮件是使用NLP的主要用途之一。您还可以使用标记的垃圾邮件数据集或任何需要垃圾邮件过滤的系统来训练电子邮件过滤系统。

10.银行77数据集

Banking77数据集更为复杂，包含发送给银行的超过13,000条客户信息（投诉和问题）。

每个数据点都被归类为七十七种不同的意图之一。意图包括客户询问卡到达、卡不工作问题、卡上的额外费用以及被拒绝的转账问题。

使用这种类型的数据集将使银行能够快速响应并将不同的客户问题分类为更有条理的结构以供以后使用。可以为每天接收大量客户请求的任何企业构建类似的模型。但首先需要提供一个良好的过滤和处理数据集来运行模型。

其他有趣的抱抱脸数据集

以下是Hugging Face的另外三个有趣的数据集可供探索。

1.巢穴数据集

Lair数据集包含来自世界各地的政治家的12,000多条带标签的声明。

每个陈述被分类为错误的、半正确的、大部分正确的和正确的。

使用Lair数据集，机器学习模型可能能够检测类似未来陈述的可信度。

2.谷歌格式良好的查询数据集

这个Google查询数据集通过众包来自Parallax语料库的25,100个查询的“格式良好”注释创建，根据查询的信息量来标记每个数据点。

五个用户将每个查询注释为消息灵通或不灵通。

通过使用这个数据集，机器学习模型可以进一步预测给定查询的消息灵通程度。

3.Jfleg数据集

Jfleg数据集被认为是黄金标准基准，是一个英语语法纠错数据集。每个数据点都包含一个书面句子（有多个语法和拼写错误）和另外四个由四个不同的人编写的语法和拼写正确的句子。

使用这种类型的数据集进行训练将使我们的模型能够检测和纠正它发现的语法错误。请注意，与大多数机器学习模型类似，此模型可能无法保证在所有情况下都能进行完美的语法和拼写更正。另一个注意事项：根据任务的预期结果（垃圾邮件过滤器、仇恨言论检测器、评论），选择正确的数据集将显着影响模型性能。

尝试在上述几个数据集上运行您的模型，然后检查实现的性能。您还可以搜索自己的数据集并将它们与此处介绍的数据集进行比较。

使用拥抱人脸数据集

有如此多的潜在用途，例如将项目（文本）组织成不同的类别（用于进一步的推荐系统处理）、检测仇恨言论和过滤垃圾邮件，使用NLP是一项值得学习的技能。

在本文中，我们探索了Hugging Face，这是一个包含大量NLP数据集（主要致力于NLP机器学习模型）的开源网站，并涵盖了10个数据集，以帮助您开始改善您的机器学习事业。

我们建议尝试上面的一些示例，并学习如何将这些数据集与您的机器学习模型一起使用。您可以随时在Hugging Face或其他网站上查看其他数据集，以满足您模型的要求。