本数据集汇总了多个领域的丰富信息,涵盖了交通、气象、能源、信息安全、医学、游戏、经济金融、商业、消费、住房、体育、植物、天文、推荐系统、预测、文化娱乐艺术、其他以及NLP、CV、语音等多个大类数据。

在交通领域,你可以找到Pronto共享单车数据集、航班延误或取消数据集、Uber纽约市乘车数据等,为交通研究提供了丰富的实时和历史数据。

气象方面包括全球地表气温变化、El Nino数据、中国气象数据等,可用于气象学研究和天气预测。

能源方面提供了风力预测数据集、能源使用情况、水资源数据等,为能源产业的分析和规划提供了有力支持。

信息安全方面有CNNVD中国信息安全漏洞数据库、NVD美国国家通用漏洞数据库等,可用于研究网络安全漏洞和威胁。

医学数据集涵盖了心脏病诊断、癫痫发作识别、宫颈癌风险因素等,为医学研究和临床应用提供了多样的数据资源。

在游戏领域,你可以找到英雄联盟、守望先锋、Dota2等游戏的数据,为游戏产业的分析和玩家行为研究提供了大量信息。

经济金融数据方面有拍拍贷互联网金融数据、股票价格、信用卡使用情况等,可用于金融风险预测和市场分析。

在商业方面,提供了在线教育投融数据、全球公司数据、消费产品销量预测等,为企业战略和市场分析提供了数据支持。

消费方面有口红数据集、黑五购物数据集、淘宝用户行为数据等,可用于消费趋势和用户行为的分析。

住房领域提供了链家二手房数据集、携程房型产品用户行为数据集等,为房地产市场和住宅规划提供了相关数据。

体育方面有NBA、欧洲足球联赛、MLB棒球数据集等,为运动员表现和比赛分析提供了大量数据。

植物领域提供了蘑菇分类、花卉识别、水稻叶子疾病等图像数据,可用于植物学研究和农业领域。

天文方面提供了开普勒望远镜标注的时间序列数据集、不明飞行物世纪报告等,为天文学研究提供了多样的数据。

在NLP领域,你可以找到新闻联播语料库、中文谣言语料库、维基百科中文语料库等,为自然语言处理研究提供了语料资源。

CV方面有Fashion-MNIST、车辆数据集、手势识别数据库等,为计算机视觉研究和图像识别提供了多种数据。

语音领域提供了Mozilla语音数据集-中文、英语读数字录音等,为语音识别和处理提供了实用的语音数据。

这些数据集覆盖了多个领域,为各种研究和应用提供了广泛的选择。

交通:
Pronto共享单车数据集(70.8MB)
欧州航空旅客运输季度数据集(更新至2019第二季度)(63KB)
2015年美国✈️✈️航班延误或取消数据集(192.3MB)
明尼阿波里斯市交通流量数据(3.1MB)
航班动态起降数据集(2GB)
交通卡口过车数据数据集(100G)
Uber 纽约市乘车数据(109.1MB)
mobike 骑行数据集(43.7MB)
2017-2020年共享单车BikeShare多伦多数据(201.6MB)
中国主要城市火车站代码(4.5KB)
气象:
中国历年台风最佳路径数据
1750年至今全球地表气温变化数据
1965-2016全球重大地震数据(2.3MB)
El Nino厄尔尼诺数据集(9.6MB)
中国气象数据(675.1MB)
北京空气质量数据(21.5MB)
中国空气质量数据集(1.2GB)
澳大利亚山火数据集(100+MB)
1750年至今全球地表气温变化数据(84MB)
能源:
全球能源之风力预测数据集(24.5MB)
风力发电机数据集(12.3MB)
2010年芝加哥能源使用情况(26.3MB)
中国水资源数据集(130KB+)
镇江电力数据(17.7MB)
信息安全:
CNNVD中国信息安全漏洞数据库
NVD美国国家通用漏洞数据库(335MB+)
NSL_KDD数据集(25.3MB)
KDD-CUP99网络入侵检测数据集(220MB+)
医学:
心脏病诊断数据集(17.6KB)
骨科患者的生物力学特征数据集(24.4KB)
埃博拉数据集(1.3MB)
癫痫发作识别数据集(7.3MB)
1000个12导联ECG心电图数据集(70.7MB)
宫颈癌风险因素数据集(99.7KB)
手势检测数据集(16.9MB)
帕金森疾病诊断数据集(5.1MB)
心脏病相关数据集(11.1KB)
基于重症监护室(ICU)多生命体征,预测脓毒症(21.1KB)
内置动脉插管数据集(288.7KB)
埃及患者的丙型肝炎病毒(HCV)数据集(158KB)
急性肝功能衰竭预测数据集(848.6KB)
心血管疾病数据集(2.8MB)
新型冠状病毒(2019-nCoV)疫情时间序列数据集(1.8MB)
游戏:
英雄联盟英雄数据(253.6KB)
Steam游戏汇总
100万数独游戏(156.4MB)
守望先锋英雄数据集(53.4KB)
Dota2游戏结果数据集(21.3MB)
王者荣耀英雄数据集(7.8KB)
包含用户行为的Steam游戏数据集(8.5MB)
经济金融:
拍拍贷互联网金融数据(320MB)
P2P信贷平台业务数据(400MB+)
4万条信用贷款业务、4千条现金贷业务脱敏数据
上证A股个股日线数据(187.6MB)
信用卡评分模型构建数据(7.2MB)
1978至今的黄金价格数据(187.8KB)
成人人口普查收入的相关信息(3.9MB)
我国主要城市年度数据-产值、人口、就业、教育等(10KB)
金融风险预测数据集(2.1MB)
9000条信用卡使用情况数据(881.7KB)
加密货币市场价格(39.0MB)
常用汇率过去3年的历史数据(31.6KB)
信用卡欺诈检测数据集(143.8MB)
信用违约概率预测 | Kaggle(7.2MB)
银行电话营销数据集(2.1MB)
LendingClub贷款数据(421.3MB)
比特币历史交易数据(221.1MB)
Dow Jones 股票日结算数据(1.6MB)
S&P 500股价数据(128.1MB)
PyPortfolioOpt股票价格(1.1MB)
特斯拉股票价格(168.7KB)
苹果股票市场数据历史记录(41.2KB)
7家顶级公司的收购数据(69.4KB)
美国医疗保险市场数据(778.8MB)
印度贸易数据(19.0MB)
30家在美国的大型公司的道琼斯指数数据(2.7MB)
最近十年谷歌的股票价格数据集(165.5KB)
桑坦德银行顾客交易预测数据(244.3MB)
欧元兑换国际主要货币的汇率日数据(更至2019.9.26)(2.9MB)
众筹网站Kickstarter项目数据集(55.3MB)
MT4历史数据中心各货币对外汇交易数据(905.5MB)
Santander客户价值预测数据集(31.5MB)
商业
在线教育投融数据集(2015-2020年)(513.8KB)
中国工商企业注册信息数据集(559.4MB)
8W家中国 互联网公司数据(11.3MB)
2019年全球七百多万个公司的数据(275.1MB)
消费:
出行产品未来14个月销量预测数据集(61.2MB)
口红数据集(1006.6KB)
黑五购物数据集(23.8MB)
去哪儿网—旅游产品机酒数据(1.5MB)
全球米其林餐厅信息(100KB+)
适合顾客尺码推荐的服装适合数据集(150MB)
淘宝App用户行为(507.3MB)
淘宝用户行为数据集(164.6MB)
废旧汽车价格预测数据集(611.6KB)
天猫双十一女性美妆的数据集(3.3MB)
淘宝云主题点击数据集(1.6GB)
广告实时竞价数据(455.5MB)
9万条上海餐饮数据(6.5MB)
天猫订单成交【真实】数据(1.8MB)
住房:
链家二手房数据集(5.1MB)
携程房型产品用户行为数据集(506.1MB)
房价预测(103.3KB)
阿姆斯特丹airbnb数据集(400MB+)
纽约Airbnb开放数据(6.8MB)
房价预测(103.3KB)
体育:
NBA数据集(62.3+MB)
欧洲足球联赛数据集(172.8MB)
2015-2018MLB棒球常规赛数据集(322.7MB)
120年奥运历史数据集:运动员和成绩(39.6MB)
科比生涯数据集(5.8MB)
NFL大数据可视化(100.8KB)
植物:
蘑菇分类数据集(UCI Machine Learning)(365.2KB)
iris鸢尾花数据集(4.1KB)
土壤湿度的高光谱基准数据集(1.6MB)
小麦种子数据集(9.1KB)
100种植物种类 数据集(35.1MB)
天文:
不明飞行物世纪报告(14.6MB)
开普勒望远镜所标注的时间序列数据集(27.6MB)
推荐系统:
资讯内容用户行为数据集(153.3MB)
Book Crossing 推荐系统数据(24.9MB)
Jester 推荐系统数据(4MB)
预测:
人力资源分析数据集(121.5KB)
申请大学的成功率预测数据集(12.6KB)
用户点击预测数据集(516.8MB)
Netflix Price 竞赛数据集(665.7MB)
文化娱乐艺术:
170K+首Spotify歌曲数据集(30+MB)
TMDB 5000部电影数据集(40MB+)
Disney华特迪士尼电影数据集(181.2KB)
其他:
2017年-2018年 关于申根签证的数据集 
垃圾分类数据(49.3KB)
二战空袭数据集(27.2MB)
拉勾网上海数据分析师职位数据(497.4KB)
濒危语言统计(736.7KB)
CNNVD中国信息安全漏洞数据库
个人睡眠数据(66.1KB)
2019年世界幸福报告(6.7KB)
鲍鱼数据集(187.5KB)
鱼类毒性数据集(30.5KB)
人口普查收入数据集(UCI)(3.4MB)
足球运动员数据集(3.7MB)
全球各国人口数据数据集(1.9MB)
——NLP大类——
2016-2019新闻联播语料库(11.3MB)
中文谣言语料库(32.6MB)
中国对联数据集(28.2MB)
1998人民日报标注语料库(PFR)(10.2MB)
人民日报文章数据集(1979-2010)(811.9MB)
人民日报文章数据集(1949-1978)(559.4MB)
中文新闻数据集(70.3MB)
耶鲁文本转SQL语句挑战数据集(95.1MB)
新加坡国立大学SMS语料库(23.4MB)
中文经典典籍语料
非正式汉语数据集(214.5MB)
维基百科中文语料库(518.7MB)
频率最高的9933个最常用汉字数据集(1.0MB)
聊天语料库数据集(210.7MB)
短文本分类数据集(13.1MB)
成语阅读理解数据集(195.8MB)
论文自动评分数据集(78.8MB)
翻译语料(595.9MB)
中文科学文献摘要数据集(92.9MB)
维基百科英文语料库(89.0MB)
Lord of the Rings指环王数据(223.9KB)
中文机器阅读理解的跨度提取数据集(CMRC 2018)
36氪新闻数据集(42.5MB)
1万条亚马逊乐器的评测/评论(13MB)
1万条互联网专栏资讯数据集(75.7MB)
2万条中文金融新闻数据集(66.6MB)
中文图书分类数据集(49.8MB)
英文歌词数据集(69.1MB)
特朗普政府发表的声明和简报(63.6MB)
问答
金融行业问答数据集(245.5MB)
社区问答数据集(1.7GB)
中文医学问答数据集(85MB)
CNN 新闻文章中的 12 万个问答对数据集(17.3MB)
情感分析
斯坦福情绪树库:带有情感注释的标准情绪数据集(6.1MB)
关于美国的航空公司的推特的情绪分析数据集(2.6MB)
中文对话情绪语料(1.1MB)
多域情感数据集(51.2MB)
sentiment140 情感分析数据集(72.6KB)
爬虫类
6000条周杰伦微博超话数据!(1.1MB)
《中餐厅3》19W弹幕数据(12.8MB)
bilibili流行动漫影评数据(2.3MB)
淘宝某店铺电风扇评论(273.9KB)
7K条马蜂窝国内热门景点游记(140+MB)
IMDB电影评论数据(32.0MB)
未名BBS热门话题(3.6MB)
咪蒙所有公众号文章(3.9MB)
6000条周杰伦微博超话数据(1.1MB)
麦当劳就餐负面评论数据集(891.1KB)
实体识别
用于命名实体识别的带注释语料库(26.4MB)
使用Lattice LSTM的中文NER数据(191.5KB)
医疗命名实体识别数据集(5.1MB)
中文实体关系抽取数据集(8.1MB)
金融信息负面及主体判定比赛数据集(17MB)
——CV大类——
Fashion-MNIST图像数据集(200.4MB)
CIFAR100数据集(161.3MB)
车辆数据集(车辆识别与分类)(62.5MB)
垃圾分类数据集
另一个垃圾分类数据集(40.9MB)
CIFAR10数据集(148MB)
GTSRB-德国交通标志识别图像数据(253.3MB)
手势识别数据库(1.1GB)
情绪的面部表情(170MB+)
枪支目标检测(2.4MB)
人脸图像数据(294.1MB)
RMFD口罩遮挡人脸数据集(610.3MB)
中国交警手势数据集(1.8GB)
场景分类数据集(105.9MB)
87种宝石图片数据(50.9MB)
验证码数据集(13.5MB)
硬币图像数据集(326.7MB)
LabelMe图像语义分割数据集(102.6MB)
车牌识别数据集(62.8MB)
Biwi头姿势数据库(449.7MB)
动物
Butterfly-200细粒度图像分类数据集(828MB)
宠物图像数据集(783.5MB)
狗狗种类图像数据集(919.5MB)
黑猩猩图片数据集(604.4MB)
植物:
水稻叶子疾病图片集(36.7MB)
植物幼苗图片数据集
花卉识别数据集(224.9MB)
花卉图像分类
可食用野外植物数据集
叶片计数图像数据集(882.3MB)
气象:
飓风损害的卫星图像数据集(63MB)
从卫星图像理解云层数据集(42MB)
字符识别:
TibetanMNIST藏文手写数字数据集(53.2MB)
MNIST手写识别数据集(9.5MB)
Chars74K字符识别数据集(188.3MB)
信用卡卡面图像及标注数据(42.9MB)
手写数学表达式识别(29MB)
图片与单词匹配数据集(31.1MB)
密集不规则文本行数据集(353MB)
视觉文字识别数据集
HASY手写符号图片数据集(127.2MB)
麻将图片数据集(7.5MB)
医疗:
犬球虫病寄生虫图片集(18.1MB)
头部CT图像数据(24.4MB)
肺部CT图像数据(529.0MB)
心血管疾病预测(2.7MB)
深圳医院胸片检查掩膜图片数据集(19.8MB)
肺部CT图像数据(529MB)
结核病图像数据集(456.8MB)
行人识别:
行人检测数据集ETHZ(146MB)
行人重识别数据集Market-1501(145.7MB)
行人重识别数据集RAiD(140.1MB)
行人重识别数据集prid_2011(1015.3MB)
汽车后视摄像头视角行人数据集(799.7MB)
——语音大类——
Mozilla语音数据集-中文(358.2MB)
2000个英语读数字的录音(8.9MB

 

 

声明:数据资源网(www.shujuzy.com)提供的所有数据、资料、素材等资源全部来源于互联网,本站不对所涉及的版权问题负法律责任,本站收费仅用于对数据资源网的信息整理费、服务器带宽及网站运营等费用支出做支持,从本站下载资源,说明你已同意本条款。