数据科学导论,什么是数据分析与处理

数据 0

1 数据科学导论 IntroductiontoDataScience 课程实验介绍 黄振亚,陈恩红,刘淇 Email:huangzhy@,cheneh@ 课程主页:/~huangzhy/Course/DS2021.html AnIntroductiontoDataScience 9/28/2021 课程要求与考核方式
2 课程目标:用科学的方法研究和应用数据课程要求 文献调研报告1份 每人一份时间节点:第10周上课前(2021年11月9日) 实践报告1份(需要编程) 以小组为单位提交,每小组一份,包含每个人的工作介绍组队节点:第9周上课前(2021年10月26日)时间节点:第15周上课前(2021年12月14日) 考核方式 课堂出勤(30%)+调研报告(30%)+实践报告(40%) 实验(2021.12.14)
3 两个实验方式 实验方式1:参加指定问题的数据比赛实验方式2:在完成1的基础上,有余力的同学,也可以自己寻 找问题和数据,自行设计方法,进行实验 重点:大家在实践中熟悉数据科学知识,锻炼团队合作能力,只要在报告中叙述清楚、内容合理即可 学习:分析问题、解决问题、代码实践、团队协作、报告撰写项目组成员、任务分工和组织、个人总结收获编程与实践基础介绍高年级学长(研究生)给大家指导 9/28/2021 实验方式1:大数据竞赛
4 大数据竞赛:组队(1~3人)参加给定的比赛,最后将做题思路、结果以及比赛排名以报告形式提交 报告内容 比赛名称队伍名问题定义做题思路,模型设计比赛排名团队成员分工个人总结和感悟 9/28/2021 实验方式2:自选问题实验
5 自选问题实验:结合本学期上课内容,组队(1~3人)并根据拟定问题,和可用数据集,在该数据集上进行实验并对结果进行评价,将所得结果以报告形式提交。
报告内容 问题定义数据集介绍模型的设计与实现实验结果评价团队成员分工个人总结与感悟 9/28/2021 组队要求
6 可以单挑,可以组队(1-3人)组队成员 班内的同学,跨系,跨院未选本课程的同学(注明信息)校外的同学(注明信息) 注明个人分工 未选本课程的同学无需提交个人感悟 实验报告评分要求
7 数据分析:对问题与数据的分析、特征的处理等情况模型方面:模型的选择是否合适、是否调参、是否尝 试并比较多种模型团队协作:个人分工是否明确合理实验过程:认真度、工作量、思路合理性报告条理:是否条理清晰,内容充足是否迟交是否有抄袭嫌疑(源代码) 比赛平台
8 比赛平台-供了解 CCFBDCI(主要) /special/BDCI2021 天池 petition/gameList/activeList Kaggle petitions 会议竞赛 KDDCUP(“大数据世界杯”、数据挖掘领域“奥运会”)NeurIPS2021CompetitionTrack /Conferences/2020/CompetitionTrack 9/28/2021 比赛实例
9 天池:petition ACMMM2021:RobustLogoDetection 背景:商品、视频、音乐等领域知识产权问题逐步受到关注,存在着非法商户通过一些对抗手段干扰商标识别来逃避侵权 数据量:采用目前规模最大的标识检测数据集合OpenBrand,来源于各大电商平台,包含584,920图片,1,303,563的标注量 中科院、美国东北大学、中国移动、哈工大、浙大等36490支队伍参赛 CVPR2021AliProductsChallenge:Large-scaleProductRecognition 背景:电商企业面临的大规模、细粒度商品图像识别问题数据量:300万张图片,涵盖了5万个SKU级商品类别雅虎、字节跳动、南洋理工大学、香港科技大学、清华大学等623支队伍参赛 9/28/2021 比赛实例 10 Kaggle GoogleResearchFootballwithManchesterCityF.C. 背景:谷歌Research提供了一个基于物理的足球环境,可用于探索人工智能在足球等复杂环境中发挥作用的能力,因此曼城足球队的数据洞察与决策技术总监布莱恩·普雷斯蒂奇(BrianPrestidge)提出了这个挑战。
网易、DeNA、Intelecy等1100多支队伍参赛,腾讯的绝悟WeKick夺冠 9/28/2021 比赛实例 11 KDDCup2021OGB赛道 WikiKG90M-LSC 背景:大型百科知识图谱(KGs),如Wikidata和Freebase,通过连接不同实 体的三连体表示关于世界的事实知识,例如,(GeoffreyHinton,citizenof,Canada)。
然而,这些大型KGs远远不够完整,缺少实体之间的许多关 系信息,因此需要机器学习方法补充 数据量:159GB DeepMind、微软、UCLA、蚂蚁金服、OPPO、华中科技大学等全球500多个顶尖企业、高校和实验室参赛 排名12
3 团队 百度 哈工大中科大 硬件水平/ 380Gmemory,TeslaP100permodel 1TBmemory,8NVIDIAGEFORCEGTX2080TI 9/28/2021 实验题目 12 (课程考核赛题)现提供以下实战题目和若干训练数据集 BDCI-21比赛题目:个贷违约预测BDCI-21比赛题目:产品评论观点提取BDCI-21比赛题目:剧本角色情感识别 推荐的训练数据集(不是本课程考核的内容) UCI数据集:社区犯罪率预测UCI数据集:森林覆盖类型预测UCI数据集:个人收入预测 实验基本信息 13 数据集:训练集+测试集 常用评价指标 回归任务:RMSE,MAE,NRMSE…分类任务:ACC,AUC,Recall@
K,MRR@K...主办方自行定义指标 A/B榜:评分排名时测试数据分割为A/B两份,分别评分并生成对应排行 榜,目的是为了防止对测试数据过拟合A榜在“提交开放阶段”对提交结果自动评分并排名,生成A榜B榜在“提交截止阶段”对提交结果自动评分并排名,生成B榜,确定决 赛资格 课程考核赛题BDCI-21:个贷违约预测 14 CCFBDCIX中原银行任务介绍:因为缺乏对新客群的了解,银行对新的细分客群的风控处理往 往成为金融普惠的重要阻碍。
本次比赛中,选手需利用信贷数据,帮助实现对新业务的用户违约预测。
数据集:数据集来源为个人贷款数据和网络信贷数据脱敏仿真。
数据包括了贷款数额、贷款年份、当前贷款利率、分期付款金额、贷款级别等。
评估方式:本赛题采用AUC进行评价。
重要时间节点: 9月16日开始报名,9月22日开放A榜提交,11月20日停止A榜提交,11月22日B榜提交,11月23日决赛开始,12月5日决赛答辩结束。
比赛链接:petitions/530 2021/9/28 课程考核赛题BDCI-21:个贷违约预测 15 数据示例: 训练数据:train_.csv,train_public.csv loan_iduser_idtotal_loanyear_of_loaninterest… 119262012000.0511.53… 贷款记录唯一标识用户唯一标识贷款金额贷款期限(year)贷款利率… 输入 isDefault(输出):贷款违约预测结果(1:违约,0:不违约) 2021/9/28 课程考核赛题BDCI-21:剧本角色情感识别 16 CCFBDCIX爱奇艺任务介绍:剧本分析是影视内容生产链条的第一环,其中剧本角色的情感识 别是一个非常重要的任务。
本次比赛中,选手需对剧本中每句对白和动作描述中涉及到的每个角色从多个维度进行分析并识别出情感。
数据集:数据集来源于一部分电影剧本,以及爱奇艺标注团队的情感标注结果。
数据包括了文本内容和角色名。
评估方式:本赛题采用RMSE进行评价。
重要时间节点: 9月16日开始报名,9月22日开放A榜提交,11月20日停止A榜提交,11月22日B榜提交,11月23日决赛开始,12月5日决赛答辩结束。
比赛链接:petitions/518 2021/9/28 课程考核赛题BDCI-21:剧本角色情感识别 17 数据示例: e1:我不骗你,我可以带你赚很多很多的钱,嫁给我好吗?e13,0,0,0,0,0文本内容(输入):e1:我不骗你,我可以带你赚很多很多的钱,嫁给我好吗?角色名(输入):e1情感(输出):3,0,0,0,0,0解释: 本赛题的情感定义共6类(按顺序):爱、乐、惊、怒、恐、哀;情感值范围是[0,1,2,3],0-没有,1-弱,2-中,3-强 2021/9/28 课程考核赛题BDCI-21:产品评论观点提取 18 CCFBDCIX中原银行 任务介绍:用户评价和反馈对企业改善产品和服务有极强的指导意义,但互联网的海量信息容量让人工查找并处理评价内容的方案代价高昂。
本次比赛中,选手需通过语义情感分析技术判断一段银行产品评论文本的情感倾向。
数据集:数据集来源于知乎、理财贷款论坛、投资理财通、银行客服等公开评论文本。
数据包括了评论原始文本BIO格式的实体标注。
评估方式:本赛题一部分为NER任务,以strict-F1作为衡量标准S1;一部分是情感分类任务,以Kappa作为衡量标准S2。
评价指标S=S1+S2 重要时间节点: 9月16日开始报名,9月22日开放A榜提交,11月20日停止A榜提交,11月22日B榜提交,11月23日决赛开始,12月5日决赛答辩结束。
比赛链接:pe2t0i2ti1o/9n/s2/8529 课程考核赛题BDCI-21:产品评论观点提取 19 数据示例: 当然是拿来买基金啊,白嫖多香。
OOOOOOB-PRODUCTI-PRODUCTOOOOB-COMMENTS_ADJI-COMMENTS_ADJO,
2,其它银行 原始文本(输入):当然是拿来买基金啊,白嫖多香。
BIO格式的实体标注(输出):OOOOOOB-PRODUCTI-PRODUCTOOO OB-COMMENTS_ADJI-COMMENTS_ADJO情感(输出):2(1:正面,0:负面,2:中立) 当然是拿来买基 金啊,白嫖多 香。
OOOOOOB-PRODUCTI-PRODUCTOOOO B- I-
O COMMENTCOMMEN S_ADJ TS_ADJ 代表产品实代表产品实体的开始体的内部 代表用户评论(形容词)的开始 代表用户评论(形容词)实体的内部 训练:UCI数据集:社区犯罪率预测 20 数据链接:http://archive.ics.uci.edu/ml/datasets/Communities+and+Crime 数据简介:美国境内社区数据,整合了1990年美国人口普查的社会经济数据,1990年美国LEMAS调查的执法数据和1995年FBIUCR的犯罪数据。
特征类型多变量 实例数量1994 特征数量128 任务类型回归 缺失值有 注:特征值已经过归一化 任务目标:预测每10,000人的暴力犯罪数量(对应变量ViolentCrimesPerPop) 训练:UCI数据集:森林覆盖类型预测 21 数据链接:http://archive.ics.uci.edu/ml/datasets/Covertype数据简介:数据为来自美国地质调查局(USGS)、美国林务局(USFS) 和资源信息系统(RIS)的制图变量(无遥感数据),研究区包括位于科罗拉多州北部罗斯福国家森林的四个荒野地区。
特征类型多变量 实例数量581012 特征数量54 任务类型分类 缺失值无 注:数据为原始形式(未缩放),且包含定性自变量(荒野区域和土壤类型)的二进制(0或1)数据列。
任务目标:预测森林覆盖类型(对应变量:Cover_Type) 训练:UCI数据集:个人收入预测 22 数据链接:e+%28KDD%29 数据简介:该数据集包含从美国人口普查局进行的1994年和1995年当前人口调查中提取的加权人口普查数据。
实例权重(instanceweightMARSUPWT)表示由于分层抽样,每个记录所代表的人口中的人数。
特征类型多变量 实例数量299285 特征数量40 任务类型分类 缺失值有 注:此数据集已分好训练集和测试集 任务目标:预测个人总收入(对应变量:totalpersonePTOTVAL) 训练:QM9数据集:分子属性预测 23 数据链接:/geekinglcq/QM9nano4USTC 数据简介:该数据集包括了13万有机分子的构成,空间信息及其对应的属性,它被广泛应用于各类数据驱动的分子属性预测方法的实验和对比。
除了原始数据外,我们还给出了一些有效的预处理/特征工程方案,如CM,HOB,BAML等. 特征类型多变量 实例数量特征数量 133,885 / 任务类型回归 缺失值有 任务目标:预测分子能量(对应变量:U0) 训练:QM9数据集:分子属性预测 24 实验室平台CODIA 25 CODIA:https://code.bdaa.pro 大数据分析与应用实验室自主研发欢迎大家使用,提出宝贵意见欢迎大家加入 实验室平台CODIA 26 CODIA:https://code.bdaa.pro 大数据分析与应用实验室自主研发欢迎大家使用,提出宝贵意见欢迎大家加入 实验(2021.12.14) 27 当前任务 10月26日前完成实验组队和选题,并把相关信息发给助教注意比赛报名时间填写问卷调查,便于安排编程与比赛介绍 助教:刘嘉聿ds_intro2021@QQ群:697196774 2021/9/28

标签: #鼠标 #一是 #布朗 #什么表最好排名 #有什么 #能力 #数据 #高校