第二届全国高校数据驱动创新研究大赛正式启动

 大赛介绍

    基于数据进行研究,对数据进行管理、共享和再利用,成为学术研究的新趋势。为了鼓励各学科领域学子基于数据进行研究,创新性地利用新方法、新技术分析发掘数据潜在价值,促进数据的流通和共享,由国家信息中心大数据发展部、北京市信息资源管理中心作为行业指导单位,北京大学图书馆、北京大学信息管理系、北京大学中国社会科学调查中心、重庆西部大数据前沿应用研究院主办,中国高等教育文献保障系统、重庆大学图书馆协办,面向高校、研究院(所)在读学生,开展数据驱动创新研究大赛。
    大赛于2018年11月至2019年4月期间举行,欢迎各学科领域优秀学子提交作品参与竞赛。
    大赛最新信息请参见官网(http://opendata.pku.edu.cn/competition-2019.xhtml)和微信公众号“第二届数据驱动创新研究大赛”。

    1.1参赛对象 
    全国高校、研究院(所)本科、硕士、博士在读学生。

    1.1.参赛形式和内容

    数据驱动创新研究大赛要求包括:总体要求、论文要求、数据要求。

    1.1.1总体要求

附录1“ 专题选题 ”,如下为专题列表。
专题一  基于“中国家庭追踪调查”(CFPS)的数据发现和挖掘
专题二  社会经济调查的职业和行业自动编码模型构建

  1. 以1~5人组队报名(每人最多只能参与2支队伍,且最多只能作为1支队伍的第一作者);
  2. 要求有指导教师;
  3. 需要基于数据进行研究,包含针对数据的相关分析和结论;
  4. 参赛成果提交的形式为研究论文,同时提供所使用的研究数据;
  5. 入围决赛的参赛团队,要求参加现场答辩;
  6. 参赛者允许组织方对参赛作品汇集成册、展示和宣传,并可推荐发表;
  7. 满足如下之一选题要求
    A 不限主题:各学科领域相关学术问题;
    B 限定主题:选择以下给定专题之一进行研究,专题详情及附加要求见

 

    1.1.2论文要求
  1. 研究内容需要具有一定的创新性;
  2. 论文字数在8000~15000之间;
  3. 论文格式需要遵循“全国高校数据驱动创新研究大赛-论文模板.doc”的要求,可从大赛官网下载;
  4. 参赛者允许提交的研究论文收录在北京大学机构知识库,论文在一定禁锢期后公开,不影响论文向期刊投稿发表。
   

    1.1.3 数据要求

    使用的数据需要满足如下条件之一:

  1. 北京大学开放研究数据平台中的数据。

    参赛团队可使用北京大学开放研究数据平台(http://opendata.pku.edu.cn)中的数据,平台中包含社会科学、计算机、历史等学科领域的200多个数据,如中国家庭追踪调查、中国健康与养老追踪调查等。平台及数据介绍见附录2。

  1. 自己收集整理的、具有一定原创性的研究数据。

    研究数据需要具有一定的原创性。即以为研究目的,自己收集整理了相关数据资源,对数据进行采集、清洗、预处理等加工步骤。数据的原创性将作为评分标准之一。例如,如下为具有一定原创性的研究数据:①为了研究微博用户行为而自己收集的微博博文数据;②为了研究大学生海洋意识而自己收集的调查问卷数据。
数据需要整理并提交至北京大学开放研究数据平台。对数据进行整理,并提供数据文档,说明数据的来源、采集和处理方法、数据格式及使用等。在成果提交时,数据也需要提交至北京大学开放研究数据平台的“全国高校数据驱动创新研究大赛”数据空间(http://opendata.pku.edu.cn/dataverse/contest),即在该数据空间下创建一个新的数据集。在成果评审时,管理员将对数据进行审核,并公开发布。
研究数据需要遵循北京大学开放研究数据平台使用政策。提交的数据不应:侵犯他人或其他实体的专利权、商标权、商业秘密权、著作权、公开权或其他权利的内容;包含非法、威胁、辱骂、骚扰、诽谤、中伤、欺骗、欺诈、侵犯他人隐私、侵权、淫秽、攻击或亵渎性质的内容;非授权广告、推送广告、垃圾或批量电子邮件(俗称“垃圾邮件”);包含软件病毒或任何其他计算机代码、文件或有意破坏、损害、限制或干扰任何软件、硬件或通讯设备正常功能的程序,或者意图破坏或非授权访问北京大学开放研究数据平台或其他第三方系统、数据或其他信息的程序。

1.2赛程赛制

    大赛的时间安排与组织形式如下:

  1. 培训与讲座。时间:2018-11-19~2018-11-23。举行大赛培训,介绍大赛的基本情况和要求,同时举办数据相关的讲座。方式:现场培训与网络直播,详情见附录3。
  2. 参赛报名。时间:2018-11-20~2019-01-10。参赛同学在大赛网站中组队报名,提交团队成员信息、指导教师、论文题目、简要介绍等。报名网址为:http://opendata.pku.edu.cn/registry-competition.xhtml
  3. 成果提交。时间:2019-01-11~2019-03-17。参赛同学在大赛网站中提交研究论文,原创数据、源代码(如果选择专题)需要上传至北京大学开放研究数据平台。成果提交网址为:http://opendata.pku.edu.cn/registry-competition.xhtml
  4. 成果评审。时间:2019-03-18~2019-04-10。对论文进行形式审查、专家评审,评审结果于2019-04-11在大赛官网公布。
  5. 现场答辩。时间:2019年4月下旬,具体时间待通知,地点北京大学。现场答辩,决出特等奖、一等奖、二等奖。
  6. 赛后活动。时间:2019年4月起,组委会将围绕大赛成果开展相关活动,提升作品的影响力。如:论文推荐发表、论文转写为数据新闻等,后续活动详情见大赛官网通知。

2.评审办法

    参赛团队将分组评比,包括:本科生组、研究生组(含硕士、博士)。参赛团队类型由该团队中成员最高学历决定,即本科生组的队员均为本科生,研究生组的成员至少有一位是硕士或者博士。

  1. 形式审核。在研究成果征集阶段,主办方对提交作品进行形式审核,审核的标准包括:论文是否书写规范、是否基于数据进行了研究、数据是否符合要求、论文查重等,符合要求的成果进入书面评审。
  2. 书面评审。主办方邀请学科领域相关专家对成果进行评价,评价标准包括:论文成果的创新性、数据的原创性和规范性、专题中算法模型的效果等。根据专家评分结果选择排名前8位的参赛团队进入决赛,并现场答辩,排名第9~16位获得三等奖,其他排名靠前的参赛团队将获得优秀奖。其中,不限主题和限定主题的获奖名额根据作品比例和质量确定。
  3. 现场答辩。排名前8位的队伍,需要进行现场答辩,由专家进行评审,决出特等奖、一等奖、二等奖。如不参与答辩,视为放弃决赛资格,按排名依次替补。

3.奖项设置

  1. 特等奖:奖金20000元,1组
  2. 一等奖:奖金10000元,2组
  3. 二等奖:奖金5000元,5组
  4. 三等奖:奖金3000元,8组
  5. 优秀奖:奖金1000元,若干组,不少于成功提交作品参赛队伍的30%

4.组织单位

    主办单位:北京大学图书馆、北京大学信息管理系、北京大学中国社会科学调查中心、重庆西部大数据前沿应用研究院
     协办单位:   中国高等教育文献保障系统、重庆大学图书馆
    行业指导单位:国家信息中心大数据发展部、北京市信息资源管理中心
    赞助单位:    企研数据(杭州古德科技有限公司)
    数据支持单位北京国信宏数科技有限责任公司、企研数据(杭州古德科技有限公司)、成都数联铭品科技有限公司、同方知网(北京)技术有限公司、重庆泛语科技有限公司

5.联系方式

    大赛最终解释权归主办方所有。如果您对大赛有任何问题,可以通过邮箱、电话与我们联系,感谢您对大赛的关注与支持!
    邮箱: data-research@lib.pku.edu.cn
    电话: 张老师 010-62753907

附录一 专题选题

专题一: 基于“中国家庭追踪调查”(CFPS)的数据发现和挖掘 
分主题1:预测家庭样本的流失。参赛者在CFPS 2016年发布的家庭关系库(数据下载地址为:http://opendata.pku.edu.cn/dataset.xhtml?persistentId=doi:10.18170/DVN/45LCSO)中近15000个fid16中选出1000个最有可能在2018年流失的家庭。CFPS 2018实地工作结束后我们根据执行的最后结果选出命中率最高的参赛作品。
分主题2:收入数据的插补。由于收入数据较为敏感,在抽样调查中会出现一定比例的缺失情况。参赛者针对缺失以及可疑的收入数据提出插补方案并给出插补结果。我们将组织相关方面专家对方案的合理性以及最终结果进行评估。
以上两个主题均不限研究方法,传统的统计模型或机器学习方法均可。
附加要求:①需要提交参赛源代码至北京大学开放数据平台,代码需要为Python、R或其他编程类语言代码;②需要有说明文档描述代码的运行环境和使用方法;③代码结构清晰,有适当的注释。

专题二: 社会经济调查的职业和行业自动编码模型构建 
社会经济调查中通常会采集职业和行业信息,为方便数据用户使用这些信息,一般会事先基于国家标准化管理委员会发布的《职业分类与代码》对上述信息进行编码。组委会将在竞赛平台上提供部分社会经济调查中采集得到的职业和行业的具体描述信息,以及相应的已经编码成功的代码。要求参赛者基于上述数据(数据下载地址为:http://opendata.pku.edu.cn/dataset.xhtml?persistentId=doi:10.18170/DVN/PEMXPX),构建自动编码模型。组委会将利用该模型,应用于其他已人工编码成功的数据。基于模型预测的准确度,评判模型的优劣。
附加要求:①需要提交参赛源代码至北京大学开放数据平台,代码需要为Python、R或其他编程类语言代码;②需要有说明文档描述代码的运行环境和使用方法;③代码结构清晰,有适当的注释。

 

 附录二北京大学开放研究数据平台

  1. 平台简介

北京大学开放研究数据平台的由北京大学图书馆、国家自然科学基金-北京大学管理科学数据中心、北京大学科研部、北京大学社科部联合主办和推出。平台以“规范产权保护”为基础,以“倡导开放科学”为宗旨,鼓励研究数据的发布、发现、再利用和再生产,促进研究数据引用的实践和计量,并探索数据长期保存,培育和实现跨学科的协同创新。

  1.   平台数据

北京大学开放研究数据平台现有200多个数据集,数据被Web of Science数据引用索引数据库收录。如下给出了一些典型的研究数据集:
中国家庭追踪调查,http://opendata.pku.edu.cn/dataverse/CFPS
中国健康与养老追踪调查,http://opendata.pku.edu.cn/dataverse/CHARLS
中国老年人健康长寿影响因素调查,http://opendata.pku.edu.cn/dataverse/CHADS
中国历代人物传记资料库,http://opendata.pku.edu.cn/dataverse/crach
北京社会经济发展年度调查,http://opendata.pku.edu.cn/dataverse/BAS
国家信息中心大数据发展部提供的数据,
http://opendata.pku.edu.cn/dataverse/contest_official