组织架构
主办单位:全国高等学校计算机教育研究会参赛对象
大赛的参赛对象是高校所有专业在校生,本研组(本科、研究生)和高职组(高职、高专)分别评奖。
报名时间
2024/8/1-2024/11/9
区域赛/省赛时间
2024/10/10 15:00-11/10 24:00
晋级国赛公示
2024/11/15
国赛时间
2024/11/18-11/22
国赛公示
2024/12/5
*支付方式
一、赛题背景
客观事实是新闻报道的第一要素,坚持新闻的真实性是对新闻工作者和新闻媒体最基本、也是最重要的要求。
虚假新闻是指为了达到某一目的而发布假信息达到欺骗当事者的一种舆论,未能真实反映客观事物本来面貌、带有虚假成分的报道。对于社会和受众,是严重的伤害;而对于新闻界自身,是致命的毒瘤。不但损害了媒体公信力,也给国家、社会带来危害。在一些新闻从业者和新闻媒体罔顾新闻真实性,无度追求时效性、可读性之后,虚假新闻已经成为一大公害。
在网络发达和AI日益崛起的当今社会,自动化检测虚假新闻格外具有意义和使用价值。
二、时间安排
报名时间:2024年8月1日—2024年11月9日
区域赛开始时间:2024年10月10日 15:00开放区域赛数据集下载
区域赛作品截止提交时间:11月10日 24:00
晋级决赛公示:2024年11月15日
决赛时间:2024年11月18日—11月22日
决赛公示:2024年12月5日
说明:比赛获奖公示后3个工作日内,接受异议、申诉和违规举报。
三、奖项设置
省赛段奖项设置由各省赛区自行设定,详见各省赛区赛事官网。省赛和区域赛合并办赛的,以所在省成绩排名来晋级国赛。
区域赛各科目成绩根据各区域考生成绩分别排名,分设一等奖10%、二等奖20%和三等奖25%,颁发电子荣誉证书和电子指导老师证书。
各区域一、二等奖获奖选手将晋级国赛,国赛设一等奖不超过参赛数的10%、二等奖不超过参赛数的20%、三等奖不超过参赛数的30%,获奖师生将颁发电子荣誉证书和电子指导老师证书。各赛项成绩前三名获奖队伍将获得大赛奖金。颁发奖金1000元/队伍(税前)。
四、参赛规则
1.参赛对象
挑战赛的参赛对象是高校所有专业在校生,本研组(本科、研究生)和高职组(高职、高专)分别评奖。
2.参赛费用
区域赛赛段团队赛收取报名、考试及评审费人民币180元/队。挑战赛秉持公益办赛原则,费用仅用于获奖奖金、大赛系统开发、场地、交通、设备、专家评审等。费用由技术支持单位中觅科技有限公司(开户行名称:招商银行股份有限公司合肥三孝口支行 银行账号:551908703110002)代收代付并开具发票,学校有关部门要积极支持大赛工作,对指导教师在工作量、活动经费等方面给予必要的支持。
国赛不再另行收费。
各省/地区依据办赛经费情况可自行设定收费区间,费用仅用于大赛成本及各项支出。具体各地区或各赛项费用说明见赛事文件。
3.参赛组队
参赛学生自行在大赛官网进行报名,缴费考生默认为队长,每支参赛队伍限1—3名队员 (含1名队长) ,队员信息由队长在官网填写,队员无需重复缴费。参赛队伍可设1名指导老师。各高校参赛队数不限,允许跨校组队。
五、赛题和数据
1.任务描述
(1)赛题任务
赛题将提供一批新闻信息,选手对给定的新闻信息进行真伪分类。
(2)数据使用规则
本赛题允许使用外部数据。
本次比赛禁止选手使用任何形式的大模型进行比赛。
2.数据集描述
本次赛题提供中文信息数据集,数据字段包括:`id`,`Ofiicial Account Name`,`Title`,`News Url`,`Image Url`,`Report Content`和`label`。`Title`是新闻的标题,`label`是新闻的标签(0是real消息,1是fake消息)。
数据集包含训练集和测试集,训练集将在比赛开始前提供给选手下载用于模型训练;测试集不提供下载,保存在服务器后台,用于推理结果的评测。训练集不少于8000条样本,区域赛测试集不少于4000条样本,决赛测试集不少于4000条样本。
训练集数据样例如下:
测试集数据样例如下:
数据来源:
1.Wang, Y., Yang, W., Ma, F., Xu, J., Zhong, B., Deng, Q., & Gao, J. (2020). Weak Supervision for Fake News Detection via Reinforcement Learning. Proceedings of the AAAI Conference on Artificial Intelligence, 34(01), 516-523.
2. 网络收集。
为避免同一时间、大量对新闻服务器进行访问而被误认为是攻击行为,把News Url和Image Url的内容分别保存为html和png,通过id唯一识别。由于时效性和网页重定向等多重原因,可能会有极少页面获取内容不正确,选手可自行制定策略处理。
初赛将训练样本、html和png同时提供,目录组织如下:
train/
train/train.csv
train/html/*.html
train/image/*.png
测试集不提供,推理环境不提供网络访问,目录组织与训练集类似:
test*_x/
test*_x/test*_x.csv
test*_x/html/*.html
test*_x/image/*.png
六、评价标准
(1)提交次数限制:每支团队每天最多提交1次。
(2)评分指标:
主办方将对参赛队伍产生的推理结果与比赛主办方公布的标准结果进行一致性评估,最终得到各参赛队伍初赛作品的评测结果。
比赛使用F1,即
测评代码参考如下:
参赛队伍请自行使用官网上的测评程序对验证集数据(由选手自行划分)的输出结果进行评估,如参赛队伍产生的校对结果文件未能与官网上的评估程序相兼容,则需自行对结果格式进行调整和修改。
七、作品提交要求
本次比赛为提交模型及代码的比赛。
1.提交说明:提交需为zip压缩包,内部文件编码格式为utf-8,目录结构为:
-model
-requirements.txt
-run.py
-other files or folders
【requirements.txt】需包含所有依赖包,及其版本
【run.py】按照函数内部需求,不能修改固定区域的文件
【other files or folders】需要包含所有程序文件,如模型文件,如功能函数
2.服务器参数
以下为暂定,以测试服务器实际上线为准,届时将重新公布服务器参数:
python版本: 3.8
NVIDIA-SMI: 535.183.06
Driver Version: 535.183.06
CUDA Version: 11.3 + 12.1
推理镜像参考: https://github.com/Datacastle-Algorithm-Department/images/blob/main/doc/py38.md
3.模型输出文件demo:
数据发布后,会提供submit_example.zip文件。
八、其他规定
1.数据使用有哪些要求?
本次大赛提供的全部数据、信息等。未经允许,任何人不可以任何形式使用、传播、披露、授权他人使用。
2.限制原则是什么?
作品必须健康、合法、无任何不良信息及商业宣传行为,不违反任何中华人民共和国有关法律。须保证原创性,不侵犯任何第三方知识产权或其他权利;一经发现或经权利人指出,主办方将直接取消其参赛资格,主办方保留赛事解释权。
3.关于大模型的限制说明:
(1)需要使用api的大模型不可使用
(2)需要网络连接的大模型不可使用
(3)模型大小(包含权重和代码)不得超过2GB,超过2GB的由于上传大小限制不可使用
(4)模型使用需要有自己的工作量,比如权重训练,模型结构优化,新模块的使用等等
九、联系信息
信息发布地址:
http://www.ncccu.org.cn/index/Paper/case1.html
*支付方式