Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

大作业说明 #9

Open
andyhuang18 opened this issue Jan 5, 2024 · 3 comments
Open

大作业说明 #9

andyhuang18 opened this issue Jan 5, 2024 · 3 comments

Comments

@andyhuang18
Copy link
Collaborator

细则

  • 组队规则:1个人/组

  • 作业内容:完成一个完整的数据作品

    • 涉及完整的数据科学过程:数据获取、数据预处理、数据探索、数据建模(可选)
    • 真实数据、有趣的问题
    • 一个数据作品报告(包括源代码、实验报告)
  • 时间节点:

    • 最终截止时间:2024 年 1 月 20 日 24点
  • 提交方式:

  • 参考信息见下

@andyhuang18
Copy link
Collaborator Author

以鸢尾花为例的数据科学过程任务(参考)

  1. 参考 lab05 部分内容,调用scikit-learn包的相关内容,完成数据读取数据预处理数据展示数据建模结果展示的流程。用notebook的形式完成实验报告。

  2. 其中数据建模不可以使用已实践过的机器学习方法(即k-近邻算法和k-means聚类),可以参考的是支持向量机(SVM)决策树逻辑回归等算法。

  3. 可以模仿 lab05 的流程,注意在数据展示和结果展示,用尽可能形象的图表展示。在数据展示部分,可以参考 lab02 对数据进行统计信息的计算。

以 Github 机器人数据为例的数据科学过程任务(参考)

  1. 参考 lab06 建模的部分内容,调用scikit-learn包的相关内容,完成数据读取数据预处理数据展示数据建模结果展示的流程。用notebook的形式完成实验报告。

自选主题的数据科学过程任务流程(参考)

1. 选题

  • 选择一个你真正感兴趣的主题,确保你选择的主题有足够的可获得数据。
  • 选择一个有实际应用意义的主题,这样你的项目不仅仅是一个练习,而且有可能对现实问题提供解决方案。
  • 说明该项目任务的内容和需要达成的目的。
  • 说明选题的研究意义与重要性。

例子

  1. 针对亚马逊消费者数据的研究

随着互联网的普及和电子商务的迅速发展,消费者在线购物已经成为现代社会中不可或缺的一部分。亚马逊作为全球最大的电商平台之一,吸引了数以亿计的用户,其海量数据蕴含了丰富的信息,深入挖掘这些信息对于理解消费者行为、改进用户体验以及提升商业竞争力具有重要的意义。

image

  1. 2022-2023赛季NBA球员薪水及状态的数据分析与可视化

NBA,作为当今最热门的篮球联赛,随着其快速发展,nba球员的薪资也水涨船高。我们不由得思考,在当今联盟的比赛节奏中,球员的哪些数据更能决定其薪资水平,联盟球员的薪资分布情况。并进一步根据当前赛季的工资帽占比推测出球员的薪资水平。

  1. 2023年度B站每周必看数据及热点分析

毫无疑问,B站是中国年轻人使用的最多的视频类网站(软件)。根据bilibili 2023年Q1财报显示,B站日均活跃用户已达9,370万,用户日均使用时长达到96分钟。超过150万UP主(即上传视频者的代称)在B站获得收入,月均投稿量超2,200万。因此,分析B站的每周必看板块的数据以及热点,具有较高的价值。

image

2. 数据获取

网络爬虫

方法参考实验手册

API请求

方法参考实验手册

数据集网站下载

  1. UCI Machine Learning Repository: 提供了大量机器学习领域的数据集,包括分类、回归、聚类等。
  2. Kaggle Datasets: Kaggle 是一个以数据科学竞赛为主的平台,它也提供了一个数据集平台,包含了来自各个领域的数据。
  3. Google Dataset Search: Google 提供的一个数据集搜索引擎,可以通过关键词搜索找到各种数据集。
  4. AWS Open Data Registry: 亚马逊 AWS 提供的开放数据集合集,覆盖了多个领域,可以免费访问。
  5. Data.gov: 美国政府提供的开放数据平台,包含了来自各个政府机构的数据。
  6. Microsoft Research Open Data: 微软研究提供的一些开放数据集,涵盖了计算机科学、社会科学等领域。
  7. IMDb Datasets: IMDb 提供的数据接口,包含了电影、电视剧等娱乐行业的数据。

3. 数据预处理

  • 删除重复数据
  • 缺失值处理
  • 数据类型变换

具体内容可以参考实验手册

4. 数据探索

  • 基本数据统计信息
  • 数据可视化展示

具体内容可以参考实验手册

5. 数据建模 (可选)

  • 机器学习方法
  • 深度学习方法

6. 结论

部分作品展示

完整数据科学流程

  1. LOL游戏前十分钟的对局数据分析,预测该局游戏的最终胜方
  2. 基于LSTM模型的城市用电量预测
  3. PokeMon(Gen1 - Gen7)数据分析

可视化展示

  1. 开源社区对比研究
  2. 2023年度B站每周必看数据及热点分析
  3. 2018-2023五年间玩家群体中gpu型号的调查

温馨提示

  1. 最终实验报告用PDF、MD或者ipynb的格式呈现。
  2. 如果是自选的数据集,需要把数据集一并提交。
  3. 完成项目期间遇到的问题,可以记录在实验报告中,什么问题、为何出现、如何解决

@andyhuang18
Copy link
Collaborator Author

示例数据

除了鸢尾花数据和github机器人数据,也为大家提供了三个示例数据集:

  1. bilibili2023年观看数据
  2. 工作薪资数据
  3. 数学成绩数据

@andyhuang18
Copy link
Collaborator Author

另外,课堂的录播回放已经上传到水杉平台了,最后一节课讲解了大作业的内容,同学们可以通过以下网址观看~

https://www.shuishan.net.cn/mooc/course/1744175336958689281

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant