本项目围绕企鹅样本数据(Palmer Penguins 数据集)展开,分析不同物种在形态特征、性别和岛屿分布上的差异,并进一步判断这些差异是否能够帮助区分企鹅物种。数据集同时包含类别变量(物种、岛屿、性别)和数值变量(喙长度、喙深度、鳍状肢长度、体重 ...
churn-prediction/ ├── docker/ │ ├── docker-compose.yml # Full cluster definition │ └── hadoop.env # HDFS configuration ├── data/ │ ├── raw/ # Original Kaggle CSV │ ├── cleaned/ # After Spark cleaning ...