Game of Nodes 8进4, 指北君惨遭淘汰
指北君惨遭淘汰。
以下是 Game of Nodes 8 进 4 的截图拼贴。
指北君遇到的是这一题(对手交出来的可视化是右上角方案):
美国蜂窝塔覆盖问题
挑战描述:
您在一个由许多不同电信公司组成的大型美国电信网络中担任数据分析师。在过去 10 年中,该网络显着增长,扩大了其在该国的客户群和覆盖范围。经过这么长的扩展期,管理层希望全面了解网络的情况。因此,您的任务是创建一个交互式、高度可定制且响应迅速的仪表板,以传达关键见解。您有责任选择哪些见解值得与管理层分享。
此外,该数据集还提供有关 47,000 多个蜂窝塔的信息,例如位置、地理坐标、所有权和技术规格。因此,您的仪表板还应包括地理空间地图,显示国家/地区被蜂窝塔广泛覆盖的区域以及覆盖较差的区域,给定可定制的覆盖距离(例如,每个塔周围 20 公里的区域是视为适当覆盖)。
最后,根据仪表板中提供的见解,向管理层提供三项业务建议,以便他们能够更好地规划网络未来增长的投资。在注释中输入您的建议。
关键要求:您必须依赖 Geospatial Analytics Extension 的节点来预处理地理空间数据并创建交互式地图
期待结果:交互式数据应用程序,用于显示网络的关键见解以及地理空间地图上选定区域的蜂窝塔覆盖范围。
数据集
来自 Kaggle 的美国蜂窝塔数据集:https://www.kaggle.com/datasets/jahaidulislam/cellular-towers-in-usa
指北君探索笔记
对于 Dashboard 的话,其实并不是 KNIME 的强项,即使结合了 Geospatial Analytics Extension 扩展,交互性也相当有限。如果想要做一些可视化效果比较好的内容,要比 Tableau 付出更多努力,甚至在付出更多努力之后,也难以望其项背。
但 KNIME 也并非毫无还手之力,对于只想有一个不错的,也许可以使用的结果的时候,KNIME 自然能发挥它的作用。数据分析? 不,KNIME 早就超越了通俗意义上的数据分析了。让我们在本次挑战中见识一下。
对于纽约州的蜂窝塔覆盖大概是这样:
当然可以把蜂窝塔的位置映射到地图上:
但是我比较懒,散点图就很好。
btw, 加拿大为什么那么多绿地...
对于每一座塔来说,它都有一定的覆盖范围,在挑战中定义为 20 公里。显然这是为了问题的简化,这里的距离只能在非常开阔的地方实现,当然更不用说 5G 了。也就是说,在不区分基站大小、宏基站、微基站、微微基站以及可能存在的只面对某个方向扇形的基站的情况下进行简单建模。
同样,在后续分析中,我们也不去修饰这些覆盖了。另外,因为没有用人口数据,所以至于空白的位置要不要添加新塔的评估比较麻烦,我们也直接跳过。
至此,问题已经简化为,对于上述这些蜂窝塔覆盖,怎样用更少的蜂窝塔达成基本相同的覆盖 -- 即,拆除一些蜂窝塔或将其挪为它用。中文世界中管这叫,降本增效,哈哈。
指北君在这里使用了一种非常像特征选择的 RFE 方法(recursive feature elimination,递归特征消除), 即,每次随机移除一些点,然后观察总覆盖面积有没有下降,如果没有下降,那么就移除成功,如果下降的太厉害,那么就移除失败,继续尝试下一次移除,在随机几次移除都没有成功的情况下,宣告移除结束。(early stopping? )
是不是听上去很简单?其实效果也不错,如下图所示,左图是原来的一些蜂窝塔位置,右图就是移除之后的最终结果了。
整体移除效果么,我觉得还不错,再来看下最终 Dashboard 吧:
看上去似乎有 Bug, 上面的两个点怎么就被移除了? 这其实是因为我在算法中定义了一个阈值,用来 tradeoff 覆盖面积和移除,即,如果覆盖面积不小于原来覆盖面积的 99.99%,也可以移除。从这个角度来看,算法是有一定缺陷的,如果有更多的数据,比如各个街道的人口,各个塔日常的负载数据,也许这个问题会更容易解决一些,或者在考虑是否移除塔之前,做一些其他约束。
挑战还要求给管理层提建议,指北君建议,组建一个统一管理蜂窝塔规划、统一运营蜂窝塔的部门或公司。嗯? 铁塔公司?hahaha
对手方案
从截图来看,对手 狡猾 聪明的使用了人口的时间序列数据。根据人口增长的速度和基站增长的速度获取一些 insight,数据方面指北君是服气的,我也尝试搞定美国的census,怎奈 Access Denied
:
题外话,灯塔国你自己都这样,还有脸说别人的数据开放程度怎样怎样? shame on you
对手的可视化也是杀的我心服口服。
虽然被淘汰,但指北君对自己的降本增效方案还是比较满意的。哈哈。