🀄 培训与咨询
赵老师(Zhao Yongjiang)与指北君(Luo Yuxi)均取得了 KNIME 官方认证培训师资格, 且指北君在 2023/08 以及 2024/01 两次获得了 KNIME 官方给予的 COTM 称号, 专业程度毋庸置疑。我们将会根据具体问题情况给予您 KNIME & Python 培训、软件开发、数据开发方面最可行的方案。
以下为培训标准课程,我们会根据您的情况对课程内容进行定制
KNIME 基础课程
本部分包含开始使用 KNIME Analytics Platform 进行数据科学的课程材料。课程内容从详细介绍 KNIME Analytics Platform 开始,包括如何下载、使用工作台,以及如何应用于数据科学周期的各个阶段(数据导入、操作、聚合、可视化、模型训练和部署)。
课程章节 | 内容描述 |
---|---|
第一节 | KNIME Analytics Platform 介绍与数据访问 |
什么是 KNIME Analytics Platform | |
用户界面导览 | |
创建你的第一个工作流 | |
从文件读取数据 | |
从数据库读取数据 | |
第二节 | 数据清理、数据转换与工作流文档化 |
过滤行与列 | |
转换单元格中的值 | |
转换表格 | |
组织和记录工作流 | |
第三节 | 数据合并、数据聚合与数据导出 |
合并多张表格 | |
多种方式合并表格 | |
聚合表格中的值 | |
将数据写入多种文件格式 | |
第四节 | 数据可视化与报告 |
使用各种图表进行数据可视化 | |
创建带有自定义布局的仪表板 | |
生成自定义报告 | |
第五节 | 总结 |
KNIME 高级课程
该课程涵盖了流变量、各种工作流控制(如循环、开关和错误处理),以及如何为机器学习模型自动获取最佳参数设置。此外,还涉及到日期和时间的处理,集成模型、参数优化和交叉验证等概念。
课程章节 | 内容描述 |
---|---|
流变量与组件 | 本章节主要介绍了如何使用 KNIME 中的流变量、组件、配置节点以及小部件节点的重新执行功能。 |
工作流控制与调用 | 讲解了如何在 KNIME 中使用循环、IF 和 CASE 开关、Try-Catch 结构,以及如何调用工作流。 |
日期和时间、数据库、REST 服务、Python 和 R 集成 | 这一部分介绍了日期和时间数据的处理、数据库内的处理、REST 服务,以及 KNIME 中与 Python 和 R 的集成方法。 |
数据工程/数据分析/数据科学 | 通过介绍数据源、结构化与非结构化数据、数据存储、数据读写、数据库日志记录(或高级数据访问、多页报告、Excel 样式化、机器学习基础)等内容,帮助学员掌握数据工程、分析或科学相关的高级技能。 |
数据应用与 KNIME 商业中心(Business Hub)
本课程涵盖了有关如何启动和运行数据应用程序的主题:测试、在 KNIME Business Hub 上部署、权限和版本控制、自定义样式、工作流编排等内容。
课程章节 | 内容描述 |
---|---|
部署数据应用的准备 | 讨论原型完成后的部署步骤:集成部署、工作流服务、测试以及部署选项等。 |
KNIME 商业中心介绍 | 介绍如何连接和上传工作流、创建和管理版本、工作流差异分析、工作流执行与部署、以及运行中的任务编辑。 |
数据应用 | 探讨数据应用的组件组合视图,展示完整的数据应用实例。包括分页、“下一步”按钮、重新执行、条件视图与路径、循环、文件上传与下载小部件等。 |
ETL、ELT与数据管道验证 | 探讨数据管道的类型,介绍数据科学持续部署框架(CDDS),演示在 CDDS 上进行简单和自动化的部署。 |
数据科学的持续部署 | 介绍数据科学持续部署框架(CDDS),演示在 CDDS 上进行简单和自动化的部署,并进行模型性能测试。 |
数据管道的最佳实践 | 讨论数据治理的最佳实践,包括质量管理、安全性、事件记录与跟踪、调度以及性能优化等。 |
KNIME 与机器学习
该部分涵盖了数据科学应用中最常用的机器学习算法,包括用于分类和数值问题的监督学习算法,如决策树、逻辑回归、集成模型等。同时介绍推荐引擎、神经网络以及深度学习的最新进展。此外,还将研究无监督学习技术,如 K 均值聚类、层次聚类和 DBSCAN。
课程章节 | 内容描述 |
---|---|
机器学习概论 | 学习使用案例,监督学习与无监督学习的区别,分类问题与数值预测问题的差异。介绍数据科学生命周期的不同步骤。 |
决策树 | 学习决策树算法及分类模型的评估方法。 |
回归模型和集成模型 | 学习线性回归算法及数值预测模型的评估方法,回归树算法,集成模型(Bagging 和 Boosting)。 |
逻辑回归 | 学习逻辑回归算法、似然函数以及梯度下降法。 |
神经网络 | 比较生物神经元与人工神经元,学习前馈神经网络与反向传播的概念,简要介绍循环神经网络 (RNN) 和卷积神经网络 (CNN)。 |
推荐引擎 | 学习 A-priori 算法和协同过滤方法。 |
聚类 | 学习 K 均值聚类、层次聚类和 DBSCAN 算法。 |
数据预处理 | 学习降维、异常值检测、缺失值填补和特征选择等数据准备技术。 |
KNIME 与时间序列分析
本课程介绍时间序列分析的核心概念,特别是用于预测的应用。涵盖数据清洗、缺失值填补、基于时间的聚合技术、构建过去值的向量/张量、描述性分析、模型训练(从简单的基础模型到复杂的统计和机器学习模型)、超参数优化以及模型评估。这些步骤都会结合真实的时间序列数据集进行讲解。
课程章节 | 内容描述 |
---|---|
时间序列预测与数据处理 | 介绍时间序列预测及其分析的概念,探讨单变量和多变量时间序列分析的区别。重点介绍数据清洗、缺失值填补和不同时间尺度上的数据聚合。同时,还会讲解时间序列的可视化,包括不同时间尺度上的时序图、季节性箱线图和滞后图。 |
描述性分析与评估指标 | 介绍时间序列数据的描述性分析,涉及平稳性、趋势和季节性分析。使用ACF/PACF和交叉相关函数进行分析。介绍如何通过差分法去除非平稳性,以及去除季节性的技术。最后,学习时间序列模型的评估指标,如R^2, RMSE, MAPE, MAE等误差指标。 |
基本预测模型 | 学习基本的时间序列预测模型,如简单的Naïve预测法,以及ARIMA模型,包括自回归(AR)、自回归滑动平均(ARMA)和自回归积分滑动平均(ARIMA)模型。同时,介绍残差分析的概念。 |
机器学习模型 | 介绍如何使用机器学习模型进行时间序列预测,包括在Spark上实现AR模型。学习如何优化参数,使用递归循环预测未来,部署预测模型。课程还简要介绍了LSTM深度学习模型在时间序列中的应用。 |
数据提取与可视化
数据可视化是数据分析中最重要的部分之一,同时也是整个数据科学流程中不可或缺的一环。它不仅可以帮助传达分析结果,还能够更好地探索和理解数据。因此,数据可视化是任何从事数据科学工作者的必备工具之一。
课程章节 | 内容描述 |
---|---|
数据收集 | - 识别数据访问节点,提升KNIME工具的使用能力。 - 进行网页数据抓取,获取网站数据。 - 区分不同的小部件,创建功能强大的仪表盘。 - 构建数据收集工具,展示个人技能。 |
数据可视化 | - 为不同任务选择合适的可视化方式。 - 应用高级可视化技术,处理常见任务。 |
数据预处理 | - 使用不同的节点解析PDF文件。 - 学习正则表达式提取特定文本。 - 操作数据提取工具,自动化重复性任务。 |
数据与工作流程质量 | - 使用异常检测技术识别数据中的错误。 - 通过学习可视化最佳实践来改善数据展示。 |
深度学习与人工智能
深度学习在许多数据科学领域中应用广泛,如图像处理、文本处理和欺诈检测。KNIME 提供了与 Keras 库的集成,使得用户可以结合 KNIME 无代码分析平台与 Keras 库的深度学习功能。虽然无需编码,但实现深度学习网络仍需熟悉不同的学习范式、前馈多层架构、序列数据网络、文本数据的编码以及图像数据的卷积层等。
课程章节 | 内容描述 |
---|---|
经典神经网络 | 介绍经典神经网络的架构,包括前馈神经网络和反向传播算法。课程涵盖深度学习的安装与配置,如何在 KNIME 平台上使用深度学习节点进行无代码操作。 |
深度学习设计元素 | 探讨深度学习设计中的激活函数、损失函数,以及如何避免过拟合的选项。并提供一些实用技巧,此外还通过案例展示了深度学习的应用,如使用自编码器进行异常检测等。 |
递归神经网络 | 针对序列数据的特殊需求,介绍递归神经网络 (RNN) 及其应用,并深入介绍长短期记忆单元 (LSTM) 的概念及其实现。 |
卷积神经网络 | 介绍计算机视觉领域及卷积神经网络 (CNN),讨论如何通过迁移学习进行图像分类,并展示卷积神经网络的实际应用。 |
数据工程
本课程聚焦于如何使用 KNIME Analytics 平台进行数据工程,并在构建数据处理管道时应用最佳实践。您将学习如何连接多个数据源、数据匿名化的方法以及高级数据库主题。同时,您还将了解 Apache Hadoop 生态系统,并学习如何通过 Apache Spark 集成处理大数据。最后,您将掌握如何构建和协调模块化工作流。
课程章节 | 内容描述 |
---|---|
数据连接与访问 | 复习文件处理,学习如何使用 Web 服务进行数据访问和连接。 |
最佳实践 | 涵盖安全性、效率、错误处理、可重用性以及数据验证等方面的最佳实践。 |
数据匿名化 | 学习如何对数据进行匿名化处理,以保证数据的隐私与安全。 |
高级数据库主题 | 介绍关系型数据库的高级概念,并简要介绍 NoSQL 数据库的基本知识。 |
Hadoop 生态系统 | 简要介绍 Hadoop,并学习如何通过 Hadoop 连接器进行大数据的输入/输出和处理。 |
Apache Spark | 介绍 Spark 的输入/输出和处理方法,并学习如何使用 Spark 进行机器学习。 |
云与大数据连接 | 学习如何在云端运行 Hadoop 应用程序,并介绍主要云服务提供商的连接方法。 |
数据管道编排 | 通过实例学习如何在客户数据和使用数据应用上编排 ETL 和 ELT 工作流,并学习工作流服务。 |
联系方式
指北君
- 电话: (+86)151-0931-6922,手机号亦可加微信
- 邮箱: 15109316922@139.com
- 微信:
赵老师[b站昵称:不编程亦分析]
- 微信:zhaoyongji6757
对于简单的、耗时较短的问题,我们很乐意为您提供一些解决思路;然而,对于更为复杂、耗时较长的问题,请您理解,此类服务将会收费。或者您也可以将问题发到 KNIME 爱好者群中,有可能会获得一些回答。