构建IOT的数据流，AI和机器学习平台

格丽工格系统

今天的IOT用例越来越依赖于在大量的设备生成数据上实时执行分析或更新机器学习算法。如果患者监测，自治车辆或预测性维护应用的数据没有被摄取，实时加工和采取，患者遭受，车辆崩溃或系统失败。那么企业如何有效地建立一个可靠的平台，以便在规模上摄取和响应大量数据？企业可以使用流平台和内置在开源软件堆栈的数据存储系统来实现。

今天的许多开源解决方案已被证明在数千个生产部署中可靠。许多商业企业的企业级支持和咨询服务可提供商业企业，也可以提供解决方案的企业级版本。这些支持的解决方案使业务能够实现实现他们的数字转型目标通过在没有显着提前成本的情况下实施IOT解决方案，同时还为其公司提供了可靠，未来的基础设施。以下是对今天许多最成功的数字转型企业的基础提供开源解决方案的采样。

流数据

开源流解决方案（例如Apache Kafka或Apache Flink）用于构建实时数据流水线，该数据流水线将数据移动到IOT部署中的系统和应用程序。例如，在患者监视用例中，流解决方案将通过附加到患者的IOT传感器收集的数据传送到可以聚合，分析和存储数据的平台。

Kafka用于通过Box，LinkedIn，Netflix，Oracle和Twitter生产生产。飞行员用于在阿里巴巴，AWS，Capital One，Ebay和Lyft生产的生产中。但是，对于流媒体解决方案以在规模上支持实时业务流程，必须与其他技术集成，包括分布式内存计算平台，容器管理解决方案，以及分析和机器学习能力。

内存计算

Apache Ignite是一个分布式内存计算平台，部署在商品服务器集群上。它可以用作插入现有应用程序和基于磁盘的数据库之间的内存数据网格或作为新应用程序的独立内存数据库。点燃池可用CPU和群集的RAM，并分发数据并计算到各个节点。它可以部署在公共或私有云中或混合环境中。Ignite支持ANSI-99 SQL和酸交易。

点燃可以实时摄取大量数据。通过剩余的所有数据，Ignite使用MapIte将MapReduce在分布式群集中执行大规模并行处理（MPP）。利用内存中的数据缓存和MPP，点燃提供高达1,000倍的应用程序性能提高，使用基于磁盘的数据库的应用程序性能。IGNITE用户还可以利用本机Kafka集成，使您可以轻松地将从IoT设备传输到内存计算群集中的流数据。

因为我在上一篇文章中讨论，Ignite可用于构建数字集成集线器（DIH），用于从多个本地数据存储，基于云的数据源和流数据馈送的聚合和处理数据。作为DIH，Ignite提供了一种高性能数据访问层，可以实时为多个业务应用程序提供聚合数据。Apache Ignite用于美国航空公司，IBM，ING和24小时的生产生产。

集群管理

Kubernetes可自动部署和管理已在Docker或其他容器解决方案中容用的应用程序。Container Solutions创建一个包含应用程序和虚拟化操作系统的包，以启用在同一硬件上或跨虚拟化硬件上运行多个，完全独立版本的应用程序，例如在云服务上。Kubernetes可以更轻松地管理Docker容器，并确保在可以在任何位置部署的服务器群集中的一致性，例如在房屋，公共或私有云或混合环境中。

API使Kubernetes能够管理Apache Ignite和Streaming平台资源，并自动缩放基于内存计算的集群。这种增加的易于管理可以显着降低复杂性和错误，并降低开发时间。Kubernetes用于Booking.com，首都一，盒子，IBM和吊索的生产。

分析和机器学习

流平台拼图的最后一块是能够采取行动数据。对于分析用例，Apache Spark是一种用于处理和分析大量数据的分布式计算引擎。Spark可以利用Apache Ignite内存计算平台来快速分析通过流管道进行摄取的大量数据。Spark还可以使用Ignite作为在线数据存储，使Spark用户能够将数据追加到其现有的DataFrames或RERun Spark作业。Spark还可以轻松地在分布式计算环境中为非结构化数据写入简单的查询。Spark用于在亚马逊，信用卡玛，eBay，NTT数据和雅虎生产中生产。

对于机器学习用例，Apache Ignite包括已针对大规模并行处理优化的集成，完全分布式的机器学习和深度学习库。该集成使企业能够创建持续学习应用程序，其中机器学习或深度学习算法在本地运行，以在内存计算群集中的每个节点上驻留在内存中。在本地运行算法允许在节点上部署新数据的模型连续更新，即使在PBEABYTE刻度上也是如此。

所有IOT议程网络贡献者负责其帖子的内容和准确性。意见是作者，不一定能够传达物联盟议程的思想。