聚宽揭秘：为什么量化研究员喜欢在Kubernetes上使用Fluid简化数据管理？

　　通过使用Fluid，我们在只读数据集场景中获得了更多的灵活性和可能性。Fluid使我们认识到◆◆，除了计算资源，数据缓存也可以视为一种无状态的弹性资源◆★◆，可以与Kubernetes的弹性伸缩策略相结合，以适应工作负载的变化，满足我们在使用中对于高峰和低谷的需求★◆◆★。

　　拥抱IoT浪潮，Apache IoTDB如何成为你的智能数据守护者？解锁物联网新纪元的数据管理秘籍！

　　我们发现仅靠Kubernetes的CSI体系无法满足我们对多数据源加速的需求，而CNCF Sandbox项目Fluid提供了一种简单的方式来统一管理和加速多个Persistent Volume Claim的数据，包括来自OSS和NAS的数据。

　　•通过python SDK创建数据集，并且按照顺序完成扩容和数据预热（也可以通过YAML的方式创建）。

　　基于 Python 哈希表算法的局域网网络监控工具★■◆◆◆★：实现高效数据管理的核心技术

　　4. 同时ack-fluid支持在ECS和ECI上实现动态挂载多数据源的能力，这也是我们极为看重的功能◆★★◆。

　　本场景您将运行一个简单的应用■★，部署一个新的应用用于新的发布，并通过Ingress能力实现灰度发布。

　　聚宽 (JoinQuant) 是一家基于国内金融市场大数据，通过量化研究、人工智能等技术，不断挖掘规律■■★◆、优化算法、精益模型，进行程序化交易的科技公司。

　　阿里云数据管理DMS提供了全面的数据管理、数据库运维◆★、数据安全◆★★★◆★、数据迁移与同步等功能，助力企业高效、安全地进行数据库管理和运维工作★◆。以下是DMS产品使用合集的详细介绍。

　　在离线计算这类容错率较高的场景上★★■◆■，可以考虑使用Spot实例作为缓存Worker，并且增加K8s注解eci-spot-strategy: SpotAsPriceGo。这样既能享受Spot实例带来的成本优惠★■◆◆■■，而又能保证较高的稳定性。

　　2.收益预测■★■■：采用机器学习等先进技术■◆■◆，结合多个因子，构建对目标变量的精准预测模型★◆◆，涵盖线性回归、决策树、神经网络等多种算法◆★。

　　方案：Fluid的Dataset功能支持描述多个数据源，并允许用户动态挂载或卸载新旧挂载点，且这些改变即时对用户容器可见，无需重启。这解决了数据科学家对容器使用的最大抱怨。

　　在2024云栖大会「海量数据的高效存储与管理」专场，阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技★★■◆★★、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。

　　问题★■★■：在进行不同类型的数据处理任务时■■，发现单一的数据存储配置无法满足需求。例如，训练任务的数据集需要设置为只读，而中间生成的特征数据和checkpoint则需要读写权限。传统的Persistent Volume Claim (PVC) 无法灵活地同时处理来自不同存储的数据源★◆◆■★★。

　　在量化投资研究的过程中◆★，我们的投研平台遭遇了性能瓶颈、成本控制、数据集管理复杂性、数据安全问题以及使用体验等多重挑战◆◆★◆★。特别是在高并发访问和数据集管理方面，传统的NAS和OSS存储解决方案已无法满足我们对性能和成本效益的双重需求。数据科学家们在尝试实现更高效★■★◆■★、更灵活的数据处理流程时，常常受限于现有技术的束缚★◆★。

　　3.组合优化■■★：在预期收益和风险约束的基础上，通过优化算法★■◆■◆■，实现投资组合的最优配置，以最大化投资回报★★■★■。

　　Splunk Enterprise 9.4.2 发布 - 机器数据管理和分析

　　1◆■■★★.因子挖掘：利用先进的数据分析技术，在海量数据中挖掘对投资策略具有预测价值的关键变量。

　　方案：Fluid提供了统一的PVC加速能力■★，OSS数据和NAS数据皆可按创建Dataset、扩容Runtime、执行Dataload的流程进行操作★★★◆■■。JindoRuntime的PVC加速功能简单易用且性能都满足需求。

　　Dify实践｜Dify on DMS+对象存储OSS，实现多副本部署方案

　　3. ack-fluid集成了功能齐全的监控大盘，且易于获取◆★■■■，我们只需在阿里云Prometheus监控中进行一键安装即可。

　　4.数据安全顾虑：在研究员团队之间需要隔离不同的数据集，然而在OSS的同一个存储桶下 / 同一个NAS实例下数据无法被有效隔离。

　　Fluid支持多种Runtime，包括Jindo◆◆■■，Alluxio，JuiceFS，VIneyard等分布式缓存系统；经过甄选比较，我们发现其中场景匹配、性能和稳定性比较突出的是JindoRuntime。JindoRuntime基于JindoCache的分布式缓存加速引擎。JindoCache（前身为JindoFSx）是阿里云数据湖管理提供的云原生数据湖加速产品，适配OSS、HDFS、标准S3协议◆◆■★、POSIX等多种协议★■★◆★，在此基础上支持数据缓存■■■、元数据缓存等功能◆★■■。

　　为便于对比，我们统计了访问耗时数据，并与利用Fluid技术访问数据的耗时进行了对比。结果如下所示★■★◆：

　　•此时可以查看数据集的状态★■，可以看到数据缓存完成，就可以很简单地开始使用缓存过的数据。

　　1. 对多类型弹性资源的不完全支持。以阿里云为例，我们使用的弹性资源包含ECS和ECI, 在工作负载调度时，系统会优先调度至ECS★★◆■★，当ECS资源耗尽后，才转向ECI。因此，我们需要 Fluid同时支持这两种资源◆◆■■◆。但据我们了解，开源Fluid的FUSE Sidecar需要依赖privileged权限，而在ECI上无法实现◆◆★★。

　　5.技术使用门槛★■■★：量化研究员很多都是数据科学家出身★■◆★★，对Kubernetes不太熟悉，而使用YAML配置多个持久卷声明（PVC）来管理数据源对他们来说是一项挑战。

　　数据管理 DMS产品介绍及Data Copilot演示教程智能助手 DMS Data Copilot简介

　　在未来的发展中，通信行业的企业应加强数据治理意识，提高数据治理能力★◆■；同时■★◆，积极开展跨行业的合作创新，共同推动行业的繁荣与发展。相信在不久的将来，通信行业将迎来更加美好的明天★★★◆◆★。

　　方案：通过数据缓存感知的调度◆◆，Fluid在应用调度时能够提供数据缓存位置信息给Kubernetes调度器。这让客户的应用能够调度到缓存节点或更接近缓存的节点，从而减少数据访问延时■★◆◆★，最大化GPU资源的使用效率。

　　3. 开源Fluid并不支持动态挂载，这对于数据科学家来说是比较刚性的需求。

　　1◆◆◆★■■.数据管理难题：一路走来，我们的数据分散在不同的存储平台NAS和OSS。研究员在进行因子挖掘时，需要结合分散在NAS和OSS上的数据。数据管理变得极其复杂■◆★★■◆，甚至需要手动将数据从一个平台迁移到另一个平台。

　　在金融市场的瞬息万变中，量化投资凭借其数据驱动的决策优势，正迅速成为投资界的一股新势力★■◆■★。聚宽（JoinQuant）不仅是一家科技公司，更是基于国内金融市场大数据的量化研究先锋。我们运用量化研究、人工智能等前沿技术，持续挖掘市场规律★◆■■◆◆、优化算法模型，并通过程序化交易实现策略的自动化执行★★■。在聚宽典型的量化投资研究过程中，主要存在如下几个关键环节：

　　4.回测检验：通过在历史数据上进行模拟交易，评估交易策略的有效性和稳定性。

　　尽管开源的Fluid有诸多优点，但在实践中我们发现它并不能完全满足我们的需求：

　　当并发Pod数量较少时，传统高性能分布式存储的带宽能够满足需求，因此Fluid并未展现出明显优势。然而，随着并发Pod数量的增加，Fluid的性能优势愈发显著■■★。当并发扩展到10个Pod时★■◆◆，使用Fluid可以将平均耗时缩短至传统方式的1/5；而当扩展到100个Pod时，数据访问时间从15分钟缩短至38.5秒◆■◆◆，计算成本也降低为十分之一。这大幅提升了任务处理速度，并显著降低了由于IO延迟带来的ECI成本。

　　问题：量化研究员使用异构的数据源，存在一些方案，但无法满足跨存储数据集同时加速的需求，使用差异也给运维团队带来了适配复杂性。

　　我们以Kubernetes为底座，同时使用了阿里云NAS，OSS，SLS，GPU共享调度◆★★◆，HPA，Prometheus，Airflow，Prometheus等云和云原生技术，得益于其计算成本和易于规模扩展的优势，以及容器化在高效部署和敏捷迭代方面的长处，囊括了越来越多的计算场景■★■◆★★，例如海量金融历史数据驱动的因子计算■★◆、量化模型训练、投研策略回测等★★◆■★◆。

　　【荣誉奖项】荣获2024数据治理优秀产品！瓴羊Dataphin联合DAMA发布数据管理技能认证

　　方案◆★：Fluid提供了DataFlow数据流功能，允许用户利用Fluid的API定义自动化数据处理流程，包括缓存扩容 / 缩容、预热、迁移和自定义的数据处理相关操作。最值得一提的是，这些操作都可以通过Python接口完成，实现在本地开发环境和生产环境中使用同一套代码进行精准预测模型的开发和训练。

　　然而■■★，在实际使用中，我们发现在云上对于数据密集型和弹性灵活性场景的真实量化投研产品支持还有诸多不足■★■★◆。

　　【8月更文挑战第22天】随着物联网技术的发展■■★★◆★，数据量激增对数据库提出新挑战。Apache IoTDB凭借其面向时间序列数据的设计，在IoT领域脱颖而出。相较于传统数据库，IoTDB采用树形数据模型高效管理实时数据■★★◆■，具备轻量级结构与高并发能力，并集成Hadoop/Spark支持复杂分析。在智能城市等场景下，IoTDB能处理如交通流量等数据★★■■■，为决策提供支持。IoTDB还提供InfluxDB协议适配器简化迁移过程★■★◆★◆，并支持细致的权限管理确保数据安全★■◆■◆★。综上所述◆■◆■，IoTDB在IoT数据管理中展现出巨大潜力与竞争力。

　　我们开始寻找解决方案并发现了阿里云ACK云原生AI套件中的ack-fluid，它可以很好的解决这些问题：

　　1. ack-fluid基于开源Fluid标准对于JindoRuntime提供了完整的支持，我们在线下开源Fluid上完成调试，在ACK上就可以获得完整能力。

　　2★■★◆◆. ack-fluid无缝支持阿里云的ECI★◆■■，且不需要开启privileged权限，完全满足了我们在云上弹性容器实例ECI访问不同数据源的需求◆■◆◆■。

　　问题：量化研究员使用GPU进行高密度数据计算，但每次任务调度时数据访问延时高，影响了整体计算性能◆■◆★★◆。由于GPU资源昂贵，团队希望在调度GPU时数据能够尽可能接近计算节点。

　　团队现有成员70+人，投资研究及IT团队40+人，均来自海内外知名学府★◆★◆。汇聚数学★◆◆◆◆、物理■■■◆◆、计算机、统计学、流体力学、金融工程等各领域专家，70%以上拥有硕博学位。聚宽将最先进的研究和技术与金融投资进行高效结合★■◆◆，为投资者创造长期稳健的投资价值。

　　欢迎来到《容器应用与集群管理》课程，本课程是“云原生容器Clouder认证“系列中的第二阶段★★■■■◆。课程将向您介绍与容器集群相关的概念和技术，这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时，本课程也会向您介绍可以采取的工具、方法和可操作步骤，以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。学习完本课程后★◆◆★，您将能够：掌握容器集群◆■★、容器编排的基本概念掌握Kubernetes的基础概念及核心思想掌握阿里云容器服务ACK/ACK Serverless概念及使用方法基于容器服务ACK Serverless搭建和管理企业级网站应用

　　阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能，助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。

　　Fluid的JindoRuntime优先选择具有高网络IO和大内存能力的ECS和ECI作为缓存worker★■◆。云服务器ECS的网络能力不断提升，当前的网络带宽已经远超SSD云盘的IO能力。以阿里云上的ECS规格ecs★★◆■★◆.g8i.16xlarge为例，它的基础网络带宽值达到32Gbps，内存为256GiB。假设提供两台这样的ECS，那么理论上◆■◆，仅用2秒就能完成32GB数据的读取。

　　方案：Fluid的Dataset通过Kubernetes的namespace资源隔离机制◆■◆■★■，实现了不同团队之间的数据集访问控制。这样既保护了数据隐私，又满足了数据隔离的需求★◆★。同时，Fluid支持跨Namespace的数据访问◆◆，使得公开数据集可以在多个团队中重复使用，实现一次缓存，多个团队共享◆★■，大幅提升了数据利用率和管理的便捷性。