组织生成元数据的速度如此之快,以至于它变成了当今的大数据挑战。然而,存储所有这些信息的最佳方式和位置并不总是很清楚。很大程度上取决于组织如何管理和使用元数据,以及他们是否将元数据与其原始数据分开。许多组织将他们的元数据转移到中央存储库中以改进操作并更好地使用信息。因此,元数据存储问题成为首要问题。
什么是元数据存储,为什么它很重要?
简单地说,元数据是关于数据的数据。它可以包含有关数据文件的各种信息,具体取决于文件类型和存储类型。例如,文件的元数据可能包括以下内容:
- 文件名;
- 所有者;
- 尺寸;
- 文件类型;
- 创建日期和时间;
- 创建位置的 GPS 坐标;
- 版权信息;
- 数据沿袭。
尽管应用程序通常会自动生成元数据,但组织可以手动添加并自定义。
随着数据量的增长,元数据在管理和优化数据方面发挥的重要作用也越来越大。元数据使索引、查找、排序和分类数据变得更加容易。它有助于通过高级分析更好地理解数据。元数据还有助于提高数据质量、优化数据管理、简化存储管理并促进更高的生产力,所有这些都可以带来更高效的运营和更低的成本。
然而,要实现这些好处,组织必须建立一个有效的元数据存储和管理系统。元数据存储必须通过提供安全高效的数据托管系统来满足更大的元数据管理策略的需求。如果没有精心规划和实施的存储系统,性能可能会受到影响,数据资源可能难以找到,元数据甚至可能丢失。存储系统必须确保元数据持续可用。
元数据存储和管理的最佳实践
对于依赖于与源数据分开的中央存储库的元数据管理系统,存储团队需要考虑几个因素,包括他们将如何实施和分发平台。
1.不要一个人去
团队的元数据存储策略应该是组织更大的元数据管理策略的一部分,而后者又应该是组织更大的数据治理策略的一部分。有效的元数据管理需要整个组织的参与,包括负责元数据存储的团队。参与定义元数据目标和采用标准。通过这种方式,团队可以为讨论带来重要的视角,并开始在底层开展工作。
2.看大局
尽管存储团队主要关注元数据存储,但对支持元数据工作的底层基础设施和技术有很好的了解。了解组织将部署哪些组件、这些组件如何组合在一起以及元数据在最终存储之前如何在这些组件之间移动。
团队需要知道这些细节:
- 该组织将如何实施该目录;
- 使用哪个数据库系统;
- 需要存储在目录中的附加信息(元数据除外);
- 如何部署支持应用程序;
- 是否会有抽象层;
- 使用哪些第三方管理工具;
- 有关可能影响存储的各种系统的任何其他信息。
3. 大局观再大局观
存储团队应该清楚元数据管理平台将如何扩展以满足用户需求。考虑部署多少个站点以及每个站点有多少个存储节点等问题。了解组织将如何分发元数据。清楚地了解如何扩展或缩小存储系统以满足未来的需求。
4. 不要将元数据视为二等公民
直到最近,大多数组织几乎都没有注意到元数据,但是大数据量的冲击和分析技术的改进让他们认识到了它的价值。因此,确保存储系统满足预期的性能需求,而不管平台如何。元数据存储库在访问资源方面起着至关重要的作用,因此性能不佳的元数据存储可能是数据访问中的一个重大瓶颈。
随着组织从被动元数据模型转向主动元数据模型,性能风险甚至更高。被动元数据是相对静态的。主动元数据是智能驱动的,实时运行,因此它不断地从网络中收集元数据。
5. 掌握数据要求
存储团队需要对将要存储的数据有一个完整的了解——不仅是元数据,还包括支持元数据管理平台的任何数据。数据总量是这张照片中最重要的部分。提供足够的能力支持元数据平台进行的操作,包括元数据提取;其他提取、转换和加载过程;以及其他需要存储空间的支持工具或系统。
对象存储的使用正在上升。考虑到对象存储元数据是高度可定制的,这会增加数据总量。确定是通过二进制还是文本存储元数据、保留多长时间、是否存档以及用于分析的存储量。
6. 像保护任何其他公司数据一样保护元数据
元数据可能包含敏感信息并为网络攻击提供途径。采取必要的步骤来实施安全的存储环境并遵守适用的法律法规。防止因自然灾害、网络攻击、数据处理不当或其他威胁情况而导致的数据丢失。使用复制、备份或气隙存档等工具。附带说明一下,如果元数据本身是最新且可靠的,组织还可以使用其元数据来帮助保护数据并遵守适用的法规。
元数据存储的其他注意事项和示例
组织可能会将元数据与源数据一起存储或存储在单独的位置。当与数据一起存储时,元数据通常嵌入到与原始数据相同的文件中,在这种情况下,元数据存储的考虑因素与原始数据的考虑因素非常相似。有时元数据存储在主数据文件附带的外部文件中,但在这种情况下,存储方面的考虑也大同小异,只是可能需要更多空间。
将元数据保持在数据附近,以提供一种处理元数据和随之而来的存储的简单方法。元数据在移动时与主要数据保持在一起,并且可以轻松读取和更新。但是,如果从数据文件中剥离元数据或删除外部元数据文件,则这两种方法的优势都将丧失。这两种方法都无法实现跨网络的集中管理,随着数据量的扩大和元数据变得更有价值,这已成为人们日益关注的问题。当元数据与数据一起存储时,不断增长的数据量也使得搜索特定数据变得更加困难。
由于这些限制,许多组织现在将其元数据存储在与源数据分开的中央存储库中。中央元数据存储库或目录通常是更大的元数据管理策略的一部分,其中元数据从源数据中提取并存储在存储库中。中央存储库可以更轻松地在整个组织中搜索特定类型的数据,无论数据量或位置有多大。这种方法还简化了管理,从而在整个组织内实现更高效的运营和更一致的元数据。
将元数据与数据分开,以部署最适合元数据特定工作负载的存储。集中式存储库可以促进高级分析,从而从元数据中获取更多价值。元数据与数据是分开的,因此存储可以适应特定于元数据的工作负载。在某些情况下,组织可能会采用混合方法进行元数据管理,构建中央存储库但将元数据嵌入某些文件中。
集中式方法会带来其他挑战。如果元数据变得与数据不同步,则元数据的用处可能会降低。管理系统必须能够持续将元数据与源数据同步,以确保持续的准确性——这一过程会影响存储资源。元数据管理系统可能无法理解某些文件中的元数据,在这种情况下,系统可能需要将元数据保存到二进制大对象存储中,以供第三方工具访问。即使这些因素不是问题,存储团队仍必须确保他们有合适的存储来支持元数据存储库典型的读取密集型工作负载类型。