如果您曾经致电 IT 支持,您肯定会被问到“您是否尝试过将其关闭然后再打开?” 或其变体之一。虽然关闭然后重新打开设备确实可以解决一些故障,但对于大多数技术问题,选择的武器是故障排除。通常,故障排除涉及多个步骤,包括研究、头脑风暴和测试。任何称职的技术人员都会有他们个人最喜欢的故障排除过程或方法。
故障排除的重要性
现代 IT 系统非常复杂,具有许多部件、接口和依赖项。只有当它们的每个部分都在定义的参数范围内起作用时,这些系统才能执行它们的任务。这意味着即使任何部分或依赖项中的轻微故障都可能导致整个系统崩溃。因此,每一项技术都需要在某一点或另一个点进行故障排除。
不知道从哪里或如何开始解决技术问题会浪费时间和资源。结构化的故障排除框架可减少解决技术问题所需的时间、提高效率并提高用户满意度。另一方面,缺乏故障排除方法会导致延误并增加技术人员和最终用户的挫败感。那么如何进行故障排除呢?
故障排除方法
有许多不同的故障排除方法。每个组织都可能有自己的内部故障排除流程或最适合其工作方式的清单。但是,它们都将在某种程度上类似于以下七步故障排除方法:
1. 找出问题
第一步非常简单。为了能够解决问题,首先需要确定问题是什么。帮助技术人员识别问题的是症状。但是,不能将症状与问题混淆。这些症状只是指向潜在的问题。
在此步骤中,技术人员必须记住,大多数最终用户并不具备与他们相同的技术知识水平。因此,当用户发送支持票时,不应将票上提到的问题视为实际问题。为了准确识别问题,技术人员需要采用系统化的方法来收集尽可能多的信息。
信息收集通常需要提出一系列问题,最终用户可能会觉得这些问题很烦人,但这是可以快速识别根本原因的重要步骤。即使是问一个简单的问题,例如问题是影响多个设备还是仅限于单个设备,也会立即消除许多可能的原因。
2. 建立可能原因的假设
此步骤涉及找出症状的可能原因。一种常见的做法是列出可能的原因列表,并根据其发生的可能性对它们进行排名。第一步收集的信息对于建立可能原因理论通常是无价的。
在处理网络问题时,OSI 模型是开始寻找可能原因的好地方。从物理层向下移动到应用层,然后再进行备份,有助于技术人员从两个不同的角度看待问题,从而增加定位可能原因的可能性。
3. 检验可能原因的假设
故障排除过程的下一步是测试假设以确认它。如果假设得到证实,技术人员将继续进行下一步。另一方面,如果该假设被证明是不正确的,技术人员可以重新访问第二步或将故障单升级到链上。
使用从最基本的原因开始的排除过程来测试可能的原因。例如,如果网络打印机不工作,第一步是检查它是否已插入并打开。在检验假设时,重要的是不要做出假设或将任何事情视为理所当然。经过数小时的故障排除后发现问题的原因是微不足道的事情,例如未插电的设备,这将是令人尴尬的。
4. 制定行动计划并确定潜在影响
一旦假设得到证实,就需要制定行动计划。这是必不可少的,因为正如我们前面提到的,IT 系统有许多部分和接口,对一个部分的任何更改都可能对其他接口产生无法预料的影响。因此,在进行任何修改或更改之前,技术人员需要确定他们可能对整个系统产生的潜在影响。复杂问题的解决方案应附有详细的分步文档以及可能的影响。如果建议的解决方案导致其他问题并且需要回滚系统,这将派上用场。
5. 实施计划或升级
如果步骤 1 到 4 被细致地遵循,那么步骤 5 应该是直截了当的。但是,实现通常取决于执行操作所需的访问权限和权限级别。因此,如果技术人员缺乏执行整改的权限,则故障单会升级到故障排除链。这可能会让人感到限制,但对于IT 系统的安全性和完整性来说是必要的。
6. 验证完整的系统功能
此步骤涉及解决技术问题并验证在此过程中没有出现新问题。虽然复杂的问题需要仔细检查,但即使是简单问题的解决方案也需要伴随着功能验证。
例如,在打印机未插电的情况下,仅仅插入打印机并离开是不够的。毕竟,故障排除过程的目的是恢复全部功能。因此,技术人员必须发送测试打印并验证打印机是否确实在打印。
此步骤的第二部分包括应用预防措施(如果适用)。优秀技术人员的目标是阻止任何可预防的问题再次发生。在许多情况下,这包括对最终用户进行教育或再教育。定期教育与网络钓鱼和恶意软件等安全相关事件尤其相关。
7. 记录一切
如上一步所述,优秀技术人员的目标是阻止可预防的问题再次发生。如果它们无法预防,则应该减少解决问题所需的时间。为此,有必要记录调查结果、解决方案和结果。
良好的文档有助于技术人员避免返工并在问题再次发生时节省时间。甚至应记录错误和失误,因为它们可以突出现有流程中的差距或导致新的最佳实践。有趣的是,这种故障排除方法不仅限于解决 IT 问题。它还可以在需要解决问题的场景中找到用途。但是如何使用这种方法来解决业务问题呢?
故障排除与问题解决
从上述方法可以看出,故障排除是一种结构化的方法来解决问题,其目标是恢复全部功能。另一方面,解决问题被定义为定义问题、确定最佳解决方案并实施解决方案的行为。
尽管定义相同,但故障排除通常适用于故障机器、系统和流程的修复。尽管如此,两者的特点都是采用逻辑和系统的方法来缩小问题的根源以解决问题,并使产品或过程按预期运行。因此,可以直观地利用故障排除过程专业知识来解决其他业务领域的问题。
在故障排除框架中使用问题解决工具
可以在故障排除框架内使用常见的问题解决工具来构建一个有效的问题解决系统,该系统可以解决复杂的问题,尤其是在商业环境中。
以下是故障排除框架中使用的问题解决工具的一些示例:
1. 五个为什么
五个为什么是一种常见的问题解决工具,用于确定问题的根本原因。它涉及问“为什么?”这个问题。直到找到问题的根本原因。五个为什么是一个简单而强大的工具,它有助于消除问题的症状以揭示根本原因,以便您可以有效地处理它。
第一步,说明问题。接下来是“为什么?”的问题,例如,“为什么会出现这个问题?” 然后是另外四个“为什么”,直到问题的根本原因被发现。在故障排除框架中使用的五个为什么技术对于识别问题非常有帮助。这一系列探究性问题使技术人员能够更深入地研究问题的原因,而不仅仅是解决表面问题。
2. 头脑风暴
头脑风暴是大多数人已经使用或至少知道的常用工具。以结构化的方式使用,头脑风暴有助于在相对较短的时间内产生大量的想法。当需要提出创造性的想法、潜在的问题、原因、潜在的解决方案和实施障碍时,它非常有用。
在这种技术中,没有任何想法被认为过于狂野或不切实际,也没有对这些想法的判断或讨论。这使参与者可以自由地提出想法而不受限制,并导致产生大量创意。在故障排除框架中,头脑风暴有助于列出可能的原因。
3. 流程图
小的技术问题通常需要小的解决方案。可以通过反复试验来测试解决方案,尤其是当问题仅限于单个用户时。然而,试错并不总是可行的,特别是对于影响许多用户的更大、更复杂的问题。值得庆幸的是,有一些工具可用于模拟操作并识别潜在影响。流程图就是这样一种工具,它可以直观地呈现活动和决策的顺序。
该技术从创建过程的初步图表开始。然后通过“谈论过程”来查看图表,即描述过程的每个步骤以及信息如何通过它。当需要了解流程或系统的操作时,此工具特别有用。在故障排除框架中,流程图可用于建立行动计划并识别潜在影响。
4. 目标网格
正如我们前面提到的,故障排除和解决问题的目的是恢复完整的系统功能。在处理影响业务目标的大型 IT 项目的某些部分时,可能很难记住所有目标。
目标网格是一种工具,可以帮助您跟踪更广泛的业务目标和功能要求以及任何其他目标。此工具很有用,尤其是在定义所需状态时,作为故障排除过程的一部分或旨在实现某些业务目标的其他工作。
目标网格由一个 2x2 矩阵组成,该矩阵通过对两个基本问题回答“是”或“否”来构建:
- 你要吗?
- 你有吗?
所以,如果你想要某样东西而你没有它,那么你就想实现它。如果您想要并拥有它,您的目标就是保存它。如果你有东西但不想要它,你的目标就是消除它。而且,如果您没有某样东西并且您不想要它,那么您需要避免它。
通过这种方式,目标网格中填充了以下问题的答案:
- 需要达到什么
- 需要保留什么
- 需要避免什么
- 需要消除什么
目标网格有助于制定组织想要实现的结果、条件和质量的战略列表。它也可以用来阐明一个行动或一个特定项目的预期结果。
结论
故障排除是您工具包中的一项出色技能。它的应用不仅限于修复故障设备和 IT 系统。这种解决问题的系统方法可用于在任何业务领域的复杂系统中查找和纠正问题。使用问题解决工具补充故障排除方法是将其应用扩展到大型项目和业务问题的好方法。