Rozwiązywanie problemów - Troubleshooting

Rozwiązywanie problemów jest formą rozwiązywania problemów , często stosowaną do naprawy uszkodzonych produktów lub procesów w maszynie lub systemie. Jest to logiczne, systematyczne poszukiwanie źródła problemu w celu jego rozwiązania i ponownego uruchomienia produktu lub procesu. Aby zidentyfikować objawy, konieczne jest rozwiązywanie problemów. Ustalenie najbardziej prawdopodobnej przyczyny to proces eliminacji — eliminowania potencjalnych przyczyn problemu. Wreszcie, rozwiązywanie problemów wymaga potwierdzenia, że ​​rozwiązanie przywraca produkt lub proces do stanu roboczego.

Ogólnie rzecz biorąc, rozwiązywanie problemów to identyfikacja lub diagnoza „problemów” w przepływie zarządzania systemem spowodowanych jakąś awarią. Problem jest początkowo opisywany jako objawy nieprawidłowego działania, a rozwiązywanie problemów to proces określania i usuwania przyczyn tych objawów.

System można opisać pod kątem jego oczekiwanego, pożądanego lub zamierzonego zachowania (zwykle w przypadku sztucznych systemów jego przeznaczenie). Oczekuje się, że zdarzenia lub dane wejściowe do systemu wygenerują określone wyniki lub wyniki. (Na przykład, wybierając opcję „drukuj” z różnych aplikacji komputerowych ma na celu doprowadzić do papierowej wyłania się z jakiegoś konkretnego urządzenia). Objawem jest każde nieoczekiwane lub niepożądane zachowanie. Rozwiązywanie problemów to proces wyodrębniania konkretnej przyczyny lub przyczyn objawu. Często objawem jest awaria produktu lub procesu w celu uzyskania jakichkolwiek wyników. (Nic nie zostało wydrukowane na przykład). Następnie można podjąć działania naprawcze, aby zapobiec dalszym awariom podobnego rodzaju.

Metody inżynierii kryminalistycznej są przydatne w śledzeniu problemów w produktach lub procesach, a szeroki zakres technik analitycznych jest dostępny w celu określenia przyczyny lub przyczyn określonych awarii . Następnie można podjąć działania naprawcze, aby zapobiec dalszym awariom podobnego rodzaju. Działania zapobiegawcze są możliwe przy użyciu trybu i skutków awarii (FMEA) oraz analizy drzewa błędów (FTA) przed produkcją na pełną skalę, a metody te można również wykorzystać do analizy awarii .

Aspekty

Zwykle rozwiązywanie problemów dotyczy czegoś, co nagle przestało działać, ponieważ jego poprzedni stan roboczy określa oczekiwania dotyczące dalszego zachowania. Dlatego początkowy nacisk kładziony jest często na ostatnie zmiany w systemie lub środowisku, w którym istnieje. (Na przykład drukarka, która „działała, gdy była tam podłączona”). Istnieje jednak dobrze znana zasada, że korelacja nie implikuje przyczynowości . (Na przykład awaria urządzenia wkrótce po podłączeniu go do innego gniazdka niekoniecznie oznacza, że ​​zdarzenia były ze sobą powiązane. Awaria mogła być kwestią przypadku ). Dlatego rozwiązywanie problemów wymaga krytycznego myślenia, a nie magicznego myślenie .

Warto wziąć pod uwagę wspólne doświadczenia, jakie mamy z żarówkami. Żarówki „wypalają się” mniej więcej losowo; w końcu powtarzające się nagrzewanie i schładzanie żarnika oraz wahania dostarczanej do niego mocy powodują pękanie lub parowanie żarnika. Ta sama zasada dotyczy większości innych urządzeń elektronicznych, a podobne zasady dotyczą urządzeń mechanicznych. Niektóre awarie są częścią normalnego zużycia komponentów w systemie.

Podstawową zasadą rozwiązywania problemów jest rozpoczęcie od najprostszych i najbardziej prawdopodobnych możliwych problemów. Ilustruje to stare powiedzenie „Kiedy widzisz odciski kopyt, szukaj koni, a nie zebr”, albo by użyć innej maksymy , zastosuj zasadę KISS . Ta zasada skutkuje powszechnym narzekaniem na help deski lub instrukcje, że czasami najpierw pytają: „Czy jest podłączony i czy ten gniazdko ma zasilanie?”, ale nie należy tego traktować jako zniewagi, raczej powinno służyć jako przypomnienie lub uwarunkowanie, aby zawsze najpierw sprawdzić proste rzeczy przed wezwaniem pomocy.

Narzędzie do rozwiązywania problemów może sprawdzić każdy składnik systemu jeden po drugim, zastępując znane dobre składniki za każdy potencjalnie podejrzany. Jednak ten proces „seryjnej substytucji” można uznać za zdegenerowany, gdy komponenty są zastępowane bez względu na hipotezę dotyczącą tego, w jaki sposób ich awaria może skutkować zdiagnozowaniem objawów.

Systemy proste i pośrednie charakteryzują się listami lub drzewami zależności pomiędzy ich komponentami lub podsystemami. Bardziej złożone systemy zawierają zależności cykliczne lub interakcje ( pętle sprzężenia zwrotnego ). Takie systemy są mniej podatne na techniki rozwiązywania problemów „rozdwojenie”.

Pomaga również zacząć od znanego dobrego stanu, czego najlepszym przykładem jest ponowne uruchomienie komputera . Warto również wypróbować przewodnik poznawczy . Bardzo pomocna jest obszerna dokumentacja stworzona przez biegłych pisarzy technicznych , zwłaszcza jeśli dostarcza teorii działania dla przedmiotowego urządzenia lub systemu.

Częstą przyczyną problemów jest zły projekt , na przykład zły projekt uwzględniający czynniki ludzkie , w którym urządzenie może być włożone odwrotnie lub do góry nogami z powodu braku odpowiedniej funkcji wymuszającej ( ograniczenie kształtujące zachowanie ) lub braku konstrukcji odpornej na błędy . Jest to szczególnie złe, jeśli towarzyszy mu przyzwyczajenie , kiedy użytkownik po prostu nie zauważa nieprawidłowego użycia, na przykład jeśli dwie części mają różne funkcje, ale mają wspólny przypadek, tak że podczas przypadkowej kontroli nie jest jasne, która część jest używana.

Rozwiązywanie problemów może również przybrać formę systematycznej listy kontrolnej , procedury rozwiązywania problemów, schematu blokowego lub tabeli, która jest tworzona przed wystąpieniem problemu. Wcześniejsze opracowanie procedur rozwiązywania problemów pozwala na wystarczające przemyślenie kroków, które należy podjąć w celu rozwiązania problemu i zorganizowanie rozwiązywania problemów w najbardziej efektywny proces rozwiązywania problemów. Tabele rozwiązywania problemów można skomputeryzować, aby były bardziej wydajne dla użytkowników.

Niektóre skomputeryzowane usługi rozwiązywania problemów (takie jak Primefax, później przemianowane na MaxServ), natychmiast pokazują 10 najlepszych rozwiązań z najwyższym prawdopodobieństwem naprawienia podstawowego problemu. Technik może albo odpowiedzieć na dodatkowe pytania, aby przejść przez procedurę rozwiązywania problemów, każdy krok zawężając listę rozwiązań, albo natychmiast wdrożyć rozwiązanie, które jego zdaniem rozwiąże problem. Usługi te dają rabat, jeśli technik wykona dodatkowy krok po rozwiązaniu problemu: zgłoś rozwiązanie, które faktycznie rozwiązało problem. Komputer używa tych raportów do aktualizacji szacunków, które rozwiązania mają największe prawdopodobieństwo naprawienia danego zestawu symptomów.

Podział na pół

Skuteczne metodyczne rozwiązywanie problemów zaczyna się od jasnego zrozumienia oczekiwanego zachowania systemu i obserwowanych symptomów. Następnie narzędzie do rozwiązywania problemów formułuje hipotezy dotyczące potencjalnych przyczyn i opracowuje (lub może odwołuje się do standardowej listy kontrolnej) testów, aby wyeliminować te potencjalne przyczyny. Takie podejście jest często nazywane „ dziel i rządź ”.

Dwie popularne strategie stosowane przez osoby zajmujące się rozwiązywaniem problemów to najpierw sprawdzenie często występujących lub łatwych do przetestowania warunków (na przykład sprawdzenie, czy lampka drukarki jest włączona i czy jej kabel jest mocno osadzony na obu końcach). Jest to często określane jako „dojenie przedniego panelu”.

Następnie „podziel” system (na przykład w systemie drukowania sieciowego, sprawdzając, czy zadanie dotarło do serwera, aby określić, czy problem istnieje w podsystemach „w kierunku” użytkownika lub „w kierunku” urządzenia).

Ta ostatnia technika może być szczególnie wydajna w systemach z długimi łańcuchami serializowanych zależności lub interakcji między jej składnikami. Jest to po prostu zastosowanie wyszukiwania binarnego w całym zakresie zależności i jest często określane jako „podział na pół”.

Reprodukcja objawów

Jedną z podstawowych zasad rozwiązywania problemów jest to, że powtarzalne problemy można niezawodnie izolować i rozwiązywać. Często duży wysiłek i nacisk w rozwiązywaniu problemów jest kładziony na powtarzalność ... na znalezienie procedury, która niezawodnie wywoła symptomy.

Sporadyczne objawy

Niektóre z najtrudniejszych problemów związanych z rozwiązywaniem problemów dotyczą objawów, które występują sporadycznie . W elektronice często jest to wynikiem elementów wrażliwych termicznie (ponieważ rezystancja obwodu zmienia się wraz z temperaturą znajdujących się w nim przewodników). Sprężone powietrze może być używane do chłodzenia określonych miejsc na płytce drukowanej, a opalarka może być używana do podnoszenia temperatury; dlatego rozwiązywanie problemów z systemami elektronicznymi często wiąże się z zastosowaniem tych narzędzi w celu odtworzenia problemu.

W programowaniu komputerowym wyścigi często prowadzą do sporadycznych objawów, które są niezwykle trudne do odtworzenia; można zastosować różne techniki, aby wymusić wywoływanie określonej funkcji lub modułu szybciej niż w normalnym działaniu (analogicznie do „nagrzewania” komponentu w obwodzie sprzętowym), podczas gdy inne techniki mogą być stosowane w celu wprowadzenia większych opóźnień w, lub wymusić synchronizację między innymi modułami lub procesami współdziałającymi.

W ten sposób można zdefiniować kwestie sporadyczne:

Przerywany to problem, w przypadku którego nie jest znana procedura konsekwentnego odtwarzania jego objawu.

—  Steven Litt,

W szczególności twierdzi, że istnieje rozróżnienie między częstotliwością występowania a „znaną procedurą konsekwentnego odtwarzania” problemu. Na przykład wiedza, że ​​sporadyczny problem pojawia się „w ciągu” godziny od określonego bodźca lub zdarzenia… ale czasami pojawia się w ciągu pięciu minut, a innym razem zajmuje prawie godzinę… nie stanowi „znanej procedury” nawet jeśli bodziec zwiększa częstotliwość obserwowalnych ekspozycji objawu.

Niemniej jednak, czasami osoby zajmujące się rozwiązywaniem problemów muszą uciekać się do metod statystycznych... i mogą jedynie znaleźć procedury zwiększające występowanie objawu do punktu, w którym seryjna substytucja lub inna technika jest wykonalna. W takich przypadkach, nawet jeśli objaw wydaje się znikać na znacznie dłuższy czas, nie ma pewności, że przyczyna została znaleziona, a problem naprawdę rozwiązany.

Ponadto można uruchomić testy w celu sprawdzenia pewnych składników w celu ustalenia, czy te składniki uległy awarii.

Wiele problemów

Wyizolowanie awarii pojedynczych komponentów, które powodują powtarzalne objawy, jest stosunkowo proste.

Jednak wiele problemów pojawia się tylko w wyniku wielu awarii lub błędów. Dotyczy to w szczególności systemów odpornych na awarie lub systemów z wbudowaną redundancją. Funkcje zwiększające redundancję, wykrywanie błędów i przełączanie awaryjne do systemu mogą również podlegać awarii, a wystarczająca liczba awarii różnych komponentów w dowolnym systemie spowoduje jego wyłączenie.

Nawet w prostych systemach osoba zajmująca się rozwiązywaniem problemów musi zawsze brać pod uwagę możliwość wystąpienia więcej niż jednej usterki. (Wymiana każdego komponentu przy użyciu zastępowania szeregowego, a następnie wymiana każdego nowego komponentu z powrotem na stary, gdy objaw się utrzymuje, może nie rozwiązać takich przypadków. Co ważniejsze, wymiana dowolnego komponentu na wadliwy może faktycznie zwiększać liczbę problemów, a nie je eliminować).

Zwróć uwagę, że chociaż mówimy o „wymianie komponentów”, rozwiązanie wielu problemów wiąże się z korektami lub dostrajaniem, a nie „wymianą”. Na przykład sporadyczne przerwy w przewodach --- lub "brudne lub luźne styki" mogą po prostu wymagać czyszczenia i / lub dokręcania. Wszelkie dyskusje na temat „wymiany” należy rozumieć jako „wymianę lub dostosowanie lub inną modyfikację”.

Zobacz też

Bibliografia