browser icon
You are using an insecure version of your web browser. Please update your browser!
Using an outdated browser makes your computer unsafe. For a safer, faster, more enjoyable user experience, please update your browser today or try a newer browser.

Осторожно, излучение из космоса!

Posted by on 04.12.2017

В очередном ДЦ в очередной раз перегрузилась линейная карта.
Fault Reason: TMb cluster parity interrupt

Ничего особенного, бывает, сбойнул процессор на трилионном цикле, не смог доступится до собственных регистров, устал и послал карточку в ребут.
Просто отлично, что карточка не подвисла, что осознала, что сама перегрузилась. Схема отказоустойчивая, сеть отсуствия линейки на протяжении пары минут
не заметила, все хорошо.
Решил погуглить немного, чтобы убедиться, что никаких существенных проблем не предвидится, и первой же ссылкой нашел прекрасный (без сарказма) пост
https://supportforums.cisco.com/t5/service-providers-documents/asr9000-xr-understanding-platform-diags-3-punt-fabric-data-path/ta-p/3134926

Самое интересное обнаружилось в коментах

ah this: PLATFORM-NP-4-FAULT : prm_process_parity_tm_cluster: 1 Unrecoverable error(s) found.

it means that the NP number 4 on the linecard in slot 0 incurred a memory parity error on the traffic manager portion of the NPU (the portion that handles Q’ing and scheduling) and it could not correct that error and therefore decided to reinit and crash.

Generally with memory parity errors we always advice to catch it once, monitor it and if this happens again to replace the card.

If you are uncomfortable «waiting» until a next event, you could decide to replace it now, but many times parity errors are transient and caused by a what we used to call «cosmic radiation» which is merely an assembly of uncommon not likely to happen events such as a power spike or drop, or other intangible events.

В вольном переводе последний абзац
«Если вам некомфортно подождать недельку, можете поменять сейчас карту, но множество таких случаев больше не повторяются и объясняются «космическим излучением», что может значить совпадение необычных, маловероятных событий, таких как скачок\падение мощности или другие события, которые невозможно отследить.»

Это черезвычайно показательно. Самые разные вендоры объясняют такие вещи примерно одним и тем же — ну что вы хотите, нанометровые технологии, железо нежное, если проблема одноразовая, живите себе дальше. И «космическое излучение», конечно, просто для того, чтобы не вдаваться в подробности (которые действительно трудно отследить). Я предполагаю, что такие нарушения бывают из-за какого-то мизерного пробоя со стойки на коробку или что-то такое.

А вот кстати представить единичный злобный космический квант с бешенными электроновольтами, который ВНЕЗАПНО пробил все этажи ДЦ, стойку и коробку и впился в бедный процессор, мне трудновато.
Точно известно, что при «удачном» стечении обстаятельств хороший коронарный выброс солнышка может выжечь много оборудования за раз. Но единичный квант, умело попавший куда надо и ТОЛЬКО в этой линейке — это как-то фантастично ))