Почему вендорской поддержке недостаточно классической "трёхлинейки" и зачем нужна мультивендорная экспертиза
Меня зовут Артём Смирнов, я руковожу департаментом мультивендорных решений и экспертизы в YADRO. Несколько лет назад мы увидели, что клиентам всё чаще нужна не просто поддержка "железа", а помощь в понимании и развитии всей их сложной инфраструктуры, где оборудование и ПО десятков производителей переплетены в один большой живой организм. Так появилась отдельная команда третьей линии, которая занимается не только инцидентами, но и архитектурой, миграциями и взаимодействием с другими вендорами.
Зачем вообще отдельный департамент
Дивизион сервиса YADRO сопровождает свыше ста тысяч единиц ИТ-оборудования - от систем хранения и серверов до базовых станций, а также более 150 тысяч пользовательских устройств. Наши инженеры работают в разных регионах и климатических условиях, с десятками вариантов SLA и требований по доступности. Оборудование YADRO стоит в дата-центрах банков, в инфраструктуре крупных городов, промышленных предприятий и госсектора.
Классическая модель поддержки у нас, как и у многих, выглядит так:
- L0 - диспетчеры и координаторы. Они регистрируют и маршрутизируют заявки.
- L1 - квалификаторы и выездные инженеры. Их зона ответственности - базовые неполадки и типовые инциденты, решения по которым уже описаны в базе знаний.
- L2 - более глубокая техническая экспертиза. Эти инженеры разбирают нетривиальные случаи, подсказывают первой линии и принимают решение, когда инцидент надо эскалировать дальше.
- L3 - у нас разделена на два крупных блока. Одна часть команды фокусируется на самых сложных проблемах с продуктами YADRO. Вторая - на задачах, которые вылезают из-за окружения, интеграций, настроек и поведения чужого оборудования. Это и есть наш департамент мультивендорной экспертизы.
Все линии поддержки решают задачи, связанные с корректной эксплуатацией и обслуживанием продуктов YADRO. Но живая инфраструктура клиента выглядит иначе: в ней одновременно работают решения разных вендоров, интеграционные шины, специфическое ПО заказчика, старые и новые платформы. Каждый стык между этими системами - потенциальное "узкое горлышко" и источник рисков.
Именно поэтому мы решили не ограничиваться рамками собственных продуктов и создали подразделение, которое помогает компаниям разруливать ситуации в мультивендорной среде, а не только "чинить железо".
Почему мультивендорный подход критичен
В крупных организациях сегодня трудно встретить "чистый" стек одного производителя. В одной цепочке обработки запроса клиента банка или пользователя сервиса может участвовать:
- несколько типов систем хранения;
- серверные платформы от разных производителей;
- виртуализация от одного вендора и СУБД от другого;
- собственное ПО заказчика;
- решения по резервному копированию и мониторингу ещё от пары вендоров.
При этом каждая сторона зачастую смотрит только на свой участок и отвечает лишь за него. В результате при инциденте начинается классическая история: одни считают, что проблема в СХД, другие винят сеть, третьи - БД, а четвертые - "кривое приложение". Времени на поиск корня проблемы уходит много, а бизнес в этот момент терпит убытки.
Наша задача - видеть систему целиком. Мы не делим мир на "наше" и "чужое", а анализируем путь данных от начала до конца, архитектуру сервисов, режимы отказоустойчивости, процессы сопровождения и изменения. Отсюда вытекают ключевые направления работы департамента.
Проектирование комплексных архитектур
Одно из наших основных направлений - проектирование архитектур высоконагруженных и критически важных сервисов по запросу клиентов. При этом совершенно не обязательно, чтобы заказчик уже пользовался оборудованием YADRO. Мы работаем и с инфраструктурами, где наши решения занимают лишь небольшую часть, и с теми, где оборудования YADRO пока нет вовсе.
Приведу несколько типичных сценариев задач, с которыми приходят заказчики.
1. "Наследство" для новой команды эксплуатации
У компании появляется новая команда, отвечающая за поддержку информационных систем. Она получает "во владение" сложный зоопарк из серверов, СХД, виртуализации, сетей, баз данных и приложений - и не до конца понимает, как всё это связано и от чего зависят критичные сервисы.
В такой ситуации мы:
- проводим инвентаризацию ключевых компонент инфраструктуры;
- описываем взаимосвязи систем и цепочки бизнес-процессов;
- оцениваем потребление ресурсов и выявляем неэффективные участки;
- анализируем поведение систем в пиках и при авариях;
- составляем дорожную карту развития: от небольших оперативных улучшений до крупных проектов по оптимизации и масштабированию.
По сути, мы помогаем CIO и его команде "увидеть" свою архитектуру, понять её слабые места и получить план, как эволюционировать без лишних рисков.
2. Оптимизация ресурсов и "расчистка зоопарка"
Другой часто встречающийся запрос: нужно уменьшить расход вычислительных и дисковых ресурсов или подготовить инфраструктуру к новому витку роста без лавинообразного удорожания. В распоряжении заказчика - существующий пул оборудования: часть уже морально устарела, часть - от вендоров, ушедших с рынка, а что-то просто используется не по назначению.
Здесь наша работа включает:
- анализ текущей загрузки и профиля использования ресурсов;
- выявление неэффективных или опасных с точки зрения рисков элементов (например, EoL-оборудование);
- разработку вариантов модернизации: что можно перевести на другую платформу, что заменить, что вывести из эксплуатации;
- оценку экономического эффекта разных сценариев и рисков при каждом из них.
В результате заказчик получает чёткое понимание, как сократить издержки и снизить риски, не разваливая при этом существующие сервисы.
3. Повышение отказоустойчивости и готовность к сбоям
Многим компаниям важно не только удерживать текущий уровень стабильности, но и быть готовыми к крупным инцидентам: аварии в ЦОД, выходу из строя критичных узлов, ошибкам человеческого фактора.
В таких проектах мы:
- изучаем существующие регламенты переключения на резерв;
- проводим интервью с ответственными сотрудниками и техническими командами;
- строим матрицу рисков с оценкой вероятности и влияния на бизнес;
- моделируем возможные сценарии отказов и проверяем, как инфраструктура поведёт себя в каждом из них;
- формируем перечень как технических, так и процессных изменений: от донастройки кластеров и резервирования до изменений в процедуре дежурств и реакции на инцидент.
Важно, что мы рассматриваем устойчивость не только как "есть ли резервный сервер", а как способность всей связки систем пережить нештатную ситуацию и восстановиться в допустимое для бизнеса время.
Масштабирование архитектур без "ломки" бизнеса
Когда сервис растёт, компания часто сталкивается с тем, что архитектура, работавшая на десятках тысяч пользователей, начинает "скрипеть" при сотнях тысяч или миллионах. Добавление ресурсов по месту уже не помогает, требуется переосмысление ключевых компонент.
Задача департамента в таком случае - спроектировать путь масштабирования с минимальными рисками и понятными шагами:
- определить архитектурные границы текущего решения - до каких пор его можно масштабировать "в лоб";
- предложить рефакторинг архитектуры: где лучше перейти от вертикального масштабирования к горизонтальному, как разделить нагрузку, где ввести кэширование или очереди;
- подобрать оптимальные технологии и оборудование, учитывая уже существующий стек;
- выстроить поэтапный план внедрения, чтобы бизнес получал новые мощности без больших простоев.
Мы всегда стараемся сочетать эволюционный подход (поэтапные изменения) с прагматикой: иногда проще один раз аккуратно "перерезать" кусок архитектуры, чем годами латать её патчами.
Планирование и сопровождение миграций
Отдельный крупный пласт нашей работы - это миграции. Причём речь не только о переносе данных с одной СХД на другую. Это и переезд целых ЦОД, и переход между платформами виртуализации, и смена СУБД, и консолидация нескольких распределённых решений в единый комплекс.
Наш департамент:
- оценивает исходную и целевую архитектуры;
- формирует стратегию миграции с учётом ограничений по простоям;
- предлагает варианты поэтапного перехода и тестирования;
- закладывает механизмы отката на каждом критичном шаге;
- участвует в пилотных и боевых миграциях в роли технического координатора.
Мультивендорная экспертиза здесь особенно важна: нужно понимать, как себя поведут разные платформы, какие есть особенности у конкретных версий ПО и железа, какие подводные камни возникают при взаимодействии.
Эскалация проблем, связанных с чужим оборудованием
Не все инциденты, приходящие к нам как к вендору, однозначно связаны с продуктами YADRO. Часто оказывается, что корень проблемы лежит, к примеру, в:
- некорректной прошивке сетевых устройств другого производителя;
- бага в виртуализационной платформе;
- ошибочной конфигурации балансировщика нагрузки;
- несовместимости версий драйверов и микрокода.
В таких случаях департамент мультивендорной экспертизы:
- воспроизводит проблему в лаборатории, используя максимально близкую к клиентской конфигурацию;
- собирает детальные трассировки, дампы, логи с разных уровней;
- формирует структурированное описание инцидента для другого вендора на его техническом языке;
- сопровождает эскалацию до момента получения решения, участвует в валидации фиксов и рекомендаций.
Таким образом, клиенту не нужно самостоятельно "бодаться" с несколькими производителями, доказывая, что проблема не в нём. Мы берём на себя роль технического переводчика и медиатора между разными вендорами.
Лаборатории, где можно "пощупать" чужие инсталляции
Чтобы эффективно разбирать сложные кейсы, мы поддерживаем несколько лабораторных стендов, где воспроизводим клиентские конфигурации. Это не только оборудование YADRO, но и:
- разные платформы виртуализации;
- системы хранения и серверы других производителей;
- сетевую инфраструктуру с близкими настройками;
- программные стеки, используемые заказчиками.
Такие лаборатории позволяют:
- безопасно моделировать инциденты и проверять гипотезы;
- тестировать сценарии миграции до их запуска в продакшене;
- проверять, как будут вести себя обновления, патчи и новые настройки;
- обучать инженеров на реальных, а не учебных сценариях.
В ряде случаев мы собираем "под клиента" временный стенд для отработки уникальных задач - например, при крупной миграции или реорганизации архитектуры.
С кем и как мы взаимодействуем
Мультивендорный департамент по определению не может работать в изоляции. Мы постоянно взаимодействуем:
- с внутренними командами разработки и поддержки продуктов YADRO;
- с техническими специалистами других вендоров - от инженеров поддержки до архитекторов решений;
- с ИТ-службами заказчиков, включая эксплуатацию, архитектуру, безопасность и разработку.
Часто проекты становятся совместными: мы объединяем усилия с другими производителями ПО и железа, чтобы вместе выработать работающее для клиента решение. Важный принцип - фокус на результате для бизнеса, а не на том, кто "прав" в техническом споре.
Кто становится инженером такого департамента
Работа в мультивендорной третьей линии - это постоянное исследование. Типичного "портрета" инженера здесь нет, но есть несколько общих черт:
- широкий технический кругозор и опыт работы сразу с несколькими стеками технологий;
- умение смотреть на систему целиком, а не только на свой любимый продукт или технологию;
- готовность разбираться в чужих решениях, документации и логике;
- навык общаться и с разработчиками, и с эксплуатацией, и с менеджерами, переводя сложные вещи на понятный язык;
- высокая самоорганизация и готовность брать ответственность за результат в сложных проектах.
Часто в департамент приходят специалисты, которые уже прошли путь от первой и второй линии до архитекторов, и теперь хотят заниматься более комплексными задачами, где нужно комбинировать знания и опыт из разных областей.
Зачем всё это клиенту
Если попытаться сформулировать смысл существования департамента в одной фразе, то это "сделать так, чтобы ИТ-инфраструктура работала устойчиво и предсказуемо в реальном, мультивендорном мире".
С точки зрения бизнеса это выражается в:
- снижении времени простоя при инцидентах;
- более понятном и контролируемом развитии архитектуры;
- уменьшении рисков, связанных с устаревшим оборудованием или уходом вендоров с рынка;
- более эффективном использовании ресурсов;
- возможности опираться на внешнюю экспертизу при сложных решениях.
Мы не ограничиваемся рамками "наших" продуктов, потому что инфраструктура заказчика - это единая система. Для неё нет значения, чей логотип стоит на корпусе сервера или СХД. И задача современной третьей линии поддержки - понимать и уметь работать с этой реальностью.



