Доклад

RAG на стероидах: от семантического поиска до автономного агента и цифрового двойника

Инженеры тратят до 30% времени на поиск информации, разбросанной по Jira, Confluence, Git и Slack. В докладе я расскажу, как мы в SoftLight построили production-ready AI-помощника, который понимает контекст команды и работает рука об руку с .NET-инфраструктурой.

Это не туториал и не «давайте подключим ChatGPT к Confluence». Это разбор реальной системы с пятью слоями архитектуры, которые мы наращивали итеративно, — и каждый слой решал конкретную боль из продакшена.

Что будет внутри:

1. Классический RAG и его пределы. Что такое embeddings и cosine similarity на пальцах (для тех, кто только подходит к теме). Пять реальных проблем «ванильного» RAG: language mismatch между русским и английским, отсутствие фильтрации по метаданным, устаревшая документация, отсутствие персонализации, отсутствие feedback loop.

2. Гибридный поиск: Qdrant + PostgreSQL. Почему два хранилища лучше одного. Сравнение Qdrant с Pinecone, Weaviate, Milvus, Chroma и pgvector — что мы выбирали и почему. Конвейер инкрементальной индексации с content hash (фактически ETag для контента) — экономит 99% вызовов embedding-API. Стратегии чанкинга для документации, кода (по семантическим границам функций и классов) и Jira-задач. Source weights — почему git-коммиты надежнее, чем Confluence двухлетней давности, и как это реализовать одной строкой умножения.

3. MCP Protocol — gRPC для AI-эпохи. Почему MCP, как именно он работает поверх stdio и как мы построили gateway к двум хранилищам. Ролевые поисковые инструменты (search_as_architect, search_as_qa, search_as_analyst) — каждый со своими source weights и фильтрами. Сравнение Claude/ GPT-4/Gemini — что мы пробовали и почему остановились на Claude.

4. Автономный агент и learning loop на ASP.NET. Slack Bot на C# / ASP.NET Core, который ловит вопросы команды и пропускает их через RAG-pipeline. AutoRagSaveService — как Claude сам решает, что из диалога стоит сохранить как «архитектурное решение» или «доменный термин» в векторную базу. По сути, система учится на собственных хороших ответах через feedback от пользователей.

5. Бонус: цифровой двойник. В финале доклада — демо. Whisper STT (GPU) → Claude + RAG → ElevenLabs (клон голоса) → D-ID (lip-sync видео по фото). На сцене на вопросы аудитории отвечает мой AI-аватар — моим голосом, с моими интонациями, с моим лицом. Покажу архитектуру и расскажу, на какие грабли наступил.

Технологии: C# / ASP.NET Core, TypeScript / Node.js, Python, Claude API, Qdrant, PostgreSQL (FTS, GIN, tsvector), Ollama, OpenAI embeddings, MCP Protocol, ElevenLabs, D-ID, Whisper, Docker.

Целевая аудитория: .NET-разработчики уровня middle и выше, тимлиды и архитекторы, которым интересно встроить AI-инструменты в существующую инфраструктуру без переписывания всего на Python. Знание AI/ML не требуется — все концепции (embeddings, vector search, RAG) объясняются с нуля и через знакомые .NET-аналогии: MCP — как gRPC, content hash — как ETag, индексеры — как фоновые worker-сервисы, FTS в PostgreSQL — как замена Elasticsearch.

Что унесет слушатель:

— понимание, как устроен production-ready RAG (не игрушечный из туториалов);
— набор архитектурных паттернов, которые можно применить в любом проекте: content hash, dual write, source weights, semantic chunking, payload filtering;
— понимание MCP-протокола и того, как из «AI-ассистента» получить «AI-агента»;
— конкретный план, как начать с малого и нарастить систему до автономного агента, не переписывая всё с нуля.

Спикеры

Кирилл Сухоруких
Softlight

Доклады

RAG на стероидах: от семантического поиска до автономного агента и цифрового двойника

Спикеры

Кирилл Сухоруких