Strict Frog's Blog

AI Infra Layer之资源调度策略?

AI Infra Layer

背景 在私有化大模型系统中,我已经将Embedding模型,Reranker模型,LLM部署本地,并且实现了高并发批处理. 配置 (config.py) 我已经本地化部署了多个服务(Embedding模型,Reranker模型,LLM等等), 那么在用户请求这些微服务时, 我该如何通过config.py来实现资源调度策略? 区分 服务 ...

AIインフラ層の資源スケジューリング戦略とは?

AIインフラ層

背景 プライベート大規模モデルシステムにおいて、Embeddingモデル、Rerankerモデル、LLMをローカルにデプロイし、高並列バッチ処理を実現しました。 設定 (config.py) 複数のサービス(Embeddingモデル、Rerankerモデル、LLMなど)をローカルにデプロイした場合、ユーザーがこれらのマイクロサービスにリクエストを送る際に、どのように confi...

Resource Scheduling Strategies in AI Infrastructure Layer?

AI Infra Layer

Background In a privatized large model system, I have deployed Embedding models, Reranker models, and LLMs locally, and implemented high-concurrency batch processing. Configuration (config.py...

如何为本地模型构建高并发模块?

AI Infra Layer

背景 在私有化大模型系统中,我已经将Embedding模型,Reranker模型,LLM部署本地, 还要实现并发支持.这里我单独构建了一个高并发的模块. 选择 队列 + 批处理 架构 请求1 \ 请求2 \ 请求3 → 队列 → 批处理 → 一次 model.encode() 请求4 / 请求5 / 项目结构 (高并发批量处理请求模块) ├── infer...

ローカルモデル向けの高並行性モジュールを構築

AIインフラ層

背景 プライベートモデルシステムでEmbeddingモデル、Rerankerモデル、LLMをローカルにデプロイ済みで、さらに並行処理対応を実現したい。ここでは高並行モジュールを単独で構築した。 選択 キュー + バッチ処理 アーキテクチャ リクエスト1 \ リクエスト2 \ リクエスト3 → キュー → バッチ処理 → 一度に model.encode() リクエス...

How to Build a High-Concurrency Module for Local Models?

AI Infra Layer

Background In a privatized large model system, I have deployed the Embedding model, Reranker model, and LLM locally, and I also need to support concurrency. Here, I have built a dedicated high-...

如何部署本地Embedding模型?

AI Infra Layer

背景 在私有化大模型系统中, 为了避免外部依赖, 降低数据泄露的风险并提升可控性, 现将Embedding模型部署本地, 还要实现标准化接口服务,支持外部系统通过HTTP服务请求调用Embedding功能, 具备容错机制, 可扩展性和并发支持. 选择 FastAPI + Uvicorn + EmbeddingModel(e5-large) 项目结构 (本地Embedd...

ローカルEmbeddingモデルのデプロイ方法は?

AIインフラ層

背景 プライベート化された大規模モデルシステムにおいて、外部依存を避け、データ漏洩リスクを低減し制御性を向上させるために、Embeddingモデルをローカルにデプロイします。また、標準化されたインターフェースサービスを実現し、外部システムがHTTP経由でEmbedding機能をリクエストできるようにし、フォールトトレランス、拡張性、並行処理の対応も備えています。 選定 F...

How to Deploy a Local Embedding Model?

AI Infra Layer

Background In a privatized large model system, to avoid external dependencies, reduce the risk of data leakage, and enhance controllability, the Embedding model is deployed locally. Additionall...

FastAPI+Uvicorn+Gradio

快速构建高质量Web界面

背景 在之前做过的AIAgent中的Web页面,都是以Html+Css+Js搭建, 一个字: 丑. 选择 FastAPI + Gradio 快速构建好看的UI 下面是RAG可视化的UI: 代码很简单,如下: https://github.com/LuochuanAD/Fine-tuning-Learn/tree/main/FastAPI%2BUvicorn%2...

FastAPI+Uvicorn+Gradio

高速で高品質なWebインターフェースの構築

背景 以前作ったAIAgentのWebページはすべてHtml+Css+Jsで構築していて、一言でいうと:ダサかった。 選択 FastAPI + Gradioで見栄えの良いUIを素早く構築 以下はRAGの可視化UIです: コードは非常にシンプルで、以下の通りです: https://github.com/LuochuanAD/Fine-tuning-Learn/t...

FastAPI+Uvicorn+Gradio

Rapidly Building High-Quality Web Interfaces

Background Previously, the web pages in AIAgent projects were built using Html+Css+Js, in one word: ugly. Choice FastAPI + Gradio for quickly building attractive UIs Below is the UI for...

如何构建AIOS架构?

架构

背景 场景: 在类似于ChatGPT设计风格的对话框中,用户可以进行对话,文件分析,以及其他的一些文档生成,排版等等的轻量级ChatAgent. 注意:此特定的AIgent属于即时性对话和分析,本文不涉及RAG和长任务规划 要解决的问题: 1, 通过用户意图分析(intent router),进行长短期Memory设计 2, 用户通过引用一段文字进行追问时, 短期记...

AIシステムのアーキテクチャを構築する方法

アーキテクチャ

背景 シナリオ: ChatGPTのデザインスタイルに似たチャットボックスで、ユーザーが会話、ファイル解析、その他ドキュメント生成やレイアウトなどを行う軽量ChatAgent。 注意: 本特定AIgentは即時対話と解析に特化し、RAGや長期タスクプランニングは対象外です。 解決すべき課題: ユーザーの意図解析(intent router)に基づく...

How to build an AIOS architecture ?

architecture

Background Scenario: A lightweight ChatAgent embedded in a ChatGPT-style conversational interface, where users can engage in dialogue, document analysis, as well as other document generation an...