Skip to content

Latest commit

 

History

History
122 lines (88 loc) · 8.5 KB

README_zh_CN.md

File metadata and controls

122 lines (88 loc) · 8.5 KB
xorbits

Xorbits Inference:模型推理, 轻而易举 🤖

PyPI Latest Release License Build Status WeChat Zhihu

English | 中文介绍 | 日本語


Xorbits Inference(Xinference)是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。

🔥 近期热点

框架增强

  • 支持加载模型时指定 worker 和 GPU 索引: #1195
  • 支持 SGLang 后端: #1161
  • 支持LLM和图像模型的LoRA: #1080
  • 支持语音识别模型: #929
  • 增加 Metrics 统计信息: #906
  • Docker 镜像支持: #855
  • 支持多模态模型:#829

新模型

集成

  • Dify: 一个涵盖了大型语言模型开发、部署、维护和优化的 LLMOps 平台。
  • Chatbox: 一个支持前沿大语言模型的桌面客户端,支持 Windows,Mac,以及 Linux。

主要功能

🌟 模型推理,轻而易举:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。

⚡️ 前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中!

🖥 异构硬件,快如闪电:通过 ggml,同时使用你的 GPU 与 CPU 进行推理,降低延迟,提高吞吐!

⚙️ 接口调用,灵活多样:提供多种使用模型的接口,包括 OpenAI 兼容的 RESTful API(包括 Function Calling),RPC,命令行,web UI 等等。方便模型的管理与交互。

🌐 集群计算,分布协同: 支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。

🔌 开放生态,无缝对接: 与流行的三方库无缝对接,包括 LangChainLlamaIndexDify,以及 Chatbox

为什么选择 Xinference

功能特点 Xinference FastChat OpenLLM RayLLM
兼容 OpenAI 的 RESTful API
vLLM 集成
更多推理引擎(GGML、TensorRT)
更多平台支持(CPU、Metal)
分布式集群部署
图像模型(文生图)
文本嵌入模型
多模态模型
语音识别模型
更多 OpenAI 功能 (函数调用)

入门指南

在开始之前,请给我们一个星标,这样你就可以在 GitHub 上及时收到每个新版本的通知!

Jupyter Notebook

体验 Xinference 最轻量级的方式是使用我们 Google Colab 上的 Jupyter Notebook

Docker

Nvidia GPU 用户可以使用Xinference Docker 镜像 启动 Xinference 服务器。在执行安装命令之前,确保你的系统中已经安装了 DockerCUDA

快速开始

使用 pip 安装 Xinference,操作如下。(更多选项,请参阅安装页面。)

pip install "xinference[all]"

要启动一个本地的 Xinference 实例,请运行以下命令:

$ xinference-local

一旦 Xinference 运行起来,你可以通过多种方式尝试它:通过网络界面、通过 cURL、通过命令行或通过 Xinference 的 Python 客户端。更多指南,请查看我们的文档

网络界面

参与其中

平台 目的
Github 问题 报告错误和提交功能请求。
Slack 与其他 Xorbits 用户合作。
Twitter 及时了解新功能。
微信社群 与其他 Xorbits 用户交流。
知乎 了解团队最新的进展。

贡献者