成熟AI聊天软件程序定制开发

发布时间：2024-12-02

LLM的私有部署可能会很混乱并且难以维护，必须有充分的理由来承担这个项目。以下是在私有云中部署LLM而不是使用OpenAIAPI的一些充分理由：

数据安全

这可能是人们选择私有部署的最重要的常见原因。如前所述，有些行业根本无力共享数据。例如，军方不能将ChatGPT用于工作目的，因为他们的信息非常敏感并且通常被归类为私人信息。对于医疗保健专业人士来说也是如此，尽管OpenAI声称合规，但大多数医生无法与其他公司分享此类敏感信息。

这就是本地和私有部署的用武之地。私有部署LLM可以帮助完成大量任务，例如汇总和自动化常见任务，而无需与任何其他公司共享数据。

遵守

许多公司只是不允许共享他们的数据。这通常是出于合规原因。金融服务和执法等行业不得与第三方共享文件。我们知道，金融行业可以从这些人工智能应用程序中受益匪浅，例如，通过从复杂的SEC文件中获取见解。

自托管的LLM可以完全消除这些问题，因为根本不与任何第三方共享数据，您还可以跟踪您如何使用数据以及LLM如何响应它。

微调

除了数据安全和隐私之外的另一个重要原因是对模型本身更细粒度的控制。尽管像GPT-4和GPT-3.5这样的模型能力很强，但它们的成本很高，而且在非常狭窄和特定领域的任务上表现很差。这是您想要微调模型的地方。OpenAI现在允许您微调GPT模型，但成本可能会变得非常高、非常快。

但如果您对LLaMA模型进行微调，您就可以完全决定模型的工作和行为方式。微调开源LLM可以轻松提高性能，而不会增加任何成本，因为您仍然托管相同的模型。唯一改变的是模型重量，而不是尺寸。如果有的话，在微调时，您可以使用更小的模型，因为您正在为非常狭窄的任务而不是多个任务训练模型。

成本

最后，但也许是最重要的原因之一，成本。如果您打算在您的企业中使用LLM，那么从第三方API开始是有意义的，因为它很容易开发和测试。但当您开始获得用户时，成本可能会变得非常高，并且随着提示长度的增加，成本会非线性增加。

人们可以轻松地微调LLaMA并将其部署在服务器或无服务器设置中，以节省大量部署成本。Anyscale对LLaMA与GPT-4成本进行了全面研究，发现LLaMA比GPT-4便宜30倍。你可以在这里阅读更多。以下是该帖子的详细统计数据：

如何在私有基础设施中部署聊天机器人？

现在我们知道了在私有云服务器中部署聊天机器人和LLM的一些充分理由，让我们来谈谈具体如何做到这一点。我们将讨论如何部署LLM并将其与开源嵌入一起使用以处理您的个人数据。

模型

模型是堆栈中最重要的部分。这很大程度上取决于您的需求以及您需要它执行什么类型的任务。在撰写本文时，Mistral-7B是已知最强大且最小的型号。Mistral有70亿个参数，并且是130亿个参数中的大部分。像OpenHermes2这样的许多模型都是建立在这个模型之上的，这些模型在更多任务上进行了进一步的微调，使其变得更好。您可以访问我们的LLM比较博客，了解有关这些模型的更多信息，并决定要使用哪种模型。

我们的一般经验法则是，如果您只需要提示模型进行单个一次性输出（例如生成摘要和翻译文本），则使用Mistral等较小的模型。这是因为不需要向LLM提供对话历史记录。但在处理更长的上下文时，我们倾向于使用更大的模型，例如LLaMA-2-13B。与较小的模型相比，较大的模型可以更好地处理较长的上下文和多轮对话。

展开全文

其他新闻