DeepSeek在会议中的应用、开源版本部署方案及成本规划第一部分

2025年伊始,以DeepSeek为代表的开源大模型正如火如荼的私有化部署和构建,各行各业都展示出了对大模型技术的热忱与信心,本文整理了满足会议举办相关需求的DeepSeek技术及应用信息,希望能为各主办方提供参考,同时由于AI与行业产业的结合有很多共同性,相信其它行业领域的需求也可以借鉴。为了方便阅读,本文尽量精简优化及分成不同部分,这是其中第一部分。

第一部分,DeepSeek能做什么?

相信这几年接触过AI大模型的人士对ChatGPT,文心一言,通义千问,腾讯混元等语言模型都有所了解,也有过体验,简单说DeepSeek实现的基本上其它大模型都可以实现,比如咨询问题,辅助推理,代码生成,翻译,总得来说是基于NLP技术的语言解码与编码,从这点上说DeepSeek并不是有功能上大的改变,也就是说它能满足的需求上边提到的各大模型都可以满足。

在会议领域,DeepSeek的几个典型应用示例

信息检索:在会议中,DeepSeek 可以帮助与会者快速找到相关的文档、研究论文或其他资料,提升信息获取的效率。

内容分析:通过分析会议记录或讨论内容,DeepSeek 可以提取关键主题、趋势和见解,帮助与会者更好地理解会议的核心内容。

智能推荐:根据与会者的兴趣和需求,DeepSeek 可以推荐相关的演讲者、主题或后续的讨论内容,增强会议的互动性。

实时翻译和转录:在多语言会议中,DeepSeek 可以提供实时翻译和转录服务,帮助不同语言的与会者更好地沟通。

数据可视化:通过将会议数据可视化,DeepSeek 可以帮助与会者更直观地理解复杂的信息和数据。

后续跟进:会议结束后,DeepSeek 可以帮助与会者整理会议纪要、行动项和后续任务,确保会议成果的落实。

第二部分,DeepSeek为什么特别?

说到功能方面,DeepSeek并没有特别之处,但是在发布形式及授权方面就大不同了,原因有二:其一,它是开源的,可以免费商用的,这在它的发布方式(Github.com平台发布)及相关声明中都有体现。其二,它的硬件需求相对较低。我们知道多数语言大模型建设需要巨大的开发和试错成本,虽然NLP技术发展时间已经很漫长了,但是通信、计算技术和可用数据量级还从来没有达到过现在的程度,所以以自然语言处理为核心的技术产品一直无法突破,就算是技术及数据量级达到足够的级别,运用和整合这些资源需要的相关成本还是很高的,虽然说截止2024年人类所有已经产生的数据都已经被收集并用于训练语言大模型并且开发人员已经发现并不需要把所有的数据用于训练即可完成准确性达到一定级别的大模型产品,但是这个探路过程是不可省略的,因此相关的成本是很大的。在以OpenAI为代表的第一代大模型基础上,理论上说通过不断优化一定会产生性价比更高的产品,而DeepSeek就是其中的代表。

补充一个大模型向小模型转化的原理:

比如,一个国家有10亿人,有50个城市,每个城市的人口结构都类似,人们都需要研究数学,语文等学科,也离不开吃穿住行各种活动,那么可以得出,虽然各个城市有大小,但是居住其中的人们的需求是相似的,这是前提。

以OpenAI为代表的第一代语言大模型是将这个国家10亿人的数据和需求作为目标进行分析解读,所以它需要计算的数据量级就很大,因为大模型的临界点以前没有人达到过,所以需要尽可能的增大数据样本,直到能实现类智能的突破。所以这个数据及难度量级一定是大于等于实际需求的量级的。

当第一代大模型实现之后,向下优化就是更加合理的方式,因此如果不是以国家为目标而是以城市为目标,那么按此假设,只需要针对10亿/50 = 0.2亿的数据样本及需求进行分析即可满足这一需求,当然现实中网络数据并不是按城市来区分的,需要进行数据切分。 这样成本就会下降许多,DeepSeek虽然不是完全按照这个逻辑开发的但是离不开二次优化的路径。

同理,不同垂直领域如代码生成,大模型并不需要了解全世界所有人的需求,只需要针对软件开发人员这一群体使用和产生的数据进行处理即可,所以我们知道大模型最早做成熟的就是代码生成这一功能,因为全世界有一个超大的开源代码平台github.com,DeepSeek也在代码生成原理这部分提到了如何从Github提取代码再做整理优化,提取最有价值的部分提供给开发人员。

所以说,DeepSeek之所以特别,是它找到了更小样本进行训练的方法,部署的数据集及运算量都在很大的下降,同时它又通过开源授权让所有人使用,所以这是一个突破,将人类应用大语言模型的门槛大大降低了。

第三部分,什么人需要DeepSeek?

简单说,就是需要针对垂直业务进行二次开发的企业或个人。我们知道如果只是对话和代码生成,使用通用语言大模型已经足够满足需求,象百度的文心一言已经决定2025年4月正式免费,可以说通用需求并不需要DeepSeek来提供支持,因为截止目前DeepSeek官网的网页及API服务都已经持续不堪重负,而且看不到有缓解的迹象,从它开源的决策来看,DeepSeek可能并不想象第一代大模型一样自己运营,它的商业模式或许是提供技术支持,或许未来会有其它形式,因为开源产品一般不会直接从产品本身获益。另外很多平台都在接入DeepSeek为用户提供服务,所以DeepSeek开发商可能会离用户比较远。

另一方面,对于行业用户来说,业务与通用需求不同,数据又有自身的敏感性及保密要求,部署私有化的大语言模型会更可控,服务也方便定制化。从目前来看各行各业,从生产到管理都有DeepSeek这样的开源大模型的用武之地。

第四部分,如何部署DeepSeek?

DeepSeek的部署主要分为两种形式,一种是私有服务器,另一种是使用云资源。

前者需要自行购置910b之类的大模型服务器,8卡成本大约在170万左右,也可以选择英伟达的h100等GPU,硬件方面需要一定的成本。当然基于无GPU的硬件架构也可以运行轻量级的DeepSeek版本,主要还是看对结果和效率的需求。对于国企或涉密单位,自行购置及维护服务器似乎是必然选项,不过也有国产天翼云之类的云服务商提供性价比更高的方案。

对商业用户,选择GPU云解决方案会更适合,尤其是对中小企业开发商而言,基于业务灵活性的需求采用可扩展性的云GPU方案,初始阶段可采购基本资源,业务成熟后再扩容或者升级方案即可。

不同的硬件方案确定以后部署相对就比较简单,这里就不再详细列出。

下一部分将提供更细节的介绍,敬请关注。

下载海报
若未生成海报二维码可点击 生成海报 刷新。
推荐会议
会议小助手
会议通企业微信客服群
办会,宣传,赞助会议请加入客服群以便于获取合作资源