在大語(yǔ)言模型技術(shù)快速發(fā)展的當(dāng)下,檢索增強(qiáng)生成(RAG)技術(shù)憑借強(qiáng)大的潛力,在眾多應(yīng)用場(chǎng)景中得到廣泛運(yùn)用。嘉為藍(lán)鯨 OpsPilot 作為智能運(yùn)維支撐平臺(tái),深度融合 LLM 大模型能力,基于 RAG 技術(shù)構(gòu)建高效知識(shí)庫(kù)體系。
在 RAG 技術(shù)棧中,提取與分塊如同 “知識(shí)手術(shù)刀”,將原始文檔精準(zhǔn)切割為適合大模型處理的 “知識(shí)細(xì)胞”,既避免長(zhǎng)文本的 “信息肥胖癥”,又防止短文本的 “營(yíng)養(yǎng)碎片化”,它們直接影響著后續(xù)文本向量化的質(zhì)量,以及檢索效率與大模型輸出的準(zhǔn)確性。
01.知識(shí)處理
將用戶上傳的各類知識(shí)(如各類型文檔、自定義文本、網(wǎng)絡(luò)鏈接)進(jìn)行提取-分塊-增強(qiáng),以便后續(xù)知識(shí)向量化和混合檢索。針對(duì)不同類型的知識(shí),OpsPilot提供“5+4”類提取、分塊策略,提供給用戶多元搭配選擇,如:用戶上傳一個(gè)長(zhǎng)文本技術(shù)文檔,可先通過章節(jié)提取抓取目錄結(jié)構(gòu)內(nèi)容,再結(jié)合語(yǔ)義分塊,基于算法按主題拆分,為后續(xù)檢索筑牢基礎(chǔ)。
1)文檔提取
能將各類格式文檔轉(zhuǎn)化為可供系統(tǒng)處理的文本,從大量原始數(shù)據(jù)中提取出可被系統(tǒng)處理的文本信息,確保信息的完整性與準(zhǔn)確性。它的進(jìn)行關(guān)乎到最終能拿到什么數(shù)據(jù)信息,比如:無(wú)法編輯的PDF文件,質(zhì)量不好的提取,可能拿到的就是亂碼。OpsPilot 通過五種方式實(shí)現(xiàn)高效提取:
(1)五大文檔提取方式
2)文檔分塊
將長(zhǎng)文本拆分為較小的、語(yǔ)義聚焦的短單元,解決長(zhǎng)文本向量化中的語(yǔ)義稀釋、計(jì)算資源消耗和檢索效率低問題。分塊為文本建立“檢索索引”,提升檢索定位精準(zhǔn)度與速度;同時(shí),輕量化文本既能避免大模型輸入超限,又能增強(qiáng)生成邏輯連貫性。OpsPilot 通過四種分塊方式達(dá)成以上效果:
02.功能介紹
1)上傳:多類知識(shí)匯聚上傳
知識(shí)庫(kù)支持三種知識(shí)上傳方式,包括:本地文件上傳——私域知識(shí)沉淀、網(wǎng)頁(yè)知識(shí)——?jiǎng)討B(tài)知識(shí)補(bǔ)充、自定義文本——碎片知識(shí)整合,覆蓋用戶全方面知識(shí)上傳需求。
2)提?。憾嘣袷竭m配,精準(zhǔn)識(shí)別內(nèi)容
為精準(zhǔn)識(shí)別不同格式文檔內(nèi)容,OpsPilot 以多元提取方式適配需求。包含全文提?。ㄌ幚?PDF 等,掃描件啟用 OCR)、章節(jié)提?。ò?Word 目錄結(jié)構(gòu)解析長(zhǎng)文本)、頁(yè)面提取(拆分 PPT 單頁(yè)),以及表格的工作表整體提取、行級(jí)數(shù)據(jù)提取,實(shí)現(xiàn)文檔結(jié)構(gòu)與內(nèi)容的深度解析。
3)分塊:破解長(zhǎng)文本難題,優(yōu)化檢索效果
提取出可編輯的文本數(shù)據(jù)后,分塊對(duì)其進(jìn)一步處理,通過精細(xì)切割讓知識(shí) “化整為零”,為高效檢索與智能生成鋪就基石。分塊功能依據(jù)文本特性與應(yīng)用場(chǎng)景,提供多元策略:定長(zhǎng)分塊、循環(huán)分塊、語(yǔ)義分塊、不分塊。分塊通過優(yōu)化知識(shí)顆粒度,讓機(jī)器理解與檢索的效率,真正匹配人類的知識(shí)邏輯。
03.嘉為藍(lán)鯨OpsPilot——更懂運(yùn)維的AI平臺(tái)
嘉為藍(lán)鯨OpsPilot是一款集知識(shí)庫(kù)管理、技能配置、機(jī)器人管理和工具管理為一體的智能運(yùn)維支撐平臺(tái),通過結(jié)合LLM大模型強(qiáng)大語(yǔ)義理解、知識(shí)增強(qiáng)與多模態(tài)處理能力,從而實(shí)現(xiàn)運(yùn)維相關(guān)的問答和操作。此外,OpsPilot更加聚焦于運(yùn)維領(lǐng)域,超出單個(gè)LLM大模型的能力范疇,成為更懂運(yùn)維的智能AI平臺(tái)。
智能運(yùn)維OpsPilot上新:新增知識(shí)問答對(duì),發(fā)揮知識(shí)精準(zhǔn)匹配優(yōu)勢(shì)
查看詳細(xì)
嘉為藍(lán)鯨亮相GOPS全球運(yùn)維大會(huì)·2025北京站,彰顯研運(yùn)領(lǐng)域硬核能力!
查看詳細(xì)
領(lǐng)航智能運(yùn)維新時(shí)代!嘉為藍(lán)鯨與三大客戶聯(lián)合斬獲央國(guó)企數(shù)智化轉(zhuǎn)型案例殊榮
查看詳細(xì)
WeOps V5.23&V4.23 AI懂你要什么:日志智能提取
查看詳細(xì)
嘉為藍(lán)鯨WeOps認(rèn)證:三級(jí)認(rèn)證階梯,構(gòu)建運(yùn)維人才成長(zhǎng)新生態(tài)
查看詳細(xì)
嘉為藍(lán)鯨OpsPilot:三階段破局企業(yè)數(shù)字化難題,智能運(yùn)維時(shí)代領(lǐng)航員
查看詳細(xì)
申請(qǐng)演示