èŠ‚ç‚¹æ–‡çŒ®

é¢å‘å¤§è¯è¨€æ¨¡åž‹åº”ç”¨çš„æ•°æ®æœåŠ¡å¹³å°ç ”ç©¶

Research on data service platform for large language model applications

æŽ¨è CAJä¸‹è½½
PDFä¸‹è½½
ä¸æ”¯æŒè¿…é›·ç‰ä¸‹è½½å·¥å…·ï¼Œè¯·å–æ¶ˆåŠ é€Ÿå·¥å…·åŽä¸‹è½½ã€‚

ã€ä½œè€…ã€‘ éž ç‚œåˆšï¼› æ±ªé¹ï¼› çŽ‹ä½³ï¼›

ã€Authorã€‘ JU Weigang;WANG Peng;WANG Jia;ZTE Corporation;Southeast University;

ã€æœºæž„ã€‘ ä¸å…´é€šè®¯è‚¡ä»½æœ‰é™å…¬å¸ï¼› ä¸œå—å¤§å¦ï¼›

ã€æ‘˜è¦ã€‘ å¤§è¯è¨€æ¨¡åž‹åº”ç”¨æ•ˆæžœä¾èµ–äºŽé«˜è´¨é‡æ•°æ®ï¼Œä»ŽåŽŸå§‹è¯æ–™æž„å»ºè®ç»ƒæ•°æ®é›†å’Œæ£€ç´¢å¢žå¼ºçŸ¥è¯†çš„è¿‡ç¨‹ä¸ï¼Œç«¯åˆ°ç«¯çš„æ•°æ®ç®¡ç†å’Œå¤„ç†å˜å¾—è‡³å…³é‡è¦ã€‚å½“å‰æ•°æ®æœåŠ¡é¢ä¸´ç€å› æ•°æ®å¤„ç†è´¨é‡å·®è€Œå½±å“å¤§è¯è¨€æ¨¡åž‹åº”ç”¨æ•ˆæžœã€æ•°æ®å‡†å¤‡æ•ˆçŽ‡ä½Žã€å®žçŽ°çš„é«˜å¤æ‚æ€§å’Œé«˜æˆæœ¬ç‰é—®é¢˜ã€‚ä¸ºè§£å†³è¿™äº›é—®é¢˜ï¼Œæ–‡ç« æå‡ºä¸€ç§é¢å‘å¤§è¯è¨€æ¨¡åž‹çš„æ•°æ®ååŒæœåŠ¡æ–¹æ¡ˆï¼Œå¯¹åŽŸå§‹è¯æ–™ã€æ•°æ®é›†å’ŒçŸ¥è¯†å¤„ç†è¿›è¡Œæœ‰æ•ˆååŒï¼ŒåŸºäºŽç®—åå¯è§†åŒ–ç¼–æŽ’çš„è‡ªåŠ¨åŒ–å¤„ç†æŠ€æœ¯å’Œè·¨å¹³å°ç»Ÿä¸€è®¡ç®—è°ƒåº¦æ¡†æž¶ï¼Œè®¾è®¡å®žçŽ°äº†ä¸€ç§ç«¯åˆ°ç«¯æ•°æ®æœåŠ¡å¹³å°ï¼Œèƒ½æœ‰æ•ˆæ»¡è¶³å„ç±»å¤§è¯è¨€æ¨¡åž‹åº”ç”¨å¯¹äºŽæ•°æ®çš„ä¸åŒéœ€æ±‚ã€‚è¯¥å¹³å°æå‡äº†æ•°æ®è´¨é‡ã€å¤„ç†æ•ˆçŽ‡å’Œçµæ´»æ€§ï¼Œé™ä½Žäº†æˆæœ¬ï¼Œæ˜¾è‘—å¢žå¼ºäº†å¤§æ¨¡åž‹åº”ç”¨æ•ˆæžœï¼Œå…·æœ‰è¾ƒå¼ºçš„é€šç”¨æ€§å’Œå¹¿é˜”çš„åº”ç”¨å‰æ™¯ã€‚æ›´å¤š è¿˜åŽŸ

ã€Abstractã€‘ The application effectiveness of large language models depends heavily on high-quality data. In the process of constructing training datasets from raw corpora and enhancing knowledge through retrieval, end-to-end data management and processing become critically important. The current data services face issues such as poor data processing quality affecting the performance of large language models, low efficiency in data preparation, and high complexity and high costs in implementation.To address these issues, the article proposes a data collaboration service scheme tailored for large language models, enabling effective collaboration in the processing of raw corpora, datasets, and knowledge. Based on operator visualization orchestration for automated processing and a unified cross-platform computing scheduling framework. An end-to-end data service platform is designed and implemented that can effectively meet the diverse data requirements of various large language model applications. This platform improves data quality, processing efficiency, and flexibility, reduces the cost, and significantly enhances the effectiveness of large model applications, demonstrating strong generality and broad application prospects.æ›´å¤š è¿˜åŽŸ