节点文献
文档分享系统的优化与实现
Research and Implementation of Document Sharing System
【作者】 张锋;
【导师】 奚建清;
【作者基本信息】 华南理工大学 , 计算机软件与理论, 2013, 硕士
【摘要】 每天,在电脑与各种便携电子智能设备上,人们都不断记录着自己日常的工作、生活体验,以及学习上的经验心得。在这种便捷的记录方式大背景之下,主流的网络文档分享网站应运而生。文档分享技术是目前计算机学术界与企业界的一个研究热点,各研究机构与企业也已经取得不少成果。但是这些研究机构与企业所推出的产品,无论是面对用户群的急速增长、数据量的扩张,还是面对用户需求的多样化,都具有一定的局限性与不足,仍存在研究与改进的空间。本文针对关键技术要点进行了研究,主要完成的工作及成果包括以下四个方面:(1)结合基本的文档MD5校验处理的查重技术,设计基于分段规则的查重算法对文档的内容作进一步的处理辨别,以求能够更有效地辨别文档内容的重复性,大量减少内容重复文档的转换开支。(2)针对文档的转换行为进行统一管理,采取多台物理的文档转换服务器共同支持的方式来解决转换任务的调度。同时,在单转换服务器内并行处理文档格式转换与文档索引构建的行为。(3)针对超大文档预览过慢的系统瓶颈问题,本文提出了一种基于超大文档的切片处理与预览加载相结合的处理策略,对预览服务进行加速。同时基于memcached提供的接口进行开发缓存模块加速文档的传输。(4)综合以上关键技术要点,采用分层模型,运用分布式架构,设计并实现了完整的文档分享系统。
【Abstract】 Nowadays, peoples keep recording daily work, and life on computers as well as manyother portable electronic equipment. Main stream file sharing web sites blooms in this background.File sharing technology remains research hotspots with many achievement in bothacademic and enterprise. However, current products shows limitations under the pressure ofblowing up user number and data, and variety of user requirements. In this paper, key pointtechnology is researched and summarized. Main contribution is listed below:1. new solution for document content recognition, to reduce the conversion work loadfor reduplicative files, based on the MD5algorithm check for reduplication.2. unified management of file conversion with dispatching for multiple physical fileconverting server and parallel processing conversion and indexing inside single server.3. To solve the bottleneck of large file reviewing, an accelerating solution based onhuge file slicing and preload is proposed.4. A hierarchical modeled dispatched architecture file sharing system is build on thosekey points.
【Key words】 Document conversion; Automatically scheduling; Index building; Parallelprocessing; Big-document accelerate;
- 【网络出版投稿人】 华南理工大学 【网络出版年期】2013年 S2期
- 【分类号】TP391.1
- 【下载频次】111