网页制作与网站建设 在线作业,网站建设入门pdf,tv做后缀的动漫网站,什么是网页设计培训1个T的文本是多大呢#xff1f;1TB 1000GB#xff0c;1GB是10亿#xff0c;1TB就是1万亿字节。如果是英文字符#xff0c;1TB文本就是1万亿个英文字符#xff0c;如果是中文字符而且都是UTF8格式#xff0c;1个中文字符占3个字节#xff0c;1TB文本是3333亿中文字符1TB 1000GB1GB是10亿1TB就是1万亿字节。如果是英文字符1TB文本就是1万亿个英文字符如果是中文字符而且都是UTF8格式1个中文字符占3个字节1TB文本是3333亿中文字符相当于1亿篇3300字的文章。
现在要对1TB文本进行实时全文检索希望检索任何内容都能实时返回要达到毫秒级响应才能成为实时需要什么样的服务器配置呢需要服务器集群吗
是否需要服务器集群一是看数据量二是看访问量。
不考虑访问量仅从数据量上考虑1TB文本的实时全文检索系统是不需要服务器集群的普通单机双路服务器即可支持2000在线用户的实时搜索。
服务器配置普通双路服务器 硬盘Intel p4510 8T SSD 内存3T(满配)
软件系统 Ubuntu 22.04 搜索引擎最常见的是ElasticSearch是java系统还需要配置java及jvm这里采用了小唐搜索引擎c开发的安装简单什么依赖都不需要。
文本数据 CodeParrot数据集该数据集采集自github123万个项目1.15亿个代码文件 Android 13源代码 OpenHarmony鸿蒙源代码 总文本量接近1T基本上是英文。
为了达到实时搜索文本内容及索引需要进入内存需要修改linux的默认的max locked memory默认是不会有那么大的: sudo nano /etc/security/limits.conf 加上两行 * soft memlock 3072000000 * hard memlock 3072000000 这就把可锁定内存扩大到3T硬盘内容可以常驻内存了。
系统上线: www.tanglib.com 源代码全文检索
经过实测系统响应基本上在毫秒级达到了实时搜索要求。