第一部分 前言
注意,本公告的标题是系统维护通知,
不是硬件维护通知也不是网络维护通知,这表示:
1、本站目前并无硬件故障;
2、本站系统存在不稳定因素;
3、由于网络质量原因造成的访问体验不良好的问题,
将不会在本次维护中得到解决。
第二部分 维护原因
注意,原因描述发生在过去,本部分中时间均为过去时。
本站于 2011 年 11 月 25 日 8 时 8 分 发生文件系统故障,
导致新用户无法登录,www 用户无法访问,telnet/SSH 用户无法发文等问题。
系统维护组于 9 时 14 分开始解决故障,于 10 时 16 分暂时解决,
启动 bbs 服务。
故障原因:REISERFS error : vs-2100 add_save_link:
search_by_key ([-1 42730073 0x1 IND]) returned 1
(以上摘自 dmesg)
根据以上事实,以及若干年来系统维护组成员积累的经验,我们认为,
由于上午的临时解决过程并未执行 reiserfsck --rebuild-tree 彻底修复,
有较大可能性在读取特定数据时再次出现类似故障;同时,即便执行,
也有一定的可能性在近期由未知原因触发类似故障。
经讨论,系统维护组决定放弃 ReiserFS 3.6 文件系统。将原有数据迁移至
ext4(目前为首选)或 xfs(目前为备选)等文件系统,选择标准为,较稳
定及较适合 bbs 应用。
第三部分 维护计划
维护将持续约 3 - 7 天时间,分以下几个步骤进行:
1) 制作新的文件系统;
2) 将现有数据迁移至新文件系统,其中迁移精华区时,将在版面发文通知版主
暂时不要整理精华区;迁移版面时,会暂时只读版面并在版面发文通知版主
暂时不要整理版面文章;迁移用户数据和信件时,有较小概率导致用户掉线。
特别地,由于现有文件系统可能存在故障,因此在迁移过程中
如类似故障(见第二部分)再次出现,将停站约 5 - 12 小时进行彻底修复。
3) 停站约 10 - 30 分钟,切换至新的文件系统。
维护将视情况于 3 - 12 小时内开始。
涉及停站的步骤,在可能的情况下,系统维护组将提前于 Announce/sysop 版
发表公告并全站广播/悬挂 nForum 首页通知。大家也可关注新浪微博的
水木社区官方微博 帐号,以获得最新信息。
维护完成后,系统维护组将密切关注新文件系统的运行状况,但由于缺乏同等
规模 bbs 在非 ReiserFS 文件系统上运维的经验,系统维护组将不保证维护
完成后,不再出现类似的故障。
如维护过程中遭遇未知问题而造成维护无法继续进行时,将执行回滚。
在极其个别的情况下,若系统数据丢失,将恢复不早于 2011 年 11 月 19 日
的数据备份。
第四部分 建议的提出
如您对第二部分所描述的故障比较熟悉且有更佳方法解决,
或您对新文件系统的选择有任何建议,可以直接回复本文或写信给本文作者,
时间最好不晚于 2011 年 11 月 26 日 2 时整;
如您对第三部分所描述的维护计划有疑问,或有更合理建议,亦可
直接回复本文或写信给本文作者。但若某步骤已经开始,您对该步骤的建议
将有极大概率被忽略。
感谢广大用户对水木社区的支持。
水木社区·系统维护组
2011 年 11 月 25 日
--
修改:fancyrabbit FROM 123.116.100.*