公司刚做网站在那里找图片做,如何把网站的文字编辑,上海到北京多远,勤哲网站开发视频1. 简介
jieba 是python中一个非常好用的 中文分词组件#xff0c;但它并不是只有分词这一个功能#xff0c;还提供了很多在分词之上的算法#xff0c;如关键词提取、词性标注等。
安装方式#xff1a;
pip install jieba2. 分词
支持 3 种分词模式#xff1a;精确模式…1. 简介
jieba 是python中一个非常好用的 中文分词组件但它并不是只有分词这一个功能还提供了很多在分词之上的算法如关键词提取、词性标注等。
安装方式
pip install jieba2. 分词
支持 3 种分词模式精确模式、全模式、搜索引擎模式。
1精确模式试图将句子最精确地切开词语间没有重叠。代码中通过cut_allFalse选项来指定。
import jieba
seglist jieba.lcut(故事发生在二十一世纪末的日本。, cut_allFalse)
seglist[故事, 发生, 在, 二十一, 世纪末, 的, 日本, 。]2全模式把句子中所有可以成词的词语都扫描出来词语间可能有重叠。代码中通过cut_allTrue指定。
seglist2 jieba.lcut(故事发生在二十一世纪末的日本。, cut_allTrue)
seglist2[故事, 事发, 发生, 生在, 二十, 二十一, 十一, 一世, 世纪, 世纪末, 的, 日本, 。]3 搜索模式 在精确模式的基础上对长词再次切分提高召回率适合用于搜索引擎分词。
seglist jieba.lcut_for_search(故事发生在二十一世纪末的日本。)
seglist[故事, 发生, 在, 二十, 十一, 二十一, 世纪, 世纪末, 的, 日本, 。]3. 关键词提取
jieba 提供了两种关键词提取方法分别基于 TF-IDF 算法和 TextRank 算法。
3.1 TF-IDF 算法
TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)是一种统计方法用以评估一个词语对于整个语料文档的重要程度其原理可概括为 一个词语在一篇文章中出现次数越多同时在所有文档中出现次数越少越能够代表该文章 通过 jieba.analyse.extract_tags 方法可以基于 TF-IDF 算法进行关键词提取该方法共有 4 个参数
sentence为待提取的文本topK为返回几个 TF/IDF 权重最大的关键词默认值为 20withWeight是否一并返回关键词权重值默认值为 FalseallowPOS仅包括指定词性的词默认值为空
代码调用示例如下
import jieba.analyse as anlss 孔子世家谱\n《孔子世家谱》随着新版《孔子世家谱》补遗卷在2008年12月31日停止收集孔子后裔资料历时10年的《孔子世家谱》第五次大修后裔资料收集工作全面完成。编修补遗卷是《孔子世家谱》第五次大修的最后一步因为不少后裔族人得到修谱消息较晚或身份考证过程较长未能及时录入总谱为避免这部分孔子后裔资料失传孔子世家谱续修工作协会决定编修一部补遗卷。从2008年10月决定编修补遗卷到目前最终有1.1万多人填报了后裔资料登记表。\n编修 民国十七年孔族中人倡修合族大谱几经筹备于民国十九年在孔庙开馆正式进行。全谱成于民国二十六年十一月由孔德成任总裁参加工作人员60余人历时7年而成。开始时在孔庙举行仪式陈奉告文牲醴恭行祭告并由族长宣读誓词。谱成再次举行了告祭仪式。 根据这部家谱凡属孔裔不论散居何地只要能查考的一律载明属于何户何支编排得有条不紊清晰明确。所以凡今存60岁以上的孔裔都能在谱中查到自己的名字并可依序上溯到每一位祖先直至孔子。 内容 序言 孔子后人取名正式订出行辈是在明朝明初朱元璋赐孔氏八个辈字公、彦、承、弘、闻、贞、尚、胤供起名用。后因洪武元年1368年孔子的第55代孙孔希学及洪武十七年1384年孔子的第56代孙孔讷先后袭封衍圣公。这样就把“希”和“言”旁加上去为十个字即希、言、公、彦、承弘、闻、贞、尚、胤后清代为避帝讳将弘改为宏胤改为衍。明天启1621年—1627年年间这十个字已不够用由第64代衍圣公孔胤植孔衍植奏准。后续二十个字即“兴毓传继广昭宪庆繁祥令德维垂佑钦绍念显扬 ”民国八年1919年由七十五代衍圣公孔令贻又立二十个字咨请当时的北洋政府核准公布。亦即第八十六代至一百零五代。即“建道敦安定懋修肈彝常裕文焕景瑞永锡世绪昌”。到现在为止已知最小辈是“钦”字辈。因此不少孔孟后人从名字上就能看出来辈分大小。这并非是孔孟传人一直必须使用的而是在清乾隆九年1744年由礼部调查整理报皇帝钦定其作为孔孟后裔行辈的顺序的。在此之前孔子家谱非常繁芜而这个政府下达的规定使得起名比先前更加规范又由于是经皇帝提倡使得中国其他大家族谱系的也开始效仿这种规范的方法。 全谱共分四集108卷总计154册其主要内容如下 首卷 另列有序、又序、旧序、职名、卷次、目录、事宜、凡例60户及各支派捐输总数颁谱部数姓源宗派总论圣祖至四十二代图中兴祖至今二十派图二十派至分60户图嫡裔考嫡宗图又南宗图伪孔辨内院至孔图与外院伪孔图等。 初集 以始祖孔子为卷一中兴祖孔仁玉为卷二卷三至卷六十二为自大宗户次第分为60户每户一卷共62卷。 二集 为中兴祖后支派包括南宗在内共三十四支派分布全国各省县以始迁地为支派名共34卷。 三集 为中兴祖前支派共十派、10卷。 四集 为上代失叙各支分布范围更广多达77处共2卷。 除总谱外还有各户支谱不再评叙。 入谱标准 虽然凡属孔裔均可入谱但也有不准入谱的限制主要是必须按照规定行辈因字取名如有乱用不遵者必须改正否则不准入谱。 此外还有以下若干不准入谱的条件如养异姓为子者、赘婿冒姓者、子随母嫁者、流入僧道者、下贱者、不孝不悌干犯名义者等。 世系 50世祖燧人氏(配华胥氏) 49世祖伏羲(配女娲) 48世祖少典 47世祖黄帝(姬轩辕) 46世祖少昊(又名玄嚣) 45世祖蟜极 44世祖帝喾(姬夋/姬夒/姬夔) 43世祖契(一作卨,商部族首任首领) 42世祖昭明(商部族首领) 41世祖相土(商部族首领) 40世祖昌若(商部族首领) 39世祖曹圉(商部族首领) 38世祖冥(商部族首领) 37世祖王亥(又名振,王恒之兄,商部族首领) 36世祖上甲微(简称微,商部族首领) 35世祖报乙(商部族首领) 34世祖报丙(商部族首领) 33世祖报丁(商部族首领) 32世祖主壬(一作示壬,商部族首领) 31世祖主癸(一作示癸,商部族首领) 30世祖商王成汤(子天乙,又名子履,商朝开国君主,原为商部族首领) 29世祖商太子太丁(子丁,又名子以跌) 28世祖商王太甲(子至) 27世祖商王太庚(子辩) 26世祖商王太戊(子伷) 25世祖商王仲丁(子庄) 24世祖商王祖乙(子滕) 23世祖商王祖辛(子旦) 22世祖商王祖丁(子新) 21世祖商王小乙(子敛) 20世祖商王武丁(子昭) 19世祖商王祖甲(子载) 18世祖商王康丁(子嚣) 17世祖商王武乙(子瞿) 16世祖商王文丁(子托) 15世祖商王帝乙(子羡) 14世祖微仲(又称宋微仲,本名子衍,商王帝乙之子,周朝时期宋国开国君主微子启之弟,宋国第二任君主) 13世祖宋公稽(子稽) 12世祖宋丁公(子申) 11世祖宋前湣公(子共) 10世祖弗父何(子何) 9世祖宋父周(子周) 8世祖世子胜(子胜) 7世祖正考父(子正) 6世祖孔父嘉(子嘉) 5世祖木金父(子木) 4世祖(高祖)祁父(子祁) 3世祖(曾祖)防叔(子防,孔姓族人称他为“孔防叔”,畏华氏之逼而奔鲁国,故孔氏为鲁人也) 2世祖(祖父)伯夏(子夏) 1世祖(父亲)叔梁纥(子纥,孔姓族人称之为“孔纥”) 孔子前551年—前479年汉族名丘字仲尼春秋末期鲁国陬邑昌平乡今山东省曲阜市南辛镇人中国古代伟大的思想家、教育家儒家学派创始人尊称“至圣”、“文圣”编撰了中国第一部编年体史书《春秋》卒年73岁葬于曲阜城北泗水之上即今日孔林所在地孔子的言行、思想主要载于语录体散文集《论语》及《史记·孔子世家》他首改“子姓”为“孔姓”是真正的孔姓始祖 1世孙(儿子)孔鲤 2世孙(孙子)孔伋 3世孙(曾孙)孔白 4世孙(玄孙)孔求 5世孙孔箕 6世孙孔穿 7世孙孔谦(又名孔慎、孔顺) 8世孙孔腾(汉高祖刘邦封孔腾为奉祀君,孔子后代始有封号)、孔鲋、孔树 9世孙孔忠(孔腾子) 10世孙孔武(孔忠长子)、孔安国(孔忠次子) 11世孙孔延年(孔武子) 12世孙孔霸(孔延年子,被汉元帝封为褒成侯,孔子后裔再获封号) 13世孙孔福(孔霸长子,被汉成帝封为殷绍嘉侯)、孔捷(孔霸子)、孔喜(孔霸子)、孔光(孔霸子) 14世孙孔房(孔福子,褒成侯)、孔永(孔捷子)、孔放(孔光子) 15世孙孔均(原名孔莽,孔房子,褒成侯) 16世孙孔志,褒成侯 17世孙孔损,褒亭侯 18世孙孔曜,奉圣亭侯 19世孙孔完(孔曜长子,褒成侯,无子)、孔赞(孔曜次子) 20世孙孔羡(孔赞子),宗圣侯 21世孙孔震,奉圣亭侯 22世孙孔嶷,奉圣亭侯 23世孙孔抚,奉圣亭侯 24世孙孔懿,奉圣亭侯 25世孙孔鲜,奉圣亭侯 26世孙孔乘,崇圣大夫 27世孙孔灵珍,崇圣侯 28世孙孔文泰,崇圣侯 29世孙孔渠,崇圣侯 30世孙孔长孙,恭圣侯 31世孙孔嗣悊(孔长孙次子、孔英悊之弟,绍圣侯) 32世孙孔德伦,褒圣侯 33世孙孔崇基,褒圣侯 34世孙孔璲之,初封褒圣侯,后改封文宣公(为历史上的首任文宣公)兼兖州长史 35世孙孔萱,文宣公 36世孙孔齐卿,文宣公 37世孙孔惟晊,文宣公 38世孙孔策,文宣公 39世孙孔振,文宣公 40世孙孔昭俭,文宣公 41世孙孔光嗣,泗水主簿 42世孙孔仁玉(中兴祖),文宣公兼曲阜县令 43世孙孔宜,文宣公兼曲阜主簿、赞善大夫 44世孙孔延世(孔宜长子,孔延泽之兄,文宣公兼曲阜县令)、孔延泽(孔宜次子) 45世孙孔圣祐(孔延世子,文宣公兼知曲阜县事,无子) 【注】以下文字中姓名加黑者为受封衍圣公等世袭职位者 45世孙衍圣公孔宗愿(孔延泽子、孔圣祐从弟宋仁宗宝元二年(1039年)孔圣祐三十五岁卒无子孔宗愿袭爵文宣公授国子监主簿知仙源县事(宋代曲阜县曾改为仙源县今属山东省)。仁宗至和二年(1055年)直集贤院曾上书申明历代对孔子及其嫡裔封号的混乱状况建议革唐代之失误法汉代之旧制改至圣文宣王四十五代孙孔宗愿为衍圣公。获准成为历史上第一位衍圣公。孔子嫡长孙衍圣公之封号从此相沿至民国二十四年(1935年)持续880年(公元1055年—1935年)) 46世孙奉圣公孔若蒙(孔宗愿长子宋神宗熙宁元年公元1068年袭封衍圣公兼曲阜县主簿。宋哲宗元祐元年公元1086年将爵号改为“奉圣公”专主祀事)、孔若虚(孔宗愿次子宋哲宗元符元年公元1098年废掉孔若蒙的爵位由其弟孔若虚字公实袭封奉圣公)、孔若愚(孔宗愿第三子) 47世孙衍圣公孔端友(孔若蒙长子1104年崇宁三年被授为朝奉郎、直秘阁、袭封奉圣公勾管祀事。宋徽宗大观年间公元1107年—1110年复改封孔端友为衍圣公。1128年建炎二年十一月金兵大举南下因宋朝的济南知州长刘豫叛宋形势急转直下孔端友在从父孔传的支持下除留胞弟孔端操留守阙里林庙外遂恭负传家宝“孔子及亓官夫人楷木像”、“唐吴道子绘孔子佩剑图”和“至圣文宣王庙祀朱印”等率近支族人端木、瓒等南渡成为南宗的开创者)、孔端操(孔若蒙次子)、孔端立(孔若愚子) 48世孙衍圣公孔璠(孔端操次子1128年宋朝建炎二年十一月金兵大举南下宋朝的济南知州长刘豫叛宋金国天会八年1130年七月二十七日金太宗下诏立扶持宋朝降臣、原济南知府刘豫为皇帝建立“伪齐”政权管辖黄河故道以南的今山东、河南、陕西等地区。九月九日正式成立刘豫伪齐政权。十一月废用天会年号改用阜昌年号并以天会八年即1130年十一月十三日后为阜昌元年。伪齐阜昌三年1132年补迪功郎袭封衍圣公主管祀事成为北宗衍圣公的继承人。金国天会十五年1137年金熙宗废伪齐。金国天眷三年1140年金熙宗诏求孔子后加孔璠承奉郎袭封衍圣公主奉祀事)、孔玠(孔端操长子南宗。1132年绍兴二年夏随宋室南渡浙江衢州的衍圣公孔端友逝世孔端友无子同年以孔端友胞弟孔端操长子孔玠袭封为衍圣公)、孔琥(孔端立子) 49世孙衍圣公孔拯(孔璠长子)、孔摠(又名孔詌,孔璠次子)、孔搢(孔玠子,南宗)、孔拂(孔琥子) 50世孙衍圣公孔元措(孔摠长子)、孔元用(孔拂次子)、孔文远(孔搢子,南宗)、孔元紘(一作孔元綋,孔摠次子)、孔元孝(孔拂长子) 51世孙衍圣公孔之全(孔元用子)、孔万春(孔文远子,南宗)、孔之厚(孔元孝子)、孔之固(孔元紘子) 52世孙衍圣公孔浈(孔之固子元宪宗元年1251年袭封衍圣公后1252年被人告称乃驱口贱民李姓所生因而被夺爵此后衍圣公之爵中断达43年之久直到元贞元年1295年孔治被元成宗封衍圣公为止)、孔治(孔之全子。孔浈被废爵后曲阜没有衍圣公孔治代管祭祀事三十余年。元贞元年1295年元成宗诏令孔治为中议大夫袭封衍圣公)、孔洙(孔万春子,南宗。1241年宋淳祐元年授承奉郎、袭封衍圣公。1276年宋德祐二年元至元十三年宋恭帝降元。1282年至元十九年秋元世祖诏命衢州第六代衍圣公孔子53世嫡长孙孔洙赴京令他载爵去曲阜奉祀。孔洙以先祖庐墓在衢州且衢州已建家庙不忍举家北上为由愿意让爵给曲阜族弟孔治。元世祖同意了孔洙的请求称赞他“宁违荣而不违道真圣人后也”便改封他为国子监祭酒提举浙东道学校事。从此南宗不再有衍圣公的封爵此封爵仅北宗所有孔洙为南宗末代衍圣公)、孔浣(孔之厚子) 53世孙衍圣公孔思诚(孔治子)、孔思晦(孔浣子)、孔思许(孔津子,孔之言孙,孔仁玉的第11世孙,南宗) 54世孙衍圣公孔克坚(孔思晦子)、孔克忠(孔思俊子,孔洙孙,南宗) 55世孙衍圣公孔希学(孔克坚子)、孔希路(孔克忠子,南宗) 56世孙衍圣公孔讷(孔希学子)、孔议(孔希路子,南宗) 57世孙衍圣公孔公鉴(孔讷子)、孔公诚(孔议子,南宗) 58世孙衍圣公孔彦缙(孔公鉴子)、孔彦绳(孔公诚子,南宗。1505年弘治十八年衢州知府沈杰向明孝宗朱祐樘上疏称“衢州圣庙自孔洙让爵之后衣冠礼仪猥同氓庶。今访得洙六世孙孔彦绳孔子第58世嫡长孙请授于官俾主祭事。”沈杰还奏请孝宗下诏减轻孔家祭田税赋孝宗准奏。次年即1506年正德元年接位的武宗朱厚照秉承先皇旨意封孔彦绳为世袭翰林院五经博士钦定子孙世袭。这样衢州孔子后裔在失去爵位224年之后又得到了封号。从此“世袭翰林院五经博士”的爵位由孔彦绳的子孙世袭下去) 59世孙衍圣公孔承庆(孔彦缙子)、孔承美(孔彦绳子,南宗世袭翰林院五经博士) 60世孙衍圣公孔宏绪(原名孔弘绪,孔承庆长子)、孔宏泰(原名孔弘泰,孔承庆次子)、孔宏章(原名孔弘章,孔承美子,南宗世袭翰林院五经博士) 61世孙衍圣公孔闻韶(孔宏绪子)、孔闻音(孔宏章子,南宗世袭翰林院五经博士) 62世孙衍圣公孔贞干(孔闻韶长子)、孔贞宁(孔闻韶次子、孔尚坦之父)、孔贞运(孔闻音子,南宗世袭翰林院五经博士) 63世孙衍圣公孔尚贤(孔贞干子,生有二子:孔胤椿、孔胤桂,皆无子而早夭)、孔尚乾(孔贞运子,南宗世袭翰林院五经博士) 64世孙衍圣公孔衍植(原名孔胤植,孔尚坦子)、孔衍桢(原名孔胤桢,孔尚乾子,南宗世袭翰林院五经博士) 65世孙衍圣公孔兴燮(孔衍植子)、孔兴燫(孔衍桢子,南宗世袭翰林院五经博士) 66世孙衍圣公孔毓圻(孔兴燮子)、孔毓垣(孔兴燫子,南宗世袭翰林院五经博士) 67世孙衍圣公孔传铎(孔毓圻子)、孔传锦(孔毓垣子,南宗世袭翰林院五经博士) 68世孙衍圣公孔继濩(孔传铎子)、孔继涛(孔传锦子,南宗世袭翰林院五经博士) 69世孙衍圣公孔广棨(孔继濩子)、孔广杓(孔继涛子,南宗世袭翰林院五经博士) 70世孙衍圣公孔昭焕(孔广棨子)、孔昭烜(孔广杓子,南宗世袭翰林院五经博士) 71世孙衍圣公孔宪培(孔昭焕长子,孔宪增之兄,无子)、孔宪坤(孔昭烜子,南宗世袭翰林院五经博士) 72世孙衍圣公孔庆镕(孔宪增子,过继给孔宪培,1794年袭爵)、孔庆仪(孔宪型子,孔传锦的第5世孙,南宗。同治三年1864年承袭世袭翰林院五经博士民国二年1913年中华民国北洋政府颁布《崇圣典例》改南宗五经博士孔庆仪为大成至圣先师南宗奉祀官世袭) 73世孙衍圣公孔繁灏(孔庆镕子)、孔繁豪(孔庆仪子,孔繁英之兄,无子,南宗。1923年冬孔庆仪去世其子孔繁豪袭任大成至圣先师南宗奉祀官。中华民国国民政府北伐后孔繁豪仍任大成至圣先师南宗奉祀官享简任官的职位及待遇约比照司长级视特任官官阶为低与孟子“亚圣”、颜子“复圣”、曾子“宗圣”、子思“述圣”奉祀官同等级) 74世孙衍圣公孔祥珂(孔繁灏子)、孔祥楷(孔繁英子,过继给孔繁豪,南宗。1944年10月孔繁豪去世无子民国三十六年1947年乃以其二弟孔繁英长子孔祥楷受封大成至圣先师南宗奉祀官。民国三十八年1949年5月6日国民政府失去对衢州的统治孔祥楷未随国民政府迁台南宗奉祀官世职遂废。孔祥楷目前健在现为中国大陆浙江省政协委员、衢州孔氏南宗家庙管理委员会主任) 75世孙衍圣公孔令贻(孔祥珂子清光绪三年1877年承袭衍圣公民国二年1913年中华民国北洋政府颁布《崇圣典例》保留衍圣公爵位仍由北宗的前清衍圣公孔令贻袭爵1919年11月8日病逝于北京太仆寺街衍圣公府) 76世孙衍圣公孔德成(孔令贻子母王氏夫人1920年2月23日出生出生百日后奉中华民国北洋政府徐世昌大总统令承袭衍圣公爵位中华民国国民政府北伐后孔德成有感于世袭衍圣公爵位不宜存于民国遂于1935年主动请求政府撤销爵号中华民国国民政府以为道统不可废乃改衍圣公作大成至圣先师奉祀官享特任官的职位及待遇相当于部长故而孔德成为历史上的末代衍圣公首任大成至圣先师奉祀官1936年娶前清名宦孙家鼐的孙女孙琪芳为妻1949年国民政府退守台湾孔德成随迁往台湾复建台北孔庙历任大成至圣先师奉祀官、考试院院长、总统府资政兼任台湾大学中文系教授开设商周青铜彝器、三礼、金文的综合研究等课程2008年10月28日上午10点50分在台湾佛教慈济综合医院台北分院因心肺功能衰竭安详辞世享年八十九岁安葬在台湾的新北市三峡区龙泉公墓) 77世孙孔维益(孔德成子,早卒,未袭封) 78世孙大成至圣先师奉祀官孔垂长(孔维益子,2009年9月25日正式袭封大成至圣先师奉祀官,享特任官待遇) 79世孙孔佑仁(孔垂长子,2006年元旦生于台湾) 79世之后的辈分字:钦,绍,念,显,扬,建,道,敦,安,定,懋,修,肈,彝,常,裕,文,焕,景,瑞,永,锡,世,绪,昌 版本 1937版 前言 孔氏之有谱自宋元丰始也。其后六十年一大修著为例比清乾隆甲子重修距今百数十年矣。支派之繁衍人事之递(shi)嬗(shan)年湮(yin)世远散漫无稽斯可憾已。 岁戊辰廼承先母陶太夫人命集族耆彦公议重修体例率旧而所录加扩焉。盖旧谱以博采难周仅志鲁籍六十户时为之也。今则交通便而声气易达爰举流寓外省者并录之因而兼以创矣。惟创也而征集考徼以至编纂其繁迹有倍蓰(xǐ)于前者。故七历寒暑而始告成呜呼难已。事既蒇(chǎn)将以付梓余忝属主鬯(chǎng祭祀用的一种酒器。又同‘畅’)乃薰沐告庙更为族人申以言曰谱所以昭宗法也。孔氏之先远出殷商至我祖圣祖孔子而道集大成单传七世厥后渐繁五季逆末构变孔祚几尽。鲁之宗亲仅四十二代祖温如公以藐孤存焉是为孔氏中兴祖。后五传而至端友公以从宋南渡家于衢是谓南宗元至元间洙公北逊。由元迄今几六百年承袭罔替是谓北宗,有六十户。南宗则衢州一支之外凡宋时南渡、与晋唐代南徙者沿有十余支。然派分南北流出一源。故合散为聚汇一谱详本支序昭穆粲乎秩然莫之或紊。俾(bì)览斯谱者咸晓然于积之厚者流自光则尊祖敬宗之心庶乎油然而生矣。虽然犹未尽也有世统焉有道统焉。世统吾所私也道统吾虽不得而私然亦不得而诿也。 自我圣祖作师垂教三世祖阐而述之道之行如日月经天矣。厥后代有闻人或以学显或以行著悉附传于谱后之人履其庭读其书其可不懔懔弗荷弗构之戒而思善其继述乎矧(shěn)道之隆污天下兴亡系焉。自世运陵夷邪说纷起宗法失而伦常斁(dù)社会风俗江河日下君子忧之则缵绪翼教导民正谓求其所以为谱者归氏学圣人之道者也。言深且旨而况圣人之后哉吾族人其宜有以知所勉矣。 中华民国二十六年岁在丁丑春二月七十六代孙特任大成至圣奉祀官孔德成谨序。 序 披阅谱牒历三甲子迁延而未续纂缺典也全国族人支繁派别散居而无联属憾事也。惟然则合修大谱之议亟亟矣。民国戊辰秋余与族人宪滢、繁朴倡修合族大谱。请于宗子宗子韪之。于是敦请族彦推定临时职员相于从事筹备焉。其于各地族人披露以报章号召以广告不数月而声气通矣。筹备二载端倪粗具乃告庙开馆时庚午年十月十日也阅七年谱事蒇。从此缺典补遗憾释矣 嗟乎我孔氏自圣祖至今繁衍生息于神州大陆已二千四百八十八年矣。其间历蒙帝王名臣大儒优遇争称为神明世胄者皆由我圣祖集群圣之大成而为儒道宗师也。即其间经暴秦焚坑之摧残五季厮养之戕害终能濒危得安将绝复续者抑以大圣之泽百世不迁者也。考我家乘宋以前祗具册写自四十六代宗翰祖始创为刊印。至明弘治二年首次重修并定为六十年一大修三十年一小修大修以甲子为期小修以甲午为期。清顺治十年未及甲子又重修迨后康熙、乾隆两甲子均重修勿替可谓极重视谱牒矣。惟四次重修皆于六十户编纂加详而流寓各支弗与焉。推其故盖因当时交通未便调查维难又鉴于逆末之变兢兢于杜奸冒防伪人宁从其缺毋任其滥也。此次合修虽曰绍述究同创举而风声所树全国景从者则以交通便利既异畴昔民族团结复应时势之需要而咸具同情故用力省成功易殆运会使然。与从此合远为近万派归纳于一本大宗领小宗昭穆不紊。吾族人各本敬宗睦族之化除畛域联为一体谓非极美极盛之事乎国之人有读是谱者察其体制辨其伦次则宗法可资而考镜矣而洙泗流泽之绵延人文之孳息亦得其大凡足补国史所未及或亦关心采择者之所乐闻也。然则此谱之成又岂独孔氏一族之幸哉是役历十年之久余始终佐其事既竣而谨为之序。 民国丁丑年仲春之吉六十七代孙、家庭族长孔传堉谨撰。 2009版 目录 K0 总谱 K1 卷首 K2 大宗户 K3 临沂户 孟村户 K4 道沟户 K5 滕阳户 K6 旧县户 K7 钟吉户 K8 菜庄户 戴庄户 栗园户 K9 时庄户 泗庄户 K10 店北户 西郭户 K11 仙源户 泉南户 齐王户 盛果户 K12 苗孔户 文献户 沂北户 K13 石村户 鲁贤户 沂阳户 孔村户 王堂户 小庄户 宫端户 黉门户 K14 华店户 K15 古城户 岗山户 K16 鲁城户 K17 孔屯户 西城户 旧城户 K18 吕官户 K19 林前户 防西户 林门户 K20 管庄户 大薛户 K21 广文户 K22 小薛户 陶乐户 北公户 K23 纸坊户 董庄户 防上户 高庄户 南宫户 K24 星村户 古柳户 吴孙户 东村户 磨庄户 K25 张曲户 息陬户 K26 西林户 林西户 K27 南宗派 K28 江西新建支 四川阆中支 浙江温岭支 浙江钱塘支 K29 清平孔庄支 广东南海大沥支 河南太康支 K30 江苏吴县与范县支 河南新乡花园村支 河南新乡八里营支 广东番禹支 定陶支 K31 广西灌阳支 成武孔楼支 江苏丰县支 成武孔庄支 平阴孔家集支 寿光支 K32 牟平派 K33 浙江慈溪派 福建闽县支 安徽徽州支 安徽舒城支 K34 浙江衢州派 K35 寿光潍县支 肥城孔庄支 寇县支 河北枣强与恩县支 K36 郓城支 四川大邑支 四川邛崃支 河北晋县支 河南考城支 K37 江苏武进支 长清支 河南浚县支 德平南孔家庄支 德平西孔家庄支 K38 江苏镇江支 河南武安支 湖北新洲支 桓台孔家庄支 河南光山支 K39 山西阳城济源支 浙江宁海支 安徽桐城支 K40 浙江婺州支 夏津支 浙江诸暨支 河北南宫冀县支 K41 浙江平阳派 K42 河南郏县派 K43 河南宁陵派 K44 河北献县派 K45 江苏丹阳派 K46 岭南派 K47 广东南雄派 河南洛阳派 K48 江西临江派 K49 湖南平江浏阳派 K50 河南鲁山派 K51 河南河洛派 K52待考 山东支 河北北京天津支 山西支 辽宁支 内蒙古支 吉林支 黑龙江支 江苏上海支 浙江支 福建支 江西支 河南支 湖北支 湖南支 广东支 广西支 四川重庆支 贵州支 云南支 K53待考 安徽支 陕西支 甘肃支 青海支 宁夏支 新疆支 台港澳支 K54 韩国高丽支 特点 一是女性族人、少数民族、外籍孔子后裔首次录入世家谱不仅有因通婚或生活所迫变更为回族、苗族、水族、哈尼族、景颇族、土族、东乡族、藏族等少数民族的后裔, 还有旅居韩国、美国、新加坡等国家地区的外籍后裔近四万人 二是信息量增加以往只收入姓名这次增加了性别、配偶、学历等个人信息 三是实现数字化建立数据库并被赋予分类统计功能对研究儒家学说及人口学、社会学、教育学等方面都将具有重要的史料价值。 另外在续修家谱过程中寻得了失去联系的分布在台湾屏东、龙潭、桃园等地二百多年的九百多名孔子后裔以及失散在山西昔阳和河南洛宁超过千年的两支族人此次全部被录入新谱。 编修进展 据台湾“中央社”报道世界孔子后裔联谊会总会长孔德墉说在台湾的孔子后裔约有4000人而在第5次“孔子世家谱”续修过程中粗估约有900名台湾人录入世家谱。报道说新版“孔子世家谱”补遗卷在2008年12月31日停止收集孔子后裔资料历时10年的孔子世家谱第5次大修后裔资料收集工作全面完成。 “中央社”引述当时媒体报道说来自台湾的900多名孔子后裔在第5次“孔子世家谱”续修过程中首次被录入世家谱这些后裔主要来自台湾的屏东、龙潭、桃园等地分属20多个支派。 [1] 成就 世界最长家谱涵盖孔子家族整个传承史的《孔子世家谱》以其延时之长、族系之明纂辑之广、核查之实体例之备、保存之全2005年被吉尼斯世界纪录列为“世界最长家谱”。 孔氏全族之正式有谱始于宋朝元丰甲子年间(公元1089年)迄今已历九百余年。在此以前也有族谱不过只收长支不及旁系。自康熙甲子年(公元1684年)后规定每逢甲子大修一次每逢甲午小修一次。所谓小修即将三十年内孔裔的生死变迁分别填造成册作为大修的底册亦即为大修做准备。清代康熙、乾隆的甲子年(即公元1684年、1744年)都曾大修。自此以后孔氏族谱命名为《孔子世家谱》。它最后一次大修是民国十七年(公元1928年)在曲阜孔府组成了以七十六代衍圣公孔德成任总裁的修谱筹备处着手全国孔氏家族的合修家谱工作历时七年完成了现存的从孔子至七十六代近两千五百年的108卷家谱档案。家族谱是古代谱牒的一种它记述了家族始祖源起受姓情况对于研究家族特别是人物、礼俗等均有重要意义。如《孔子世家谱》中的孔子年谱、孔子姓源考等对于研究孔子的学术思想和生平事迹就具有重要的学术价值。
for x, w in anls.extract_tags(s, topK20, withWeightTrue):print(%s %s % (x, w))
提取的关键词如下 Building prefix dict from the default dictionary ...Loading model from cache /var/folders/cp/7qks5zmd671fgcm7y5_8ym700000gn/T/jieba.cacheLoading model cost 0.851 seconds.Prefix dict has been built successfully.世孙 0.255753474149837世祖 0.15846281312724453南宗 0.1318381328213793孔子 0.11387221533041378衍圣公孔 0.08994182447322883衍圣公 0.06370879233520375世袭 0.05272404459032916五经 0.04932817391790282奉祀 0.04864575042554859圣公 0.04497091223661442世家 0.04424399585600627后裔 0.0428113896246395翰林院 0.04166001892097806文宣公 0.04122333621689655长子 0.03982280783623825博士 0.03913676740719122部族 0.03529731127425079衢州 0.03512795029413793商王 0.0350448552886206910 0.033728184177460813.2 TextRank
TextRank 是另一种关键词提取算法通过 jieba.analyse.textrank 方法来调用参数和前面的jieba.analyse.extract_tags一样。
for x, w in anls.textrank(s, withWeightTrue):print(%s %s % (x, w))世孙 1.0
世祖 0.6719509576291326
后裔 0.5319892265474224
河南 0.4775548828767209
奉祀 0.40576361913234127
博士 0.37608524857056325
公孔 0.34816060085851963
大成 0.3233759671893447
浙江 0.31787213051647356
台湾 0.3178186393530006
世袭 0.31384707525444683
族人 0.29686308926538085
首领 0.2876554622635292
衢州 0.27408399749839835
部族 0.264654649590796
五经 0.26101372653755744
曲阜 0.22279350390849875
庄户 0.22248153712213276
河北 0.20637976286954174
四川 0.205033639537451884. 词性标注
使用jieba.posseg可以标注句子分词后每个词的词性例如动词v。
import jieba.posseg as psegwords pseg.cut(富兰克林·罗斯福是怎么患残疾的)
for word, flag in words:print({0} {1}.format(word, flag))富兰克林 nz
· x
罗斯福 nr
是 v
怎么 r
患 zg
残疾 n
的 ujx词性标注对应下表
标签含义标签含义标签含义标签含义n普通名词f方位名词s处所名词t时间nr人名ns地名nt机构名nw作品名nz其他专名v普通动词vd动副词vn名动词a形容词ad副形词an名形词d副词m数量词q量词r代词p介词c连词u助词xc其他虚词w标点符号PER人名LOC地名ORG机构名TIME时间
5. 词语起始位置
使用 jieba.tokenize 方法可以返回词语在原文的起止位置。
result jieba.tokenize(u富兰克林·罗斯福是怎么患残疾的)
for tk in result:print(word: {0} \t\t start: {1} \t\t end: {2}.format(tk[0],tk[1],tk[2]))word: 富兰克林 start: 0 end: 4
word: · start: 4 end: 5
word: 罗斯福 start: 5 end: 8
word: 是 start: 8 end: 9
word: 怎么 start: 9 end: 11
word: 患 start: 11 end: 12
word: 残疾 start: 12 end: 14
word: 的 start: 14 end: 15
word: start: 15 end: 16参考资料
jieba简明教程https://blog.csdn.net/lty_sky/article/details/105567080官方教程https://github.com/fxsjy/jieba