“秦淮佳丽地,城阙望中迷。柳暗青丝发,花香碧玉衣。歌楼留夜色,画阁敛春晖。细雨轻舟去,双鱼梦泽飞。”这是近日上线的“荀子”古籍大语言模型(以下简称“荀子”)以“金陵”为题,生成的一首古诗。
记者了解到,“荀子”是国内首个专门应用于古籍处理与研究的开源智能工具,由南京农业大学王东波教授研究团队联合古联(北京)数字传媒科技有限公司发布。它依托国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”,基于40亿字的大型混合语料数据生成。
“数据是大模型的基础。”王东波介绍,在“荀子”的研发过程中,研究团队在人工智能通用模型的基础上,灌注了繁简体《四库全书》等20亿字的古代汉语语料和文化领域的20亿字的现代汉语语料,使“荀子”具有古籍智能标引、古籍信息抽取、诗歌生成、古籍高质量翻译、阅读理解等功能。
“对于汉语言研究者来说,他们还可以利用‘荀子’完成古籍词法分析、实体识别、关系抽取、文本分类与匹配、文本摘要等工作。”王东波举例,如果要研究《史记·陈涉世家》的人物关系,就可以用“荀子”识别这篇文章中的人物名称和关系名词,再用知识图谱的方式呈现人物关系图谱,从而提高检索、查询、研究的效率。
王东波介绍,此次发布的“荀子”大模型中的基座模型,还可以让用户根据自己的需求对“荀子”进行微调,帮助用户开展更有针对性的研究。
“荀子”是怎么做到化繁为简、通读古今的?“核心是‘算力充足’并且‘饱读诗书’。”王东波介绍,“荀子”的顺利问世离不开南京农业大学提供的高性能算力基础设施支持,以及研究团队长期积累的精加工语料库。
“模型的构建受算力、场景应用等多方影响,但精准度较高的优质数据是最为关键的。”王东波表示,研究团队自2013年起,一直专注于人工精标注数据的工作。
“比如要训练大模型自动标注《岳阳楼记》中的形容词,首先需要人工标注这篇文章中的形容词。在积累了大量的人工标注后,再让机器进行学习。”王东波说,这项“坐冷板凳”的基础标注工作,他们一做就是10年。
“我们期待能将古籍的智能化研究与跨学科的人才培养相结合,让学生既有前瞻的科研视野,又能积累较为深厚的人文底蕴。”王东波表示,研究团队希望能让更多人接触古籍、品读古籍、传播古籍,让“故纸堆”重新焕发活力,推动中华优秀传统文化创造性转化、创新性发展,赓续中华文脉。
王东波介绍,“荀子”除了能让人们更顺畅地阅读古籍内容,推动古籍整理、古籍数字化、古籍活化利用与传播之外,未来还可应用于人工智能写作、人工智能教学、数字文娱等领域。
六点半是什么时辰 | 辣眼睛是什么意思 | 什么的点头 | 9月24日是什么星座 | 头晕脑胀是什么原因 |
逆熵是什么意思 | 痰湿吃什么食物 | 甘油三酯指的是什么 | 821是什么意思 | 吃完避孕药不能吃什么东西 |
黑芝麻和白芝麻有什么区别 | 什么是量子力学 | 梦见弟媳妇是什么预兆 | 补气血吃什么药 | 肚脐眼的作用是什么 |
忙什么呢幽默的回答 | 六十岁叫什么之年 | nba下个赛季什么时候开始 | ex是什么的缩写 | nary是什么牌子的手表 |
生吃紫苏叶有什么功效hcv7jop5ns0r.cn | 掉头发吃什么维生素hcv8jop6ns0r.cn | 吃软不吃硬是什么生肖sanhestory.com | 栀子花叶子发黄是什么原因hcv7jop6ns9r.cn | 心路历程是什么意思hkuteam.com |
a型血的人是什么性格hcv8jop4ns4r.cn | 吃什么能养胃kuyehao.com | 阳历6月21日是什么星座hcv7jop6ns3r.cn | 1658是什么意思creativexi.com | 什么的香味hcv9jop2ns1r.cn |
卵巢早衰吃什么药sscsqa.com | 肉炒什么好吃hcv8jop6ns4r.cn | 耳鸣是什么原因引起的嗡嗡的响hcv8jop4ns2r.cn | 什么是烂桃花hcv8jop5ns5r.cn | 海兔是什么动物hcv8jop7ns9r.cn |
吃深海鱼油有什么好处和坏处hcv8jop2ns0r.cn | 为什么感冒会咳嗽hcv8jop7ns3r.cn | 当局是什么意思hcv8jop1ns8r.cn | 长水痘可以吃什么菜hcv9jop0ns2r.cn | 中药饮片是什么clwhiglsz.com |