【天天报资讯】【NLP相关】开源中文NLP大模型及项目集合
❤️觉得内容不错的话,欢迎点赞收藏加关注,后续会继续输入更多优质内容❤️ 有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)
开源中文NLP大模型及项目集合
自然语言处理领域存在很多开源模型和项目,这也使得自然语言处理的相关研究进展飞快。本文旨在对现有的一些开源项目和模型做一个调研,可能不是很全,有不在其中的欢迎评论区告知,不甚感谢。
哈工大开源模型和项目
(资料图片)
哈工大智能技术与自然语言处理研究室(Intelligent Technology & Natural Language Processing Lab,ITNLP Lab)是国内较早从事自然语言处理研究的科研团体之一。自八十年代初期以来,先后开展了俄汉机器翻译、固定段落问答、自动文摘、文本纠错、汉字智能输入、语音识别与合成、语料库多级加工、语言模型、信息检索、问答系统等多项研究。
其和科大讯飞联合开源了多个自然语言处理模型:roberta、pert、macbert、xlnet等。
其github地址为:
huggingface地址为:
IDEA-CCNL 封神榜模型和项目
2021年11月22日,IDEA研究院创院理事长沈向洋在IDEA大会上正式宣布启动 “封神榜”大模型开源计划。目前,已经开源了6个系列共10个模型,包含4种模型结构,模型参数最大达到35亿。
其中比较有名的有:二郎神系列模型、余元系列模型等。
其github地址为:
huggingface地址为:
知乎地址为:
Fudan NLP开源模型
复旦大学自然语言处理实验室,是由复旦大学首席教授吴立德先生创建,是我国最早开展自然语言处理和信息检索研究的实验室之一。经过40余年发展,在自然语言处理底层分析、文本检索、自动问答、社会媒体分析等方面取得了一系列的研究成果。实验室多年在国家自然科学基金、国家863/973/重点研发计划、省部委基金的支持下,发表了大量高水平国际期刊和会议论文,其中包括中国计算机学会推荐的A/B类国际会议和期刊论文(ACL,SIGIR,IJCAI,AAAI,NIPS,ICML等)论文150余篇;参加多项国内外评测,如在自动问答国际评测TREC/QA中获得第3名,在文本蕴涵评测RITE和阅读理解评测SQUAD都位居前列;发布了国内首家中文自然语言开源系统FudanNLP,被包括联合国教科文组织在内的国内外多家研发机构采用。
其github地址为:
paddle NLP开源模型和项目
飞桨自然语言处理核心开发库,拥有覆盖多场景的模型库、简洁易用的全流程API与动静统一的高性能分布式训练能力,旨在为飞桨开发者提升文本领域建模效率,并提供基于PaddlePaddle 2.0的NLP领域最佳实践。 其github地址为:
EasyNLP
随着 BERT、Megatron、GPT-3 等预训练模型在NLP领域取得瞩目的成果,越来越多团队投身到超大规模训练中,这使得训练模型的规模从亿级别发展到了千亿甚至万亿的规模。然而,这类超大规模的模型运用于实际场景中仍然有一些挑战。首先,模型参数量过大使得训练和推理速度过慢且部署成本极高;其次在很多实际场景中数据量不足的问题仍然制约着大模型在小样本场景中的应用,提高预训练模型在小样本场景的泛化性依然存在挑战。为了应对以上问题,PAI 团队推出了 EasyNLP 中文 NLP 算法框架,助力大模型快速且高效的落地。
其github地址为:
OpenBMB
OpenBMB全称为Open Lab for Big Model Base,旨在打造大规模预训练语言模型库与相关工具,加速百亿级以上大模型的训练、微调与推理,降低大模型使用门槛,与国内外开发者共同努力形成大模型开源社区,推动大模型生态发展,实现大模型的标准化、普及化和实用化,让大模型飞入千家万户。
OpenBMB将努力建设大模型开源社区,团结广大开发者不断完善大模型从训练、微调、推理到应用的全流程配套工具。基于贡献者团队前期工作,OpenBMB设计了大模型全流程研发框架,并初步开发了相关工具,这些工具各司其职、相互协作,共同实现大模型从训练、微调到推理的全流程高效计算。
其github地址为: huggingface地址为:
CPM - Tsinghua AI
CPM (Chinese Pre-trained Language Model,中文预训练语言模型)是一个基于transformer的自回归语言模型,拥有26亿个参数和100GB中文训练数据。据我们所知,CPM是最大的中文预训练语言模型,它可以促进汉语NLP的下游任务,如对话、论文生成、完形填空和语言理解。
其github地址为:
huggingface地址为:
澜舟科技开源模型
澜舟科技是一家认知智能公司,针对商业场景数字化转型、以自然语言处理为基础提供商业洞见类产品。 主要产品包括基于预训练模型的功能引擎(包括搜索、生成、翻译、对话等)和针对垂直行业场景的 SaaS 产品。
其中比较有名的有:孟子模型。 huggingface地址为:
参考文献
哈尔滨工业大学智能技术与自然语言处理研究室:https://baike.baidu.com/item/哈尔滨工业大学智能技术与自然语言处理研究室/4752297
“封神榜”大模型开源计划 https://www.idea.edu.cn/fengshenbang-lm.html
复旦大学自然语言处理实验室 https://nlp.fudan.edu.cn/main.htm
本文素材来源于网络,若有侵权联系删除!
关键词:
下一篇:最后一页
- 广州科技活动周进入预热 明日正式启动300多场主题活动接踵而来
- 深化重点领域信用建设 广州正式出台新型监管机制实施方案
- 女童不慎掉入20米深井 18岁小姨三次下井成功营救
- 西安3个区域12月28日起每日开展全员核酸 官方提倡民众居家健身
- 浙江乐清一核酸检测结果异常人员 复采复检为阴性
- 浙江本轮疫情报告确诊病例490例 提倡“双节”非必要不出省
- 西安警方通报6起涉疫违法案件
- 西安新一轮核酸筛查日检测能力达160万管
- 西安市累计报告本土确诊病例811例
- 重庆曝光4起违反中央八项规定精神典型问题 警示党员干部清新过节
-
主播说联播丨“爆火”五一,整装待发!-环球热讯
五一假期“整装待发”,火车票已售出6005万张,旅游消费有望创新高。各地准备充分,推出各种优惠和文旅活动
-
仙琚制药(002332)4月25日主力资金净买入1250.26万元
截至2023年4月25日收盘,仙琚制药(002332)报收于14 0元,上涨0 86%,换手率1 47%,成交量14 4万手,成交额2 0亿元。
-
OpenAI 急于为“GPT”注册商标,美国专利局却不买账_世界速递
IT之家4月26日消息,OpenAI旗下大热的ChatGPT是一款基于“生成预训练变换器”(IT之家注:GenerativePre-traine
-
森萱医药:4月25日获融资买入4.40万元
同花顺数据中心显示,森萱医药4月25日获融资买入4 40万元,融资偿还5 38万元,当前融资余额163 17万元,占
-
天马股份04月25日获深股通增持267.43万股
04月25日,天马股份获深股通增持267 43万股,最新持股量为352 12万股,占公司A股总股本的0 18%。
-
天天热文:我国计划2030年首次撞击小行星,2045年前初步具备小行星轨道控制能力
中国深空探测实验室系统研究院院长陈琦介绍称,近地小行星撞击地球事件在宇宙的时间长河中并不罕见,6500万
-
最强星战游戏诞生!映众4080冰龙高帧畅玩
《星球大战》是同名电影衍生的一系列副产品,综合了历代星战的经典游戏。虽然各种版本的游戏各不相同,质量
-
天天观焦点:abb变频器原理视频(abb变频器原理)
1、ABB变频器的工作原理是通过将380V交流电压整流滤波成为平滑的510V直流电压,再通过逆变器件将510V直流电
-
猫艾滋治疗费用_猫艾滋 世界快讯
1、病情分析:FIV即猫类艾滋病,由此种病毒所感染而引发的疾病,这种病毒与引起人类AIDS的HIV病毒。2、在构
-
环球即时:新疆文旅部门全力迎战旅游旺季
针对“一床难求”、停车难等问题做好预案、提升能力;严厉打击不合理低价游、欺骗和强制购物;持续开展风险
X 关闭
【天天报资讯】【NLP相关】开源中文NLP大模型及项目集合
怎样注册淘宝店铺账号_怎样注册淘宝店铺-天天短讯
华润啤酒涨近4%领涨啤酒股 短期啤酒继续量价齐升 行业景气度仍有较强支撑 今日视点
微头条丨中国汉城汉宫景区表演节目时间_中国汉城
薪资专家:因打进次轮 约基奇将获得56万美元奖金?
X 关闭
焦点讯息:水发燃气董秘回复:根据《上海证券交易所股票上市规则》的规定
西安警方完成研考安保工作 共出动警力逾1.3万人次
得知西安疫情防控“升级” 男子夜骑共享单车回咸阳淳化
中国医生将任SIU主席背后:从追随者同行者到引领者
海南省通报政法队伍教育整顿成果