蒙特利尔大学llm怎么样

HuggingFace 上的顶级 LLM 模型表现优于 GPT 变体

您好,欢迎来到我的博客!今天我将与您分享一些您可以在 Hugging Face 上找到的比 GPT 更好的最佳 LLM 模型。如果您想知道LLM是什么,它们是大型语言模型,可以根据某些输入生成文本。他们接受了大量数据的训练,可以学习模仿不同风格、流派和领域的文本。它们也非常强大且用途广泛,因为它们可用于各种任务,例如文本摘要、问答、文本生成等。

但为什么它们比 GPT 更好呢? GPT 是由 OpenAI 开发的非常受欢迎且令人印象深刻的LLM。它有多个版本,例如 GPT-2、GPT-3 和 GPT-J,它们具有不同的尺寸和功能。然而,GPT 并不是唯一的LLM,不同的研究人员和组织创建的许多其他模型可以在某些方面与 GPT 相媲美甚至超越。在这篇博文中,我将向您介绍其中一些模型,并向您展示如何将它们与 Hugging Face 一起使用。

Hugging Face 是一个令人惊叹的平台,提供对超过 12 万个模型、2 万个数据集和 5 万个演示应用程序 (Spaces) 的访问,所有这些都是开源且公开的。您可以通过 Transformers 库轻松浏览、下载和使用这些模型,Transformers 库是一个 Python 库,提供了一种用户友好且有效的方法来使用 LLM。您还可以向 Hugging Face Hub 贡献自己的模型和数据集,并与社区中的其他用户和专家协作。

因此,言归正传,让我们来看看您可以在 Hugging Face 上找到的一些比 GPT 更好的最佳 LLM 模型。

Vigogne

Vigogne 是由 Bofeng Huang 及其蒙特利尔大学团队开发的LLM系列。它们基于 GPT 架构,但进行了一些修改和改进,使它们更加高效和强大。例如,他们使用一种名为 LORA 的新技术,它代表注意力的局部重新加权,以减少注意力机制的内存和计算成本。他们还使用一种称为 PEFT(位置编码微调)的技术,使模型的位置编码适应不同的任务和领域。

链接 — https://huggingface.co/bofenghuang/vigogne-7b-chat

Vigogne 型号有不同的尺寸和风格,参数范围从 7B 到 33B。他们可以为各种领域生成高质量的文本,例如聊天、指令和绽放。您可以在 Hugging Face Hub 上以“bofenghuang”用户名找到它们。例如,您可以尝试 vigogne-7b-chat 模型,它可以根据某些输入生成引人入胜且连贯的对话。以下是如何将其与转换器库一起使用的示例:

import torchfrom transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfigfrom vigogne.preprocess import generate_inference_chat_promptmodel_name_or_path = "bofenghuang/vigogne-7b-chat"tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, padding_side="right", use_fast=False)model = AutoModelForCausalLM.from_pretrained(model_name_or_path, torch_dtype=torch.float16, device_map="auto")user_query = "Expliquez la différence entre DoS et phishing."prompt = generate_inference_chat_prompt([[user_query, ""]], tokenizer=tokenizer)input_ids = tokenizer(prompt, return_tensors="pt")["input_ids"].to(model.device)input_length = input_ids.shape[1]generated_outputs = model.generate( input_ids=input_ids, generation_config=GenerationConfig( temperature=0.1, do_sample=True, repetition_penalty=1.0, max_new_tokens=512, ), return_dict_in_generate=True,)generated_tokens = generated_outputs.sequences[0, input_length:]generated_text = tokenizer.decode(generated_tokens, skip_special_tokens=True)print(generated_text)

JAIS

JAIS 是由 Core42 及其阿尔伯塔大学团队开发的另一个LLM系列。它们也基于 GPT 架构,但进行了一些增强和优化,使它们更加健壮和可扩展。例如,他们使用一种称为 GPTQ(GPT 量化)的技术,通过使用较低精度的算术来减少模型的大小和延迟。他们还使用一种称为 ACTORDER(代表激活排序)的技术,通过对激活函数重新排序来提高模型的并行性和吞吐量。

链接 — https://huggingface.co/core42/jais-13b

JAIS型号有不同的尺寸和版本,参数范围从13B到30B。它们可以为各种领域生成高质量的文本,例如 chat、bloom 和 jais。您可以在 Hugging Face Hub 上以 core42 用户名找到它们。例如,您可以尝试 jais-13b-chat-hf 模型,它可以根据一些输入生成幽默诙谐的对话。以下是如何将其与转换器库一起使用的示例:

# -*- coding: utf-8 -*-import torchfrom transformers import AutoTokenizer, AutoModelForCausalLMmodel_path = "inception-mbzuai/jais-13b"device = "cuda" if torch.cuda.is_available() else "cpu"tokenizer = AutoTokenizer.from_pretrained(model_path)model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)def get_response(text,tokenizer=tokenizer,model=model): input_ids = tokenizer(text, return_tensors="pt").input_ids inputs = input_ids.to(device) input_len = inputs.shape[-1] generate_ids = model.generate( inputs, top_p=0.9, temperature=0.3, max_length=200-input_len, min_length=input_len + 4, repetition_penalty=1.2, do_sample=True, ) response = tokenizer.batch_decode( generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True )[0] return responsetext= "عاصمة دولة الإمارات العربية المتحدة ه"print(get_response(text))text = "The capital of UAE is"print(get_response(text))

BERTIN

BERTIN 是一门独特的LLM,由 Manuel Romero 及其在 Platzi 的团队开发。它基于 GPT-J 架构,该架构是 EleutherAI 创建的 GPT-3 的变体。然而,BERTIN 不仅仅是 GPT-J 的复制品,而是一个在大型且多样化的西班牙语文本语料库上训练的新颖模型。它是第一个可以生成高质量西班牙语文本的LLM,还可以处理代码生成和其他任务。

链接 — https://huggingface.co/mrm8488/bertin-gpt-j-6B-ES-8bit

BERTIN有不同的尺寸和版本,参数范围从6B到12B。它可以为各种领域生成高质量的文本,例如聊天、alpaca 和 chivo。您可以在 Hugging Face Hub 上以用户名 mrm8488 找到它。例如,您可以尝试 bertin-gpt-j-6B-ES-8bit 模型,它可以根据某些输入生成流畅且连贯的西班牙语文本。以下是如何将其与转换器库一起使用的示例:

import transformersimport torchfrom Utils import GPTJBlock, GPTJForCausalLMdevice = "cuda" if torch.cuda.is_available() else "cpu"transformers.models.gptj.modeling_gptj.GPTJBlock = GPTJBlock # monkey-patch GPT-Jckpt = "mrm8488/bertin-gpt-j-6B-ES-8bit"tokenizer = transformers.AutoTokenizer.from_pretrained(ckpt)model = GPTJForCausalLM.from_pretrained(ckpt, pad_token_id=tokenizer.eos_token_id, low_cpu_mem_usage=True).to(device)prompt = tokenizer("El sentido de la vida es", return_tensors='pt')prompt = {key: value.to(device) for key, value in prompt.items()}out = model.generate(**prompt, max_length=64, do_sample=True)print(tokenizer.decode(out[0]))

Mistral

Mistral 是由 FPHam 及其剑桥大学团队开发的LLM系列。它们基于 GPT-2 架构,但进行了一些扩展和改进,使它们更具表现力和多样性。例如,他们使用一种名为 CLP(即对比语言预训练)的技术来增强模型捕捉自然语言不同方面的能力,例如风格、情感和主题。他们还使用一种称为 PEFT(位置编码微调)的技术,使模型的位置编码适应不同的任务和领域。

链接 — https://huggingface.co/mistralai/Mistral-7B-v0.1

Mistral 型号有不同的尺寸和版本,参数范围从 6B 到 7B。他们可以为各个领域生成高质量的文本,例如指导、问题和绽放。您可以在 Hugging Face Hub 上以 FPham 用户名找到它们。例如,您可以尝试 Mistra-7b-chat 模型,它可以根据某些输入生成相关且有趣的问题。以下是如何将其与转换器库一起使用的示例:

from transformers import AutoTokenizer, AutoModelForCausalLMtokenizer = AutoTokenizer.from_pretrained("openskyml/mistral-7b-chat")model = AutoModelForCausalLM.from_pretrained("openskyml/mistral-7b-chat")# encode the input textinput_ids = tokenizer.encode("The Eiffel Tower is a famous landmark in Paris.", return_tensors="pt")# generate the output textoutput_ids = model.generate(input_ids, max_length=50)# decode the output textoutput_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)print(output_text)

Igel

Igel 是一个独特的LLM,由 Phil Schmid 和他的 Hugging Face 团队开发。它基于 GPT-Neo 架构,该架构是 EleutherAI 创建的 GPT-3 的变体。然而,Igel 不仅仅是 GPT-Neo 的复制品,而是一个在大型且多样化的德语文本语料库上训练的新颖模型。它是第一个可以生成高质量德语文本的LLM,还可以处理代码生成和其他任务。

链接 — https://huggingface.co/philschmid/instruct-igel-001

Igel有不同的尺寸和版本,参数范围从2.7B到13B。它可以为各种领域生成高质量的文本,例如chat、alpaca和 igel。您可以在 Hugging Face Hub 上以用户名 philschmid 找到它。例如,您可以尝试 instruct-igel-001 模型,它可以根据某些输入生成流畅且连贯的德语文本。以下是如何将其与转换器库一起使用的示例:

from transformers import AutoTokenizer, AutoModelForCausalLMtokenizer = AutoTokenizer.from_pretrained("philschmid/instruct-igel-001")model = AutoModelForCausalLM.from_pretrained("philschmid/instruct-igel-001")# encode the input textinput_ids = tokenizer.encode("Wie macht man einen Kuchen?", return_tensors="pt")# generate the output textoutput_ids = model.generate(input_ids, max_length=50)# decode the output textoutput_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)print(output_text)

结论

这些是您可以在 Hugging Face 上找到的一些比 GPT 更好的最佳 LLM 模型。它们不仅令人印象深刻、功能强大,而且创新且多样化。它们可以为各种领域、语言和任务生成高质量的文本,并且还可以轻松地与 Transformer 库一起使用。您还可以在 Hugging Face Hub 上探索其他LLM模型,并发现可以满足您的需求和兴趣的新的、令人兴奋的模型。

声明:壹贝网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者wangteng@admin所有,原文出处。若您的权利被侵害,请联系 756005163@qq.com 删除。

本文链接:https://www.ebaa.cn/29327.html

(0)
上一篇 2024年7月24日
下一篇 2024年7月24日

相关推荐

  • 进才中学国际部(进才中学国际部招生条件)

    7月中旬,北京中学官方公众号发布2023年“1+3”人才培养试验项目公告,正式开放报名通道,“朝阳三子”中每年招生最晚的北京中学终于行动了起来。 伴随政策调整,1+3全面结束了让家长痛恨的摇号政策,恢复选拔制,让更多优秀学生有了直升机会。对走国际方向的家庭而言,进入北中1+3国际理解方向,就能绕过中考、直升北京中学国际部。 在国际部招生热度走高、内卷加剧的情…

    2023年11月4日
  • 蒙纳士大学全球排名_蒙纳士大学全球排名第几

    近日,QS官网发布了最新版2024QS世界大学排名,QS今年对排名方法进行了有史以来最大化改善,引入了3项全新指标:可持续发展、就业成果和国际研究网络。作为参与院校最多、世界影响范围最广的排名之一,QS以其排名的专业性而闻名世界。因此,在QS世界大学排名中上榜的大学也被公认为是世界级名校。 哪些QS世界名校与我院合作呢,本期我们一起看看吧。 【澳洲蒙纳士大学…

    2024年3月18日
  • 日本留学好专业_日本留学好专业有哪些

    日本留学日语专业是一个很好的选择,特别是对于那些对日本语言和文化感兴趣的学生。在日本学习日语,不仅可以深入了解日本的语言和文化,还可以提高日语水平,为将来的职业发展打下坚实的基础。那么,选择日本留学,最热门的专业有哪些? 114留学网老师介绍到,除了日语专业,日本还有许多其他热门专业可供申请,包括但不限于: 1、工程技术类专业 日本在工程技术领域有着很高的声…

    2024年2月5日
  • 西密歇根大学国内认可度高吗_西密歇根大学怎么样

    密歇根大学安娜堡分校是申请去美国留学的热门学校,但是大多数去美国读研究生的同学都选择回国内就业发展,那么密歇根大学安娜堡分校国内认可度及密歇根大学安娜堡分校专业实力情况是同学很关心的话题,下面详细整理密歇根大学安娜堡分校学校实力情况供大家参考。 密歇根大学安娜堡分校国内认可度 密歇根大学是美国历史最悠久的学校之一,也是最顶尖的公立大学之一,而安娜堡分校,是密…

    2024年3月1日
  • 免费开放1000万字长文档功能!阿里通义千问对标Kimi

    3月22日,南都记者从阿里方面获悉,阿里通义千问大模型迎来重磅升级,将向所有人免费开放1000万字的长文档处理功能,成为全球文档处理容量第一的AI应用。 值得注意的是,近期,国内大模型独角兽公司月之暗面在宣布旗下产品Kimi取得突破、已支持200万字超长无损上下文后,市场火速形成了Kimi概念股,相关上市公司纷纷涨停。 免费开放、是Kimi的5倍 通义千问此…

    2024年3月23日
  • 全世界大学排名前100名

    9月27日,泰晤士高等教育发布了高等教育世界大学排名,该排名显示:两所中国大陆的高校——清华大学和北京大学——正在向泰晤士高等教育世界大学排名前十名迈进。 今年,中国大陆高校在全球排名呈整体上升趋势。清华大学和北京大学分别从去年的第16位上升至第12位,从第17位上升至第14位,这是自2016年以来两所高校排名的最高位置。 本届排名,中国大陆有两所大学进入前…

    2023年12月14日
  • 买!买!买!金条、金币、黄金ETF投资激增

    近日,世界黄金协会发布2024年一季度《全球黄金需求趋势报告》(简称《报告》)显示,一季度全球黄金需求总量(包含场外交易)同比增长3%至1238吨,是自2016年以来最强劲的一季度需求表现。 《报告》指出,2024年一季度,中国国内总体黄金需求达到了343吨,同比上升3%,超出十年均值25%有余。其中,金条金币成为支撑需求增长的主引擎,同比大增68%至110…

    2024年5月14日
  • 香港有哪些大学分数线

    香港中文大学2023年全国各省录取分数线及位次一览表(2024填报参考) 根据香港中文大学2023年各省招录数据可知!香港中文大学2023年在广东录取分数线:物理类665分、历史类638分,在江苏录取分数线:物理类658分、历史类633分,在安徽录取分数线:理科658分、文科623分。大学加油网汇总整理了香港中文大学2023录取分数线一览表,供2024年考生…

    2024年8月8日
  • 鞍山师范学院怎样

    今天,我们要谈的学校是,位于辽宁省鞍山市的鞍山师范学院,主题是以研究毕业生去向为切口,来看看现在的普通二本院校发展起来有多困难,师生们个人奋斗之路有多艰辛。 好了,我们一改过去的表达方式,单刀直入、一针见血,一开始就来看看鞍山师范学院2021届毕业生们都去哪了。还是那句老话,这是目前能够确定的最权威、最新的毕业生就业数据,最权威是因为这是以大规模组织的统计数…

    2024年8月1日
  • 乔治梅森大学硬件安全

    乔治梅森大学(George Mason University,简称GMU)是美国著名的一级国家级大学,也是近十年来在美国迅速崛起的一所主要的大学。学校正式成立于1972年,前身是弗吉尼亚大学的附属学院,独立后锐意拓展,在短短的40多年间就诞生了两位诺贝尔经济学奖获得者和三位普利策奖得主。 乔治梅森大学在诸多学术研究领域内享有世界级声誉,如法学、政治学、公共政…

    2024年8月30日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信