蒙特利尔大学llm怎么样

HuggingFace 上的顶级 LLM 模型表现优于 GPT 变体

您好,欢迎来到我的博客!今天我将与您分享一些您可以在 Hugging Face 上找到的比 GPT 更好的最佳 LLM 模型。如果您想知道LLM是什么,它们是大型语言模型,可以根据某些输入生成文本。他们接受了大量数据的训练,可以学习模仿不同风格、流派和领域的文本。它们也非常强大且用途广泛,因为它们可用于各种任务,例如文本摘要、问答、文本生成等。

但为什么它们比 GPT 更好呢? GPT 是由 OpenAI 开发的非常受欢迎且令人印象深刻的LLM。它有多个版本,例如 GPT-2、GPT-3 和 GPT-J,它们具有不同的尺寸和功能。然而,GPT 并不是唯一的LLM,不同的研究人员和组织创建的许多其他模型可以在某些方面与 GPT 相媲美甚至超越。在这篇博文中,我将向您介绍其中一些模型,并向您展示如何将它们与 Hugging Face 一起使用。

Hugging Face 是一个令人惊叹的平台,提供对超过 12 万个模型、2 万个数据集和 5 万个演示应用程序 (Spaces) 的访问,所有这些都是开源且公开的。您可以通过 Transformers 库轻松浏览、下载和使用这些模型,Transformers 库是一个 Python 库,提供了一种用户友好且有效的方法来使用 LLM。您还可以向 Hugging Face Hub 贡献自己的模型和数据集,并与社区中的其他用户和专家协作。

因此,言归正传,让我们来看看您可以在 Hugging Face 上找到的一些比 GPT 更好的最佳 LLM 模型。

Vigogne

Vigogne 是由 Bofeng Huang 及其蒙特利尔大学团队开发的LLM系列。它们基于 GPT 架构,但进行了一些修改和改进,使它们更加高效和强大。例如,他们使用一种名为 LORA 的新技术,它代表注意力的局部重新加权,以减少注意力机制的内存和计算成本。他们还使用一种称为 PEFT(位置编码微调)的技术,使模型的位置编码适应不同的任务和领域。

链接 — https://huggingface.co/bofenghuang/vigogne-7b-chat

Vigogne 型号有不同的尺寸和风格,参数范围从 7B 到 33B。他们可以为各种领域生成高质量的文本,例如聊天、指令和绽放。您可以在 Hugging Face Hub 上以“bofenghuang”用户名找到它们。例如,您可以尝试 vigogne-7b-chat 模型,它可以根据某些输入生成引人入胜且连贯的对话。以下是如何将其与转换器库一起使用的示例:

import torchfrom transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfigfrom vigogne.preprocess import generate_inference_chat_promptmodel_name_or_path = "bofenghuang/vigogne-7b-chat"tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, padding_side="right", use_fast=False)model = AutoModelForCausalLM.from_pretrained(model_name_or_path, torch_dtype=torch.float16, device_map="auto")user_query = "Expliquez la différence entre DoS et phishing."prompt = generate_inference_chat_prompt([[user_query, ""]], tokenizer=tokenizer)input_ids = tokenizer(prompt, return_tensors="pt")["input_ids"].to(model.device)input_length = input_ids.shape[1]generated_outputs = model.generate( input_ids=input_ids, generation_config=GenerationConfig( temperature=0.1, do_sample=True, repetition_penalty=1.0, max_new_tokens=512, ), return_dict_in_generate=True,)generated_tokens = generated_outputs.sequences[0, input_length:]generated_text = tokenizer.decode(generated_tokens, skip_special_tokens=True)print(generated_text)

JAIS

JAIS 是由 Core42 及其阿尔伯塔大学团队开发的另一个LLM系列。它们也基于 GPT 架构,但进行了一些增强和优化,使它们更加健壮和可扩展。例如,他们使用一种称为 GPTQ(GPT 量化)的技术,通过使用较低精度的算术来减少模型的大小和延迟。他们还使用一种称为 ACTORDER(代表激活排序)的技术,通过对激活函数重新排序来提高模型的并行性和吞吐量。

链接 — https://huggingface.co/core42/jais-13b

JAIS型号有不同的尺寸和版本,参数范围从13B到30B。它们可以为各种领域生成高质量的文本,例如 chat、bloom 和 jais。您可以在 Hugging Face Hub 上以 core42 用户名找到它们。例如,您可以尝试 jais-13b-chat-hf 模型,它可以根据一些输入生成幽默诙谐的对话。以下是如何将其与转换器库一起使用的示例:

# -*- coding: utf-8 -*-import torchfrom transformers import AutoTokenizer, AutoModelForCausalLMmodel_path = "inception-mbzuai/jais-13b"device = "cuda" if torch.cuda.is_available() else "cpu"tokenizer = AutoTokenizer.from_pretrained(model_path)model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)def get_response(text,tokenizer=tokenizer,model=model): input_ids = tokenizer(text, return_tensors="pt").input_ids inputs = input_ids.to(device) input_len = inputs.shape[-1] generate_ids = model.generate( inputs, top_p=0.9, temperature=0.3, max_length=200-input_len, min_length=input_len + 4, repetition_penalty=1.2, do_sample=True, ) response = tokenizer.batch_decode( generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True )[0] return responsetext= "عاصمة دولة الإمارات العربية المتحدة ه"print(get_response(text))text = "The capital of UAE is"print(get_response(text))

BERTIN

BERTIN 是一门独特的LLM,由 Manuel Romero 及其在 Platzi 的团队开发。它基于 GPT-J 架构,该架构是 EleutherAI 创建的 GPT-3 的变体。然而,BERTIN 不仅仅是 GPT-J 的复制品,而是一个在大型且多样化的西班牙语文本语料库上训练的新颖模型。它是第一个可以生成高质量西班牙语文本的LLM,还可以处理代码生成和其他任务。

链接 — https://huggingface.co/mrm8488/bertin-gpt-j-6B-ES-8bit

BERTIN有不同的尺寸和版本,参数范围从6B到12B。它可以为各种领域生成高质量的文本,例如聊天、alpaca 和 chivo。您可以在 Hugging Face Hub 上以用户名 mrm8488 找到它。例如,您可以尝试 bertin-gpt-j-6B-ES-8bit 模型,它可以根据某些输入生成流畅且连贯的西班牙语文本。以下是如何将其与转换器库一起使用的示例:

import transformersimport torchfrom Utils import GPTJBlock, GPTJForCausalLMdevice = "cuda" if torch.cuda.is_available() else "cpu"transformers.models.gptj.modeling_gptj.GPTJBlock = GPTJBlock # monkey-patch GPT-Jckpt = "mrm8488/bertin-gpt-j-6B-ES-8bit"tokenizer = transformers.AutoTokenizer.from_pretrained(ckpt)model = GPTJForCausalLM.from_pretrained(ckpt, pad_token_id=tokenizer.eos_token_id, low_cpu_mem_usage=True).to(device)prompt = tokenizer("El sentido de la vida es", return_tensors='pt')prompt = {key: value.to(device) for key, value in prompt.items()}out = model.generate(**prompt, max_length=64, do_sample=True)print(tokenizer.decode(out[0]))

Mistral

Mistral 是由 FPHam 及其剑桥大学团队开发的LLM系列。它们基于 GPT-2 架构,但进行了一些扩展和改进,使它们更具表现力和多样性。例如,他们使用一种名为 CLP(即对比语言预训练)的技术来增强模型捕捉自然语言不同方面的能力,例如风格、情感和主题。他们还使用一种称为 PEFT(位置编码微调)的技术,使模型的位置编码适应不同的任务和领域。

链接 — https://huggingface.co/mistralai/Mistral-7B-v0.1

Mistral 型号有不同的尺寸和版本,参数范围从 6B 到 7B。他们可以为各个领域生成高质量的文本,例如指导、问题和绽放。您可以在 Hugging Face Hub 上以 FPham 用户名找到它们。例如,您可以尝试 Mistra-7b-chat 模型,它可以根据某些输入生成相关且有趣的问题。以下是如何将其与转换器库一起使用的示例:

from transformers import AutoTokenizer, AutoModelForCausalLMtokenizer = AutoTokenizer.from_pretrained("openskyml/mistral-7b-chat")model = AutoModelForCausalLM.from_pretrained("openskyml/mistral-7b-chat")# encode the input textinput_ids = tokenizer.encode("The Eiffel Tower is a famous landmark in Paris.", return_tensors="pt")# generate the output textoutput_ids = model.generate(input_ids, max_length=50)# decode the output textoutput_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)print(output_text)

Igel

Igel 是一个独特的LLM,由 Phil Schmid 和他的 Hugging Face 团队开发。它基于 GPT-Neo 架构,该架构是 EleutherAI 创建的 GPT-3 的变体。然而,Igel 不仅仅是 GPT-Neo 的复制品,而是一个在大型且多样化的德语文本语料库上训练的新颖模型。它是第一个可以生成高质量德语文本的LLM,还可以处理代码生成和其他任务。

链接 — https://huggingface.co/philschmid/instruct-igel-001

Igel有不同的尺寸和版本,参数范围从2.7B到13B。它可以为各种领域生成高质量的文本,例如chat、alpaca和 igel。您可以在 Hugging Face Hub 上以用户名 philschmid 找到它。例如,您可以尝试 instruct-igel-001 模型,它可以根据某些输入生成流畅且连贯的德语文本。以下是如何将其与转换器库一起使用的示例:

from transformers import AutoTokenizer, AutoModelForCausalLMtokenizer = AutoTokenizer.from_pretrained("philschmid/instruct-igel-001")model = AutoModelForCausalLM.from_pretrained("philschmid/instruct-igel-001")# encode the input textinput_ids = tokenizer.encode("Wie macht man einen Kuchen?", return_tensors="pt")# generate the output textoutput_ids = model.generate(input_ids, max_length=50)# decode the output textoutput_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)print(output_text)

结论

这些是您可以在 Hugging Face 上找到的一些比 GPT 更好的最佳 LLM 模型。它们不仅令人印象深刻、功能强大,而且创新且多样化。它们可以为各种领域、语言和任务生成高质量的文本,并且还可以轻松地与 Transformer 库一起使用。您还可以在 Hugging Face Hub 上探索其他LLM模型,并发现可以满足您的需求和兴趣的新的、令人兴奋的模型。

声明:壹贝网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者wangteng@admin所有,原文出处。若您的权利被侵害,请联系 756005163@qq.com 删除。

本文链接:https://www.ebaa.cn/29327.html

(0)
上一篇 2024年7月24日
下一篇 2024年7月24日

相关推荐

  • 考研学什么专业好

    文/学个习 推荐考研专业,总是免不了“挨骂”。 因为,最近几年,每年考研人数都增长几十万人,再“冷门”的专业也会变得越来越“卷”。 随便列举几个曾经比较“冷门”,现在也很“卷”的专业。 比如,哲学类、会计学、金融类、心理学、新闻传播、翻译硕士等。 特别是新传,曾经真的很“冷”,但是,如今绝对属于比较难考的专业之一。 但是呢,还是看到有很多人在推荐这些专业,什…

    2024年6月4日
  • 美因茨大学(美因茨大学qs)

    距离高考越来越近,很多同学在备考高考之外,也开始计划高考之后的打算。在最近的咨询中,我们也接到了很多高三同学的提问。但是对于大多数高考生而言,选择德国最担心的问题就是德语。 相比之下,德国对于高考成绩的限制就要宽松得多。关于高考留德政策此前我们做过详细的介绍。感兴趣的同学可以参考我们此前的文章。 在最近接到的咨询中,很多同学想了解德国可以用英语读的本科专业有…

    2023年11月22日
  • 耶鲁大学村官事迹

    前言 2011年的一个夏夜,湖南衡山县贺家山村的土路上,一辆摩托车颠簸着停下,后座跳下一个穿衬衫西裤的年轻人,鞋面沾满泥点,手里紧攥着皱巴巴的村官聘书。 村民们远远打量着这个“外来户”——皮肤白净,戴金丝眼镜,说话带点“京腔”,怎么看都和破败的砖瓦房格格不入。 他叫秦玥飞,耶鲁大学政治学与经济学双学位毕业生,几天前,他还在纽约的毕业典礼上与教授们握手告别,如…

    2025年7月10日
  • 西交利物浦大学选修课

    苏州西浦开恋爱心理学选修课!老师还会教你如何防止被绿茶婊抢男友!100个听课名额20分钟就被抢光了! 小脸脸分分钟被虐,后悔自己毕业太早~ 虽然选修这样的课程,已经不要再考虑拿多少分了,但还是想问:老师~要谈场恋爱才能拿满分吗? 这是上课的老师!就算上的课没什么卵用,这福利也是够了啊!小鲜肉讲师其实自己也是一名大三的学生,学的专业是电气信息自动化。(小脸脸内…

    2025年4月9日
  • 韩国汉阳大学(韩国汉阳大学世界排名)

    包头恒鑫教育咨询分公司推荐汉阳大学。 汉阳大学的历史可追溯至1939年,是一所由实业家白南金连俊博士创办的综合大学,以理工科为基础,逐渐发展成为一所全面的大学。因此,该校理工科的实力在韩国备受认可。 在2011年之前,汉阳大学每年发表900篇SCI文章,人均0.75篇,鸽子被誉为汉阳的校鸟,象征着该校干净、高品质的品味,在寒冷的气候中也能生存。 汉阳大学的本…

    2023年11月21日
  • 纽约阿布扎比大学排名

    随着2026QS世界大学排名正式发布,全球高等教育格局迎来新一轮洗牌。在这场激烈的竞争中,国内多所中外合作办学院校凭借与QS前百高校的深度合作,成为高考后留学的热门选择。以下五所院校以独特的培养模式和资源优势,为学子铺就直通世界名校的黄金通道。 上海纽约大学:全英文浸润式教育的全球联动 作为华东师范大学与纽约大学(QS43)共建的独立法人高校,上海纽约大学实…

    2025年8月27日
  • 时装设计学校

    最近有很多同学私信说,学习服装设计专业,应该去美国还是英国?英美留学学习服装设计,选择哪所学校性价比才高??其实,对于绝大多数准备艺术留学的同学而言,申请结果如何往往是由选校决定的! 实不相瞒,选校没有任何捷径可走,一定要有绝对的耐心,还有专业人士进行指导。 为了帮助在服装设计留学方面有选校困难的朋友,我们整理了英美所有开设服装设计相关专业的院校,又帮大家选…

    2023年10月31日
  • 雅思考试报名费(雅思考试报名费多少2023年)

    雅思多少分过关,具体根据学生所申请的大学及专业对雅思分数的要求而定,如果考生申请的学校及专业要求较高,那么雅思成绩要求也就越高。 一般来讲,国外排名靠前的大学,雅思成绩就越高,例如,大家要申请像剑桥牛津英国G5大学,雅思最低分都要7.5分以上,而且单科不能低于7分。澳大利亚相比英国雅思要求要低一些,雅思一般要求6分,甚至有些学校5.5分都可以就读。 下面是2…

    2023年10月16日
  • 广东省华南理工职业技术学院

    华南理工大学(SCUT)的综合实力、优势专业、录取分数、就业情况、学费标准及考研率。 一、综合实力定位与层次 国家“双一流”A类高校:教育部直属“985工程”“211工程”重点建设高校,13个学科进入ESI全球前1‰(数量居全国第3),其中工程学、材料科学、化学、农业科学4个学科进入前1‰。 国际排名:2024软科世界大学学术排名全球第72位(国内第7),2…

    2025年8月21日
  • 杜兰大学logo

    1 普林斯顿大学 (私立,普林斯顿,1746年)↓ 2 哈佛大学 (私立,剑桥,1636年)↓ 3 哥伦比亚大学 (私立,纽约,1754年)↓ 3 麻省理工学院 (私立,剑桥,1861年)↓ 3 芝加哥大学 (私立,1890年)↓ 3 耶鲁大学 (私立,纽黑文,1701年)↓ 7 斯坦福大学 (私立,帕罗奥多,1885年)↓ 8 杜克大学 (…

    2025年3月6日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信