We use cookies to enhance your browsing experience, serve personalized ads or content, and analyze our traffic. By clicking "Accept All", you consent to our use of cookies.
Customize Consent Preferences
We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.
The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ...
Always Active
Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.
No cookies to display.
Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.
No cookies to display.
Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.
No cookies to display.
Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.
No cookies to display.
Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.
{"role": "user", "content": "¿Cómo hago un pedido?"},
{"role": "assistant", "content": "Para hacer un pedido, selecciona los productos que desees, agrégales al carrito y sigue los pasos para completar el pago."}
]
},
{
"conversations": [
{"role": "user", "content": "¿Cuánto tarda en llegar mi pedido?"},
{"role": "assistant", "content": "El tiempo de entrega es de 3 a 5 días hábiles."}
]
},
{
"conversations": [
{"role": "user", "content": "¿Qué métodos de pago aceptan?"},
{"role": "assistant", "content": "Aceptamos tarjetas de crédito, PayPal y transferencia bancaria."}
]
},
{
"conversations": [
{"role": "user", "content": "¿Puedo cancelar mi pedido?"},
{"role": "assistant", "content": "Sí, puedes cancelar tu pedido dentro de las 24 horas después de realizarlo."}
]
},
{
"conversations": [
{"role": "user", "content": "¿Cómo puedo rastrear mi pedido?"},
{"role": "assistant", "content": "Recibirás un correo con el número de seguimiento una vez que se haya enviado tu pedido."}
]
}
]
# Convertir el ejemplo a un dataset
import pandas as pd
# Convertir la lista de conversaciones a un DataFrame
df = pd.DataFrame(training_data)
dataset = df.to_dict(orient='records')
from datasets import Dataset
formatted_dataset = Dataset.from_dict({
"conversations": [convo["conversations"]for convo in dataset]# Solo extraemos la lista de conversaciones
})
# Ejemplo de datos de entrenamiento
training_data = [
{
"conversations": [
{"role": "user", "content": "¿Cómo hago un pedido?"},
{"role": "assistant", "content": "Para hacer un pedido, selecciona los productos que desees, agrégales al carrito y sigue los pasos para completar el pago."}
]
},
{
"conversations": [
{"role": "user", "content": "¿Cuánto tarda en llegar mi pedido?"},
{"role": "assistant", "content": "El tiempo de entrega es de 3 a 5 días hábiles."}
]
},
{
"conversations": [
{"role": "user", "content": "¿Qué métodos de pago aceptan?"},
{"role": "assistant", "content": "Aceptamos tarjetas de crédito, PayPal y transferencia bancaria."}
]
},
{
"conversations": [
{"role": "user", "content": "¿Puedo cancelar mi pedido?"},
{"role": "assistant", "content": "Sí, puedes cancelar tu pedido dentro de las 24 horas después de realizarlo."}
]
},
{
"conversations": [
{"role": "user", "content": "¿Cómo puedo rastrear mi pedido?"},
{"role": "assistant", "content": "Recibirás un correo con el número de seguimiento una vez que se haya enviado tu pedido."}
]
}
]
# Convertir el ejemplo a un dataset
import pandas as pd
# Convertir la lista de conversaciones a un DataFrame
df = pd.DataFrame(training_data)
dataset = df.to_dict(orient='records')
from datasets import Dataset
formatted_dataset = Dataset.from_dict({
"conversations": [convo["conversations"] for convo in dataset] # Solo extraemos la lista de conversaciones
})
# Ejemplo de datos de entrenamiento
training_data = [
{
"conversations": [
{"role": "user", "content": "¿Cómo hago un pedido?"},
{"role": "assistant", "content": "Para hacer un pedido, selecciona los productos que desees, agrégales al carrito y sigue los pasos para completar el pago."}
]
},
{
"conversations": [
{"role": "user", "content": "¿Cuánto tarda en llegar mi pedido?"},
{"role": "assistant", "content": "El tiempo de entrega es de 3 a 5 días hábiles."}
]
},
{
"conversations": [
{"role": "user", "content": "¿Qué métodos de pago aceptan?"},
{"role": "assistant", "content": "Aceptamos tarjetas de crédito, PayPal y transferencia bancaria."}
]
},
{
"conversations": [
{"role": "user", "content": "¿Puedo cancelar mi pedido?"},
{"role": "assistant", "content": "Sí, puedes cancelar tu pedido dentro de las 24 horas después de realizarlo."}
]
},
{
"conversations": [
{"role": "user", "content": "¿Cómo puedo rastrear mi pedido?"},
{"role": "assistant", "content": "Recibirás un correo con el número de seguimiento una vez que se haya enviado tu pedido."}
]
}
]
# Convertir el ejemplo a un dataset
import pandas as pd
# Convertir la lista de conversaciones a un DataFrame
df = pd.DataFrame(training_data)
dataset = df.to_dict(orient='records')
from datasets import Dataset
formatted_dataset = Dataset.from_dict({
"conversations": [convo["conversations"] for convo in dataset] # Solo extraemos la lista de conversaciones
})
Con esta plantilla podemos ir completando nuestros datos de entrenamiento.
La transformamos a formato Hugging Face:
Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
from unsloth.chat_templates import standardize_sharegpt
print(formatted_dataset[:5]["conversations"])# Muestra las primeras 5 entradas del dataset
print(formatted_dataset[:5]["text"])#Muestra el formato text
from unsloth.chat_templates import get_chat_template
from transformers import AutoTokenizer
def formatting_prompts_func(examples):
texts = []
for convo in examples["conversations"]:
convo_text = ""
try:
for turn in convo:
role = turn["role"]
content = turn["content"]
# Crear el texto usando el formato deseado
text = f"<|{role}|>{content}<|endoftext|>"
convo_text += text + " "
texts.append(convo_text.strip())
except Exception as e:
print(f"Error procesando la conversación: {convo}, error: {e}")
return {"text": texts}
# Formatear el dataset
formatted_dataset = standardized_dataset.map(formatting_prompts_func, batched=True)
print(formatted_dataset)
print(formatted_dataset[:5]["conversations"]) # Muestra las primeras 5 entradas del dataset
print(formatted_dataset[:5]["text"]) #Muestra el formato text
from unsloth.chat_templates import get_chat_template
from transformers import AutoTokenizer
def formatting_prompts_func(examples):
texts = []
for convo in examples["conversations"]:
convo_text = ""
try:
for turn in convo:
role = turn["role"]
content = turn["content"]
# Crear el texto usando el formato deseado
text = f"<|{role}|>{content}<|endoftext|>"
convo_text += text + " "
texts.append(convo_text.strip())
except Exception as e:
print(f"Error procesando la conversación: {convo}, error: {e}")
return {"text": texts}
# Formatear el dataset
formatted_dataset = standardized_dataset.map(formatting_prompts_func, batched=True)
print(formatted_dataset)
print(formatted_dataset[:5]["conversations"]) # Muestra las primeras 5 entradas del dataset
print(formatted_dataset[:5]["text"]) #Muestra el formato text
Ahora aplicamos el entrenador:
Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
from trl import SFTTrainer
from transformers import TrainingArguments, DataCollatorForSeq2Seq
from unsloth import is_bfloat16_supported
# Configuración del entrenador
trainer = SFTTrainer(
model=model, # Asegúrate de que tienes tu modelo cargado
num_train_epochs=1, # Establece esto para el número de épocas que desees
learning_rate=2e-4,
fp16=not is_bfloat16_supported(),
bf16=is_bfloat16_supported(),
logging_steps=1,
optim="adamw_8bit",
weight_decay=0.01,
lr_scheduler_type="linear",
seed=3407,
output_dir="outputs",
),
)
from trl import SFTTrainer
from transformers import TrainingArguments, DataCollatorForSeq2Seq
from unsloth import is_bfloat16_supported
# Configuración del entrenador
trainer = SFTTrainer(
model=model, # Asegúrate de que tienes tu modelo cargado
tokenizer=tokenizer,
train_dataset=formatted_dataset, # Dataset formateado
dataset_text_field="text",
max_seq_length=512, # Ajusta esto según sea necesario
data_collator=DataCollatorForSeq2Seq(tokenizer=tokenizer),
dataset_num_proc=2,
packing=False,
args=TrainingArguments(
per_device_train_batch_size=2,
gradient_accumulation_steps=4,
warmup_steps=5,
num_train_epochs=1, # Establece esto para el número de épocas que desees
learning_rate=2e-4,
fp16=not is_bfloat16_supported(),
bf16=is_bfloat16_supported(),
logging_steps=1,
optim="adamw_8bit",
weight_decay=0.01,
lr_scheduler_type="linear",
seed=3407,
output_dir="outputs",
),
)
from trl import SFTTrainer
from transformers import TrainingArguments, DataCollatorForSeq2Seq
from unsloth import is_bfloat16_supported
# Configuración del entrenador
trainer = SFTTrainer(
model=model, # Asegúrate de que tienes tu modelo cargado
tokenizer=tokenizer,
train_dataset=formatted_dataset, # Dataset formateado
dataset_text_field="text",
max_seq_length=512, # Ajusta esto según sea necesario
data_collator=DataCollatorForSeq2Seq(tokenizer=tokenizer),
dataset_num_proc=2,
packing=False,
args=TrainingArguments(
per_device_train_batch_size=2,
gradient_accumulation_steps=4,
warmup_steps=5,
num_train_epochs=1, # Establece esto para el número de épocas que desees
learning_rate=2e-4,
fp16=not is_bfloat16_supported(),
bf16=is_bfloat16_supported(),
logging_steps=1,
optim="adamw_8bit",
weight_decay=0.01,
lr_scheduler_type="linear",
seed=3407,
output_dir="outputs",
),
)
Ajustamos el formato:
Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
from unsloth.chat_templates import train_on_responses_only
Con este fichero podemos transformar a distintos formatos:
Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
model.save_pretrained_gguf("model", tokenizer,)
model.save_pretrained_gguf("model", tokenizer,)
model.save_pretrained_gguf("model", tokenizer,)
Ahora arrancamos el servidor Ollama:
Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
import subprocess
subprocess.Popen(["ollama", "serve"])
import time
time.sleep(3)# Wait for a few seconds for Ollama to load!
import subprocess
subprocess.Popen(["ollama", "serve"])
import time
time.sleep(3) # Wait for a few seconds for Ollama to load!
import subprocess
subprocess.Popen(["ollama", "serve"])
import time
time.sleep(3) # Wait for a few seconds for Ollama to load!
Generar el archivo Modelfile:
Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
print(tokenizer._ollama_modelfile)
print(tokenizer._ollama_modelfile)
print(tokenizer._ollama_modelfile)
Ahora nos imprimirá el Modelfile, debemos modificar la ruta y copiar el contenido para guardarlo dentro de:
model/Modelfile
En mi caso queda así:
Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
FROM ./model/unsloth.Q8_0.gguf
TEMPLATE """{{ if .Messages }}
{{- if or .System .Tools }}<|start_header_id|>system<|end_header_id|>
{{- if .System }}
{{ .System }}
{{- end }}
{{- if .Tools }}
You are a helpful assistant with tool calling capabilities. When you receive a tool call response, use the output to format an answer to the orginal use question.
{{- end }}
{{- end }}<|eot_id|>
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1 }}
{{- if eq .Role "user" }}<|start_header_id|>user<|end_header_id|>
{{- if and $.Tools $last }}
Given the following functions, please respond with a JSON for a function call with its proper arguments that best answers the given prompt.
Respond in the format {"name": function name, "parameters": dictionary of argument name and its value}. Do not use variables.
{{ $.Tools }}
{{- end }}
{{ .Content }}<|eot_id|>{{ if $last }}<|start_header_id|>assistant<|end_header_id|>
{{ end }}
{{- else if eq .Role "assistant" }}<|start_header_id|>assistant<|end_header_id|>
{{- if .ToolCalls }}
{{- range .ToolCalls }}{"name": "{{ .Function.Name}}", "parameters": {{ .Function.Arguments }}}{{ end }}
{{- else }}
{{ .Content }}{{ if not $last }}<|eot_id|>{{ end }}
{{- end }}
{{- else if eq .Role "tool" }}<|start_header_id|>ipython<|end_header_id|>
{{ .Content }}<|eot_id|>{{ if $last }}<|start_header_id|>assistant<|end_header_id|>
{{ end }}
{{- end }}
{{- end }}
{{- else }}
{{- if .System }}<|start_header_id|>system<|end_header_id|>
{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>
{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>
{{ end }}{{ .Response }}{{ if .Response }}<|eot_id|>{{ end }}"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
PARAMETER stop "<|eom_id|>"
PARAMETER temperature 1.5
PARAMETER min_p 0.1
FROM ./model/unsloth.Q8_0.gguf
TEMPLATE """{{ if .Messages }}
{{- if or .System .Tools }}<|start_header_id|>system<|end_header_id|>
{{- if .System }}
{{ .System }}
{{- end }}
{{- if .Tools }}
You are a helpful assistant with tool calling capabilities. When you receive a tool call response, use the output to format an answer to the orginal use question.
{{- end }}
{{- end }}<|eot_id|>
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1 }}
{{- if eq .Role "user" }}<|start_header_id|>user<|end_header_id|>
{{- if and $.Tools $last }}
Given the following functions, please respond with a JSON for a function call with its proper arguments that best answers the given prompt.
Respond in the format {"name": function name, "parameters": dictionary of argument name and its value}. Do not use variables.
{{ $.Tools }}
{{- end }}
{{ .Content }}<|eot_id|>{{ if $last }}<|start_header_id|>assistant<|end_header_id|>
{{ end }}
{{- else if eq .Role "assistant" }}<|start_header_id|>assistant<|end_header_id|>
{{- if .ToolCalls }}
{{- range .ToolCalls }}{"name": "{{ .Function.Name }}", "parameters": {{ .Function.Arguments }}}{{ end }}
{{- else }}
{{ .Content }}{{ if not $last }}<|eot_id|>{{ end }}
{{- end }}
{{- else if eq .Role "tool" }}<|start_header_id|>ipython<|end_header_id|>
{{ .Content }}<|eot_id|>{{ if $last }}<|start_header_id|>assistant<|end_header_id|>
{{ end }}
{{- end }}
{{- end }}
{{- else }}
{{- if .System }}<|start_header_id|>system<|end_header_id|>
{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>
{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>
{{ end }}{{ .Response }}{{ if .Response }}<|eot_id|>{{ end }}"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
PARAMETER stop "<|eom_id|>"
PARAMETER temperature 1.5
PARAMETER min_p 0.1
FROM ./model/unsloth.Q8_0.gguf
TEMPLATE """{{ if .Messages }}
{{- if or .System .Tools }}<|start_header_id|>system<|end_header_id|>
{{- if .System }}
{{ .System }}
{{- end }}
{{- if .Tools }}
You are a helpful assistant with tool calling capabilities. When you receive a tool call response, use the output to format an answer to the orginal use question.
{{- end }}
{{- end }}<|eot_id|>
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1 }}
{{- if eq .Role "user" }}<|start_header_id|>user<|end_header_id|>
{{- if and $.Tools $last }}
Given the following functions, please respond with a JSON for a function call with its proper arguments that best answers the given prompt.
Respond in the format {"name": function name, "parameters": dictionary of argument name and its value}. Do not use variables.
{{ $.Tools }}
{{- end }}
{{ .Content }}<|eot_id|>{{ if $last }}<|start_header_id|>assistant<|end_header_id|>
{{ end }}
{{- else if eq .Role "assistant" }}<|start_header_id|>assistant<|end_header_id|>
{{- if .ToolCalls }}
{{- range .ToolCalls }}{"name": "{{ .Function.Name }}", "parameters": {{ .Function.Arguments }}}{{ end }}
{{- else }}
{{ .Content }}{{ if not $last }}<|eot_id|>{{ end }}
{{- end }}
{{- else if eq .Role "tool" }}<|start_header_id|>ipython<|end_header_id|>
{{ .Content }}<|eot_id|>{{ if $last }}<|start_header_id|>assistant<|end_header_id|>
{{ end }}
{{- end }}
{{- end }}
{{- else }}
{{- if .System }}<|start_header_id|>system<|end_header_id|>
{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>
{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>
{{ end }}{{ .Response }}{{ if .Response }}<|eot_id|>{{ end }}"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
PARAMETER stop "<|eom_id|>"
PARAMETER temperature 1.5
PARAMETER min_p 0.1
model.push_to_hub_gguf(
"hf/model", # Change hf to your username!
tokenizer,
quantization_method = ["q4_k_m", "q8_0", "q5_k_m",],
token = "",
)
model.push_to_hub_gguf(
"hf/model", # Change hf to your username!
tokenizer,
quantization_method = ["q4_k_m", "q8_0", "q5_k_m",],
token = "",
)
*En token debes especificar el token de Huggin Face
Una vez entrenado podemos guardarlo de la siguiente forma:
Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# Guardar el modelo entrenado y el tokenizer
output_dir = "./output_dir"# Directorio donde se guardará el modelo
trainer.save_model(output_dir)# Guarda el modelo
tokenizer.save_pretrained(output_dir)# Guarda el tokenizer
# También puedes guardar la configuración del modelo directamente
model.config.save_pretrained(output_dir)# Guarda la configuración del modelo
# Guardar el modelo entrenado y el tokenizer
output_dir = "./output_dir" # Directorio donde se guardará el modelo
trainer.save_model(output_dir) # Guarda el modelo
tokenizer.save_pretrained(output_dir) # Guarda el tokenizer
# También puedes guardar la configuración del modelo directamente
model.config.save_pretrained(output_dir) # Guarda la configuración del modelo
# Guardar el modelo entrenado y el tokenizer
output_dir = "./output_dir" # Directorio donde se guardará el modelo
trainer.save_model(output_dir) # Guarda el modelo
tokenizer.save_pretrained(output_dir) # Guarda el tokenizer
# También puedes guardar la configuración del modelo directamente
model.config.save_pretrained(output_dir) # Guarda la configuración del modelo
Descargar modelo creado:
Comprimimos el modelo:
Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
!zip -r nuevo_modelo.zip nuevo_modelo/
!zip -r nuevo_modelo.zip nuevo_modelo/
!zip -r nuevo_modelo.zip nuevo_modelo/
Lo descargamos:
Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
from google.colab import files
files.download('nuevo_modelo.zip')
from google.colab import files
files.download('nuevo_modelo.zip')
from google.colab import files
files.download('nuevo_modelo.zip')