Fernando Carneiro
commited on
Commit
•
5af2a4f
1
Parent(s):
24940da
README
Browse files
README.md
CHANGED
@@ -20,9 +20,8 @@ tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=
|
|
20 |
|
21 |
# INPUT TWEETS ALREADY NORMALIZED!
|
22 |
inputs = [
|
23 |
-
"Tem vídeo novo no canal do @USER :rosto_sorridente_com_olhos_de_coração: Passem por lá e confiram : HTTPURL",
|
24 |
-
"Que jogo ontem @USER :mãos_juntas:",
|
25 |
"Procuro um amor , que seja bom pra mim ... vou procurar , eu vou até o fim :nota_musical:",
|
|
|
26 |
"Demojizer para Python é :polegar_para_cima: e está disponível em HTTPURL"]
|
27 |
|
28 |
encoded_inputs = tokenizer(inputs, return_tensors="pt", padding=True)
|
@@ -32,6 +31,10 @@ with torch.no_grad():
|
|
32 |
|
33 |
# CLS Token of last hidden states. Shape: (number of input sentences, hidden sizeof the model)
|
34 |
last_hidden_states[0][:,0,:]
|
|
|
|
|
|
|
|
|
35 |
```
|
36 |
|
37 |
### Normalize raw input Tweets
|
@@ -58,7 +61,17 @@ tokenizer.demojizer = lambda x: demojize(x, language='pt')
|
|
58 |
'Que jogo ontem @USER :mãos_juntas:',
|
59 |
'Demojizer para Python é :polegar_para_cima: e está disponível em HTTPURL']
|
60 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
61 |
|
|
|
|
|
|
|
62 |
```
|
63 |
|
64 |
### Mask Filling with Pipeline
|
|
|
20 |
|
21 |
# INPUT TWEETS ALREADY NORMALIZED!
|
22 |
inputs = [
|
|
|
|
|
23 |
"Procuro um amor , que seja bom pra mim ... vou procurar , eu vou até o fim :nota_musical:",
|
24 |
+
"Que jogo ontem @USER :mãos_juntas:",
|
25 |
"Demojizer para Python é :polegar_para_cima: e está disponível em HTTPURL"]
|
26 |
|
27 |
encoded_inputs = tokenizer(inputs, return_tensors="pt", padding=True)
|
|
|
31 |
|
32 |
# CLS Token of last hidden states. Shape: (number of input sentences, hidden sizeof the model)
|
33 |
last_hidden_states[0][:,0,:]
|
34 |
+
|
35 |
+
tensor([[-0.1430, -0.1325, 0.1595, ..., -0.0802, -0.0153, -0.1358],
|
36 |
+
[-0.0108, 0.1415, 0.0695, ..., 0.1420, 0.1153, -0.0176],
|
37 |
+
[-0.1854, 0.1866, 0.3163, ..., -0.2117, 0.2123, -0.1907]])
|
38 |
```
|
39 |
|
40 |
### Normalize raw input Tweets
|
|
|
61 |
'Que jogo ontem @USER :mãos_juntas:',
|
62 |
'Demojizer para Python é :polegar_para_cima: e está disponível em HTTPURL']
|
63 |
|
64 |
+
encoded_inputs = tokenizer(inputs, return_tensors="pt", padding=True)
|
65 |
+
|
66 |
+
with torch.no_grad():
|
67 |
+
last_hidden_states = model(**encoded_inputs)
|
68 |
+
|
69 |
+
# CLS Token of last hidden states. Shape: (number of input sentences, hidden sizeof the model)
|
70 |
+
last_hidden_states[0][:,0,:]
|
71 |
|
72 |
+
tensor([[-0.1430, -0.1325, 0.1595, ..., -0.0802, -0.0153, -0.1358],
|
73 |
+
[-0.0108, 0.1415, 0.0695, ..., 0.1420, 0.1153, -0.0176],
|
74 |
+
[-0.1854, 0.1866, 0.3163, ..., -0.2117, 0.2123, -0.1907]])
|
75 |
```
|
76 |
|
77 |
### Mask Filling with Pipeline
|