AngelPanizo commited on
Commit
edb1f83
·
verified ·
1 Parent(s): 2e1dbb5

Add BERTopic model

Browse files
README.md ADDED
@@ -0,0 +1,73 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ ---
3
+ tags:
4
+ - bertopic
5
+ library_name: bertopic
6
+ pipeline_tag: text-classification
7
+ ---
8
+
9
+ # MARTINI_enrich_BERTopic_MFKNews1
10
+
11
+ This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
12
+ BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
13
+
14
+ ## Usage
15
+
16
+ To use this model, please install BERTopic:
17
+
18
+ ```
19
+ pip install -U bertopic
20
+ ```
21
+
22
+ You can use the model as follows:
23
+
24
+ ```python
25
+ from bertopic import BERTopic
26
+ topic_model = BERTopic.load("AIDA-UPM/MARTINI_enrich_BERTopic_MFKNews1")
27
+
28
+ topic_model.get_topic_info()
29
+ ```
30
+
31
+ ## Topic overview
32
+
33
+ * Number of topics: 4
34
+ * Number of training documents: 539
35
+
36
+ <details>
37
+ <summary>Click here for an overview of all topics.</summary>
38
+
39
+ | Topic ID | Topic Keywords | Topic Frequency | Label |
40
+ |----------|----------------|-----------------|-------|
41
+ | -1 | bakanlıgı - cumhuriyet - mehmet - ataturk - azerbaycan | 33 | -1_bakanlıgı_cumhuriyet_mehmet_ataturk |
42
+ | 0 | harekatı - basbakanı - irak - bombalı - mersin | 400 | 0_harekatı_basbakanı_irak_bombalı |
43
+ | 1 | fiyatları - bankası - dolar - uygulanacagını - milyon | 63 | 1_fiyatları_bankası_dolar_uygulanacagını |
44
+ | 2 | partisi - sahsuvaroglu - patlatılmadıgı - diyarbakır - destekliyoruz | 43 | 2_partisi_sahsuvaroglu_patlatılmadıgı_diyarbakır |
45
+
46
+ </details>
47
+
48
+ ## Training hyperparameters
49
+
50
+ * calculate_probabilities: True
51
+ * language: None
52
+ * low_memory: False
53
+ * min_topic_size: 10
54
+ * n_gram_range: (1, 1)
55
+ * nr_topics: None
56
+ * seed_topic_list: None
57
+ * top_n_words: 10
58
+ * verbose: False
59
+ * zeroshot_min_similarity: 0.7
60
+ * zeroshot_topic_list: None
61
+
62
+ ## Framework versions
63
+
64
+ * Numpy: 1.26.4
65
+ * HDBSCAN: 0.8.40
66
+ * UMAP: 0.5.7
67
+ * Pandas: 2.2.3
68
+ * Scikit-Learn: 1.5.2
69
+ * Sentence-transformers: 3.3.1
70
+ * Transformers: 4.46.3
71
+ * Numba: 0.60.0
72
+ * Plotly: 5.24.1
73
+ * Python: 3.10.12
config.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "calculate_probabilities": true,
3
+ "language": null,
4
+ "low_memory": false,
5
+ "min_topic_size": 10,
6
+ "n_gram_range": [
7
+ 1,
8
+ 1
9
+ ],
10
+ "nr_topics": null,
11
+ "seed_topic_list": null,
12
+ "top_n_words": 10,
13
+ "verbose": false,
14
+ "zeroshot_min_similarity": 0.7,
15
+ "zeroshot_topic_list": null
16
+ }
ctfidf.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:502885ffb095f313aded8025742bb539f537dcedf5502489eae5e6b3ab6dd634
3
+ size 131876
ctfidf_config.json ADDED
The diff for this file is too large to render. See raw diff
 
topic_embeddings.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5014fbe1789769ac617bc1f7c2f2524ff02c3677921790243aedf9e398e112b1
3
+ size 16472
topics.json ADDED
@@ -0,0 +1,670 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "topic_representations": {
3
+ "-1": [
4
+ [
5
+ "bakanl\u0131g\u0131",
6
+ 0.5823419094085693
7
+ ],
8
+ [
9
+ "cumhuriyet",
10
+ 0.5822420716285706
11
+ ],
12
+ [
13
+ "mehmet",
14
+ 0.5580730438232422
15
+ ],
16
+ [
17
+ "ataturk",
18
+ 0.5575865507125854
19
+ ],
20
+ [
21
+ "azerbaycan",
22
+ 0.5131931304931641
23
+ ]
24
+ ],
25
+ "0": [
26
+ [
27
+ "harekat\u0131",
28
+ 0.5722572803497314
29
+ ],
30
+ [
31
+ "basbakan\u0131",
32
+ 0.544326663017273
33
+ ],
34
+ [
35
+ "irak",
36
+ 0.5215710401535034
37
+ ],
38
+ [
39
+ "bombal\u0131",
40
+ 0.5160574913024902
41
+ ],
42
+ [
43
+ "mersin",
44
+ 0.4996289610862732
45
+ ]
46
+ ],
47
+ "1": [
48
+ [
49
+ "fiyatlar\u0131",
50
+ 0.6421303749084473
51
+ ],
52
+ [
53
+ "bankas\u0131",
54
+ 0.5655068159103394
55
+ ],
56
+ [
57
+ "dolar",
58
+ 0.553450882434845
59
+ ],
60
+ [
61
+ "uygulanacag\u0131n\u0131",
62
+ 0.5381020903587341
63
+ ],
64
+ [
65
+ "milyon",
66
+ 0.5050221085548401
67
+ ]
68
+ ],
69
+ "2": [
70
+ [
71
+ "partisi",
72
+ 0.5679031014442444
73
+ ],
74
+ [
75
+ "sahsuvaroglu",
76
+ 0.5607845187187195
77
+ ],
78
+ [
79
+ "patlat\u0131lmad\u0131g\u0131",
80
+ 0.5512859225273132
81
+ ],
82
+ [
83
+ "diyarbak\u0131r",
84
+ 0.5466811656951904
85
+ ],
86
+ [
87
+ "destekliyoruz",
88
+ 0.5285084247589111
89
+ ]
90
+ ]
91
+ },
92
+ "topics": [
93
+ -1,
94
+ 0,
95
+ 0,
96
+ -1,
97
+ 0,
98
+ -1,
99
+ -1,
100
+ -1,
101
+ 1,
102
+ -1,
103
+ -1,
104
+ 0,
105
+ 0,
106
+ 0,
107
+ -1,
108
+ -1,
109
+ -1,
110
+ -1,
111
+ -1,
112
+ -1,
113
+ -1,
114
+ -1,
115
+ -1,
116
+ 0,
117
+ 2,
118
+ -1,
119
+ -1,
120
+ 0,
121
+ -1,
122
+ -1,
123
+ -1,
124
+ -1,
125
+ 0,
126
+ 0,
127
+ 2,
128
+ 2,
129
+ -1,
130
+ -1,
131
+ 0,
132
+ 0,
133
+ -1,
134
+ -1,
135
+ -1,
136
+ -1,
137
+ -1,
138
+ 0,
139
+ -1,
140
+ -1,
141
+ -1,
142
+ -1,
143
+ -1,
144
+ -1,
145
+ -1,
146
+ -1,
147
+ -1,
148
+ -1,
149
+ -1,
150
+ -1,
151
+ 0,
152
+ -1,
153
+ -1,
154
+ 0,
155
+ -1,
156
+ -1,
157
+ -1,
158
+ -1,
159
+ -1,
160
+ -1,
161
+ -1,
162
+ -1,
163
+ -1,
164
+ -1,
165
+ -1,
166
+ -1,
167
+ -1,
168
+ -1,
169
+ 0,
170
+ -1,
171
+ -1,
172
+ -1,
173
+ -1,
174
+ -1,
175
+ -1,
176
+ -1,
177
+ 2,
178
+ 0,
179
+ -1,
180
+ -1,
181
+ -1,
182
+ -1,
183
+ -1,
184
+ -1,
185
+ 0,
186
+ -1,
187
+ -1,
188
+ -1,
189
+ -1,
190
+ -1,
191
+ -1,
192
+ -1,
193
+ -1,
194
+ 2,
195
+ -1,
196
+ -1,
197
+ -1,
198
+ -1,
199
+ -1,
200
+ -1,
201
+ -1,
202
+ -1,
203
+ -1,
204
+ -1,
205
+ 0,
206
+ 1,
207
+ -1,
208
+ -1,
209
+ -1,
210
+ 1,
211
+ 2,
212
+ -1,
213
+ -1,
214
+ 1,
215
+ -1,
216
+ -1,
217
+ -1,
218
+ 1,
219
+ -1,
220
+ -1,
221
+ -1,
222
+ -1,
223
+ -1,
224
+ -1,
225
+ -1,
226
+ 0,
227
+ -1,
228
+ -1,
229
+ -1,
230
+ 1,
231
+ -1,
232
+ -1,
233
+ -1,
234
+ -1,
235
+ -1,
236
+ -1,
237
+ -1,
238
+ -1,
239
+ -1,
240
+ -1,
241
+ -1,
242
+ 2,
243
+ -1,
244
+ 1,
245
+ -1,
246
+ 0,
247
+ -1,
248
+ -1,
249
+ 1,
250
+ -1,
251
+ -1,
252
+ -1,
253
+ 1,
254
+ -1,
255
+ -1,
256
+ -1,
257
+ -1,
258
+ -1,
259
+ -1,
260
+ -1,
261
+ -1,
262
+ -1,
263
+ -1,
264
+ 0,
265
+ -1,
266
+ -1,
267
+ -1,
268
+ -1,
269
+ -1,
270
+ -1,
271
+ -1,
272
+ -1,
273
+ 0,
274
+ -1,
275
+ -1,
276
+ 0,
277
+ -1,
278
+ -1,
279
+ -1,
280
+ -1,
281
+ 1,
282
+ -1,
283
+ -1,
284
+ 1,
285
+ 1,
286
+ 0,
287
+ -1,
288
+ -1,
289
+ -1,
290
+ -1,
291
+ -1,
292
+ -1,
293
+ -1,
294
+ -1,
295
+ -1,
296
+ -1,
297
+ -1,
298
+ -1,
299
+ -1,
300
+ -1,
301
+ -1,
302
+ -1,
303
+ -1,
304
+ -1,
305
+ -1,
306
+ -1,
307
+ -1,
308
+ -1,
309
+ -1,
310
+ -1,
311
+ 2,
312
+ -1,
313
+ 0,
314
+ 2,
315
+ 2,
316
+ -1,
317
+ 2,
318
+ -1,
319
+ -1,
320
+ -1,
321
+ -1,
322
+ -1,
323
+ 1,
324
+ -1,
325
+ -1,
326
+ -1,
327
+ -1,
328
+ -1,
329
+ -1,
330
+ -1,
331
+ 1,
332
+ -1,
333
+ -1,
334
+ -1,
335
+ -1,
336
+ -1,
337
+ -1,
338
+ -1,
339
+ -1,
340
+ -1,
341
+ -1,
342
+ 1,
343
+ -1,
344
+ -1,
345
+ -1,
346
+ -1,
347
+ -1,
348
+ -1,
349
+ -1,
350
+ -1,
351
+ -1,
352
+ -1,
353
+ -1,
354
+ -1,
355
+ -1,
356
+ -1,
357
+ -1,
358
+ 1,
359
+ -1,
360
+ -1,
361
+ -1,
362
+ -1,
363
+ -1,
364
+ 2,
365
+ 0,
366
+ 2,
367
+ -1,
368
+ -1,
369
+ -1,
370
+ -1,
371
+ -1,
372
+ 2,
373
+ -1,
374
+ -1,
375
+ -1,
376
+ 0,
377
+ -1,
378
+ -1,
379
+ -1,
380
+ 0,
381
+ -1,
382
+ -1,
383
+ -1,
384
+ -1,
385
+ 0,
386
+ 1,
387
+ 0,
388
+ -1,
389
+ 1,
390
+ -1,
391
+ -1,
392
+ -1,
393
+ 2,
394
+ 1,
395
+ 0,
396
+ 0,
397
+ 2,
398
+ -1,
399
+ -1,
400
+ -1,
401
+ 0,
402
+ -1,
403
+ 0,
404
+ -1,
405
+ -1,
406
+ -1,
407
+ -1,
408
+ -1,
409
+ -1,
410
+ -1,
411
+ 0,
412
+ -1,
413
+ -1,
414
+ 0,
415
+ -1,
416
+ -1,
417
+ -1,
418
+ -1,
419
+ 0,
420
+ -1,
421
+ 0,
422
+ 0,
423
+ -1,
424
+ 0,
425
+ 0,
426
+ -1,
427
+ 2,
428
+ -1,
429
+ -1,
430
+ -1,
431
+ 0,
432
+ 0,
433
+ -1,
434
+ -1,
435
+ -1,
436
+ -1,
437
+ 0,
438
+ -1,
439
+ -1,
440
+ -1,
441
+ -1,
442
+ -1,
443
+ 2,
444
+ -1,
445
+ -1,
446
+ -1,
447
+ 2,
448
+ -1,
449
+ 0,
450
+ -1,
451
+ -1,
452
+ 0,
453
+ 0,
454
+ -1,
455
+ -1,
456
+ -1,
457
+ -1,
458
+ 2,
459
+ -1,
460
+ 1,
461
+ -1,
462
+ -1,
463
+ -1,
464
+ -1,
465
+ -1,
466
+ -1,
467
+ -1,
468
+ -1,
469
+ -1,
470
+ -1,
471
+ -1,
472
+ 1,
473
+ -1,
474
+ -1,
475
+ 2,
476
+ -1,
477
+ -1,
478
+ -1,
479
+ -1,
480
+ -1,
481
+ -1,
482
+ 2,
483
+ -1,
484
+ -1,
485
+ -1,
486
+ 1,
487
+ 1,
488
+ -1,
489
+ 1,
490
+ 1,
491
+ -1,
492
+ -1,
493
+ 0,
494
+ -1,
495
+ 0,
496
+ -1,
497
+ -1,
498
+ -1,
499
+ 2,
500
+ -1,
501
+ -1,
502
+ 1,
503
+ -1,
504
+ 0,
505
+ -1,
506
+ -1,
507
+ 0,
508
+ -1,
509
+ -1,
510
+ 1,
511
+ -1,
512
+ 1,
513
+ 1,
514
+ -1,
515
+ -1,
516
+ -1,
517
+ 1,
518
+ -1,
519
+ -1,
520
+ -1,
521
+ 2,
522
+ -1,
523
+ -1,
524
+ 1,
525
+ 0,
526
+ -1,
527
+ 2,
528
+ -1,
529
+ -1,
530
+ -1,
531
+ 1,
532
+ -1,
533
+ 0,
534
+ -1,
535
+ 1,
536
+ -1,
537
+ -1,
538
+ -1,
539
+ -1,
540
+ -1,
541
+ 1,
542
+ -1,
543
+ 0,
544
+ 1,
545
+ -1,
546
+ 1,
547
+ -1,
548
+ 2,
549
+ -1,
550
+ -1,
551
+ -1,
552
+ -1,
553
+ -1,
554
+ 0,
555
+ -1,
556
+ -1,
557
+ 0,
558
+ -1,
559
+ -1,
560
+ -1,
561
+ -1,
562
+ -1,
563
+ 0,
564
+ -1,
565
+ -1,
566
+ 2,
567
+ -1,
568
+ -1,
569
+ 2,
570
+ -1,
571
+ 2,
572
+ -1,
573
+ -1,
574
+ -1,
575
+ -1,
576
+ -1,
577
+ 2,
578
+ 1,
579
+ -1,
580
+ -1,
581
+ -1,
582
+ 1,
583
+ -1,
584
+ -1,
585
+ -1,
586
+ -1,
587
+ -1,
588
+ 2,
589
+ -1,
590
+ -1,
591
+ -1,
592
+ -1,
593
+ -1,
594
+ 1,
595
+ -1,
596
+ 0,
597
+ 0,
598
+ 0,
599
+ -1,
600
+ 1,
601
+ 0,
602
+ -1,
603
+ 1,
604
+ -1,
605
+ -1,
606
+ -1,
607
+ -1,
608
+ -1,
609
+ -1,
610
+ -1,
611
+ -1,
612
+ -1,
613
+ -1,
614
+ -1,
615
+ -1,
616
+ 2,
617
+ 0,
618
+ -1,
619
+ -1,
620
+ -1,
621
+ -1,
622
+ -1,
623
+ -1,
624
+ -1,
625
+ 2,
626
+ -1,
627
+ -1,
628
+ 1,
629
+ 1,
630
+ -1,
631
+ -1
632
+ ],
633
+ "topic_sizes": {
634
+ "-1": 400,
635
+ "0": 63,
636
+ "1": 43,
637
+ "2": 33
638
+ },
639
+ "topic_mapper": [
640
+ [
641
+ -1,
642
+ -1,
643
+ -1
644
+ ],
645
+ [
646
+ 0,
647
+ 0,
648
+ 1
649
+ ],
650
+ [
651
+ 1,
652
+ 1,
653
+ 0
654
+ ],
655
+ [
656
+ 2,
657
+ 2,
658
+ 2
659
+ ]
660
+ ],
661
+ "topic_labels": {
662
+ "-1": "-1_bakanl\u0131g\u0131_cumhuriyet_mehmet_ataturk",
663
+ "0": "0_harekat\u0131_basbakan\u0131_irak_bombal\u0131",
664
+ "1": "1_fiyatlar\u0131_bankas\u0131_dolar_uygulanacag\u0131n\u0131",
665
+ "2": "2_partisi_sahsuvaroglu_patlat\u0131lmad\u0131g\u0131_diyarbak\u0131r"
666
+ },
667
+ "custom_labels": null,
668
+ "_outliers": 1,
669
+ "topic_aspects": {}
670
+ }