Initial commit MKD fixes

2026-02-04 00:17:04 +05:00
commit de94ad707b
312 changed files with 138754 additions and 0 deletions
@@ -0,0 +1,33 @@
+Источники локального самоуправления
+Отчеты администрации городов и районов – для анализа ключевых проблем и задач.
+Протоколы совещаний, дорожные карты цифровизации.
+Публичные обращения граждан
+Обращения граждан на официальных сайтах (например, раздел "Обращения" на сайте правительства РБ).
+Форумы и соцсети (Vk, Telegram-каналы) – анализ наиболее популярных тем и проблем.
+Научные и исследовательские публикации
+Работы институтов и ВУЗов Башкортостана (БГУ, УГАТУ, БГПУ).
+Научные статьи о цифровизации госуправления.
+
+
+docker run -d --name openwebui -p 3000:3000 ghcr.io/open-webui/open-webui:main
+
+
+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
+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
+
+python test_diarization.py
+
+import torch.nn.functional as F
+
+# Функция для вычисления сходства голосов
+def compare_embeddings(embedding1, embedding2):
+    embedding1 = torch.tensor(embedding1.data).mean(dim=0)
+    embedding2 = torch.tensor(embedding2.data).mean(dim=0)
+    
+    # Используем косинусное сходство
+    similarity = F.cosine_similarity(embedding1.unsqueeze(0), embedding2.unsqueeze(0))
+    return similarity.item()
+
+ffmpeg -i dataset/Arsen.wav -ac 1 -ar 16000 dataset/Arsen1.wav
+ffmpeg -i dataset/Sany.wav -ac 1 -ar 16000 dataset/Sany1.wav
+
@@ -0,0 +1,12 @@
+from pyannote.audio import Pipeline
+
+# Загрузим модель
+pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization-3.1")
+
+# Запустим диаризацию на тестовом файле
+diarization = pipeline("test.mp3")
+
+# Выведем результат
+for segment, _, speaker in diarization.itertracks(yield_label=True):
+    print(f"{segment.start:.1f}s - {segment.end:.1f}s: {speaker}")
+
@@ -0,0 +1,33 @@
+Источники локального самоуправления
+Отчеты администрации городов и районов – для анализа ключевых проблем и задач.
+Протоколы совещаний, дорожные карты цифровизации.
+Публичные обращения граждан
+Обращения граждан на официальных сайтах (например, раздел "Обращения" на сайте правительства РБ).
+Форумы и соцсети (Vk, Telegram-каналы) – анализ наиболее популярных тем и проблем.
+Научные и исследовательские публикации
+Работы институтов и ВУЗов Башкортостана (БГУ, УГАТУ, БГПУ).
+Научные статьи о цифровизации госуправления.
+
+
+docker run -d --name openwebui -p 3000:3000 ghcr.io/open-webui/open-webui:main
+
+
+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
+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
+
+python test_diarization.py
+
+import torch.nn.functional as F
+
+# Функция для вычисления сходства голосов
+def compare_embeddings(embedding1, embedding2):
+    embedding1 = torch.tensor(embedding1.data).mean(dim=0)
+    embedding2 = torch.tensor(embedding2.data).mean(dim=0)
+    
+    # Используем косинусное сходство
+    similarity = F.cosine_similarity(embedding1.unsqueeze(0), embedding2.unsqueeze(0))
+    return similarity.item()
+
+ffmpeg -i dataset/Arsen.wav -ac 1 -ar 16000 dataset/Arsen1.wav
+ffmpeg -i dataset/Sany.wav -ac 1 -ar 16000 dataset/Sany1.wav
+
@@ -0,0 +1,12 @@
+from pyannote.audio import Pipeline
+
+# Загрузим модель
+pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization-3.1")
+
+# Запустим диаризацию на тестовом файле
+diarization = pipeline("test.mp3")
+
+# Выведем результат
+for segment, _, speaker in diarization.itertracks(yield_label=True):
+    print(f"{segment.start:.1f}s - {segment.end:.1f}s: {speaker}")
+
@@ -0,0 +1,12 @@
+from pyannote.audio import Pipeline
+
+# Загрузим модель
+pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization-3.1")
+
+# Запустим диаризацию на тестовом файле
+diarization = pipeline("test.mp3")
+
+# Выведем результат
+for segment, _, speaker in diarization.itertracks(yield_label=True):
+    print(f"{segment.start:.1f}s - {segment.end:.1f}s: {speaker}")
+
@@ -0,0 +1,33 @@
+Источники локального самоуправления
+Отчеты администрации городов и районов – для анализа ключевых проблем и задач.
+Протоколы совещаний, дорожные карты цифровизации.
+Публичные обращения граждан
+Обращения граждан на официальных сайтах (например, раздел "Обращения" на сайте правительства РБ).
+Форумы и соцсети (Vk, Telegram-каналы) – анализ наиболее популярных тем и проблем.
+Научные и исследовательские публикации
+Работы институтов и ВУЗов Башкортостана (БГУ, УГАТУ, БГПУ).
+Научные статьи о цифровизации госуправления.
+
+
+docker run -d --name openwebui -p 3000:3000 ghcr.io/open-webui/open-webui:main
+
+
+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
+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
+
+python test_diarization.py
+
+import torch.nn.functional as F
+
+# Функция для вычисления сходства голосов
+def compare_embeddings(embedding1, embedding2):
+    embedding1 = torch.tensor(embedding1.data).mean(dim=0)
+    embedding2 = torch.tensor(embedding2.data).mean(dim=0)
+    
+    # Используем косинусное сходство
+    similarity = F.cosine_similarity(embedding1.unsqueeze(0), embedding2.unsqueeze(0))
+    return similarity.item()
+
+ffmpeg -i dataset/Arsen.wav -ac 1 -ar 16000 dataset/Arsen1.wav
+ffmpeg -i dataset/Sany.wav -ac 1 -ar 16000 dataset/Sany1.wav
+
@@ -0,0 +1,33 @@
+Источники локального самоуправления
+Отчеты администрации городов и районов – для анализа ключевых проблем и задач.
+Протоколы совещаний, дорожные карты цифровизации.
+Публичные обращения граждан
+Обращения граждан на официальных сайтах (например, раздел "Обращения" на сайте правительства РБ).
+Форумы и соцсети (Vk, Telegram-каналы) – анализ наиболее популярных тем и проблем.
+Научные и исследовательские публикации
+Работы институтов и ВУЗов Башкортостана (БГУ, УГАТУ, БГПУ).
+Научные статьи о цифровизации госуправления.
+
+
+docker run -d --name openwebui -p 3000:3000 ghcr.io/open-webui/open-webui:main
+
+
+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
+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
+
+python test_diarization.py
+
+import torch.nn.functional as F
+
+# Функция для вычисления сходства голосов
+def compare_embeddings(embedding1, embedding2):
+    embedding1 = torch.tensor(embedding1.data).mean(dim=0)
+    embedding2 = torch.tensor(embedding2.data).mean(dim=0)
+    
+    # Используем косинусное сходство
+    similarity = F.cosine_similarity(embedding1.unsqueeze(0), embedding2.unsqueeze(0))
+    return similarity.item()
+
+ffmpeg -i dataset/Arsen.wav -ac 1 -ar 16000 dataset/Arsen1.wav
+ffmpeg -i dataset/Sany.wav -ac 1 -ar 16000 dataset/Sany1.wav
+