-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathcd_evento.py
52 lines (45 loc) · 1.94 KB
/
cd_evento.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
# importacao de bibliotecas
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
import pandas as pd
import time
# criacao de funcao
def coletar_eventos():
"""
Função para coletar os eventos realizados no plenário da Câmara dos Deputados.
Exemplos de eventos: sessão deliberativa, sessão não deliberativa, sessão solene, sessão conjunta etc
"""
url_list = pd.read_csv("data/url_list.csv")
url_list = url_list['url'].tolist()
data_all = []
hora_all = []
local_all = []
atividade_all = []
link_all = []
indice_all = []
url_original = []
browser = webdriver.Chrome(ChromeDriverManager().install())
for url in range(0,len(url_list)):
browser.get(url_list[url])
eventos = browser.find_elements_by_xpath('//a[@class="g-agenda__nome"]')
data = browser.find_elements_by_xpath('//span[@class="g-agenda__data"]')
hora = browser.find_elements_by_xpath('//span[@class="g-agenda__hora"]')
local = browser.find_elements_by_xpath('//span[@class="g-agenda__categoria"]')
atividade = browser.find_elements_by_xpath('//a[@class="g-agenda__nome"]')
link = browser.find_elements_by_xpath('//a[@class="g-agenda__nome"]')
time.sleep(3)
for evento in range(0, len(eventos)):
data_all.append(data[evento].text)
print(data_all)
hora_all.append(hora[evento].text)
local_all.append(local[evento].text)
atividade_all.append(atividade[evento].text)
link_all.append(link[evento].get_attribute("href"))
indice_all.append(evento)
url_original.append(url_list[url])
#print(url_list[url])
dados_eventos = {'data': data_all, 'hora': hora_all, 'local': local_all, 'atividade': atividade_all, 'link': link_all, 'url_original': url_original}
urls_eventos_plenario = pd.DataFrame(dados_eventos)
browser.quit()
#print(urls_eventos_plenario)
urls_eventos_plenario.to_csv('data/urls_eventos_plenario.csv', encoding='utf-8', index = False)