-
Notifications
You must be signed in to change notification settings - Fork 309
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
统一标准的敏感资料文库 #1596
Comments
音樂《無產階級文化大革命就是好!》有兩個版本,一個北京五月印刷版本是“誓把修根剷除掉”,另一個河南六月印刷版本是“勝利凱歌衝雲霄”。 |
戰地新歌(來源Google 微幕O$購買):https://mega.nz/folder/6DBmUS5B#4alObAceQi1scoDHAwcfxQ |
同意,揭批查材料亦需要整理 |
@ProletRevDicta @hubred-rev @Con-Rev 该仓库各整理同志注意,你们将图片集压缩成 pdf 的行为已经导致许多资料的原图片消失,建议重新检查相应文件 其他一些资料我在录入过程中也发现了这一情况 |
請將具體範圍列一下表,方便處理。 |
問題是出在文件重命名上出錯了,很快就可以恢復。 |
只是,之前那個按照圖片末尾號製作排序的代碼被我弄丟了,這導致整理上海第二武裝史料有些困難,現在只有按照遞增性排序的代碼,並且並不成熟。 |
|
並且批量生成pdf的代碼也弄丟了。 |
|
預計明天就能解決這個問題。 |
@hubred-rev 为什么要压缩并转成pdf? 我觉得可能降低OCR识别率 |
便於傳播。 |
OCR有馬賽克,不怕,OCR本身自己就有壓縮圖片的卷積(馬賽克)神經網絡。 |
人眼能看清的OCR都能看清,問題不大,最多只是我正在使用的OCR本身效果就不好引起的。 |
@hubred-rev 我测试过,不同压缩率的jpg对识别率有比较大的影响,目前OCR还没到那么先进的水平。 |
沒有控制分辨率、文件大小的變量,不成立。 |
我測試過了,錯字率已經很低了。 |
原始文件在GitHub的歷史記錄裡有備份,將來會在MEGA網盤上放出原始文件,這裡不存儲,避免過大引起GitHub官方不滿。 |
我使用的OCR接口不支持那麼大的圖片,請提供其他方案。 |
https://ai.baidu.com/tech/ocr/general?_=1665106230793 你可以親自試一試那麼大的圖片能否上傳進行OCR掃描。 |
我的顯卡驅動不支持CUDA,若想離線PaddleOCR掃描這些文件要推遲到明年才能完成了。 |
|
https://github.com/ProletRevDicta/Prolet/tree/96fbf76ef3de00aae26e035245ac84d48ee34db4 這裡可以獲取原文件,百毒OCR最高支持的文件大小是10MB(要求base64编码和urlencode后大小不超过10M),而其中有的文件已經到了5.2MB,此外就是測試最高只支持2MB。 |
一般1MB的png壓縮文件就已經超過了百毒OCR的接受範圍了。 |
(此处仅供功能展示,图片类型支持PNG、JPG、JPEG、BMP,大小不超过2M。该接口实际能力的图片格式及大小要求以接口文档为准) |
像我剛剛舉例的王洪文的文件,只能靠人工付費代打這樣的資本主義手工業來完成,其他的途徑是不行的,OCR效果實在太差。 |
未經壓縮的四人幫的N種黑材料我就算再用力放大文件,OCR使用最好的接口也不能掃描出正常的語句來,可見問題不是在於圖片是否經過壓縮,而是現在的OCR技術太過落後,落後到了極點。可見這裡大多數文件就算不壓縮也掃描不出來正常的語句。 |
如果真的是為了中國無產階級革命的話,為什麼要用各種複雜的互聯網CSS高度分工前後端的文件來代替直接Pull Request修改Prolet庫裡各種文件在自由軟件文件系統中的路徑和元數據上呢?HTML並不是完全自由的,因為HTML大量混合了JavaScript,HTML的標籤是對本庫的無力的歪曲割裂,HTML不適合全時代計算機的使用,使用Python自動去HTML化才是有建設性的工作,因而不適合老年人,我們都是互聯網懷疑主義者。 |
@hubred-rev 你可以从数据库中加工成你喜欢的格式,HTML只是便于在线阅读 |
數據庫整體表現得仍然是限制數據傳播的,因為mysql這一傳統互聯網軟件的使用,使得其和計算機有些格格不入。 |
我會逐步將資料庫的內容通過Python split、os等包直接而不是mysql這一繁體軟件合併入Prolet。 |
JavaScript的大量使用已經使得你們和自由軟件運動越走越遠了。 |
只掃描毛澤東主席建國後的全集內容,會使得你們背叛貢薩羅主席的持久人民戰爭理論的。 |
@hubred-rev 你将丢失的图片找回来没有 |
相應的PDF文件也已經製作好了。 |
不知為何,The Banned Thought對毛澤東全集也和你們的態度一樣差。 |
很快就可以把你们的内容全部下载下来了。 |
@hubred-rev 直接从数据库拿数据不是更好,为什么要多此一举从前端爬 |
mysql不在我的能力范围内,所以就从前端爬,反正花不了多少时间。 |
|
我擅长的是网络爬虫。 |
因為前端已經被整理得差不多了,數據有價值,其次就是我找不到mysql應該與哪裡連接,這裡沒有Sci-Hub的mysql那麼明顯。 |
壓卷之作(解析HTML和CSS及JSON到TXT):
|
文件名簡化:
|
考慮到貴資料庫很可能遭到特色打擊而導致消失,所以特意把所有前端文件總結為了“A 散装建国后《毛泽东全集》、中国持久人战、无产阶级文化大革命资料汇编 - 和谐历史档案馆编 2022.10.10版”以反哺Prolet用戶。(大小非常小)此外,一些文件你們的日期時間是有BUG的。 2106.5.18-卑贱者最聪明,高贵者最愚蠢 2106.6.6-为争取国家财政经济状况的基本好转而斗争--在中国共产党七届三中全会士的报告 2106.6.23-中国人民政治协商会议第一届全国委员会第二次会议闭幕词 11926.1.1-中国农民中各阶级的分析及其对于革命的态度 19419.4.2-给傅作义的复电 |
下一個月我將進行二次前端備份,如果那時你們的Repo.還能存活的話,祝你們好運,另外,資料庫和“公社”一詞有聯繫就表明會遭到法蘭西帝國主義和特色的猛烈進攻,主要是法蘭西帝國主義。 |
馬列毛主義,主要是毛主義。與文革期間北京的毛澤東主義不同的地方在於,文革期間北京的毛澤東主義主要是校園自由派。 |
所以文革期間的北京毛澤東主義文獻不具有指導國際共運的普適性。只有革命國際運動RIM和祕魯的貢薩羅主席的毛澤東主義才是具有普適性的毛澤東主義。原因是因為北京除了在詞彙上曇花一現過毛澤東主義,實在沒有提供更重要的內容如持久人民戰爭理論、共產黨的軍事化、三大法寶、社會主義政治經濟學等。 文革期間北京的毛澤東主義的要害是缺乏社會主義政治經濟學,而革命國際運動RIM和祕魯的貢薩羅主席的毛澤東主義恰好相反,可見文革期間北京的毛澤東主義主要是校園自由派。 |
應當嚴格區別當代國際共運的毛澤東主義和文革期間的毛澤東主義。 |
三、保卫群众路线,反击右派进攻 |
@hubred-rev 文件丢失 |
用duckduck go搜索体验并不好。请问有什么离线的搜索方法。 |
现在分散的资料收集工作/OCR工作可能无法避免重复劳动,第二,资料的二次汇编难以保证真实性,第三缺乏统一的版本管理,难以维护。我们已经使用一系列现代化工具解决这些问题,使得每一篇文稿可溯源、可验证。
https://banned-historical-archives.github.io
希望有更多志愿者参与进来
@ProletRevDicta 能帮忙置顶吗?
The text was updated successfully, but these errors were encountered: