New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Jump to bottom

Fix csv reader encoding issue #53

Merged

moria97 merged 20 commits into feature from personal/ranxia/csv_reader

Jun 6, 2024

Collaborator

Ceceliachenen commented Jun 6, 2024

No description provided.

Ceceliachenen and others added 11 commits

June 4, 2024 17:56


          tabular reader

1a7499d


          tabular reader

56ae8e0


          tabular reader

d057c25


          tabular reader

4cd4176


          tabular reader

8929e29


          tabular reader

ad035f5


          Merge branch 'feature' into personal/ranxia/csv_reader

d5d893c


          Merge branch 'feature' into personal/ranxia/csv_reader

d9b7735


          Merge branch 'feature' into personal/ranxia/csv_reader

370ec32


          BugFix:add an encoding parameter

1290c87


          Merge remote-tracking branch 'origin/personal/ranxia/csv_reader' into…

7dc28aa

… personal/ranxia/csv_reader

Ceceliachenen requested review from wwxxzz and moria97

June 6, 2024 08:14

moria97 changed the title ~~Personal/ranxia/csv reader~~ Fix csv reader encoding issue

Ceceliachenen and others added 4 commits

June 6, 2024 16:41


          Merge branch 'feature' into personal/ranxia/csv_reader

01dadbb


          BugFix:add an encoding parameter

1121db3


          Merge remote-tracking branch 'origin/personal/ranxia/csv_reader' into…

007ef24

… personal/ranxia/csv_reader

# Conflicts:
#	poetry.lock


          BugFix:add an encoding parameter

cbfd04e

moria97 reviewed

View reviewed changes

src/pai_rag/modules/datareader/datareader_factory.py Outdated

                           ),
                           ".xlsx": PaiPandasExcelReader(
                               concat_rows=self.reader_config.get("concat_rows", False),
+                              pandas_config={
+                                  "encoding": self.reader_config.get("encoding", "GB18030")

Collaborator

moria97 Jun 6, 2024

使用GB18030加载utf8编码的中文文件会有问题吗？

Collaborator Author

Ceceliachenen Jun 6, 2024

是有可能会出问题的，虽然GB18030可以兼容Unicode，但编码机制不一样。最好是在前端页面透出可以让用户填encoding的地方。


          BugFix:add an encoding parameter

2ee0cbc

github-actions bot commented Jun 6, 2024 •

edited

Loading

☂️ Python Coverage

current status: ✅

Overall Coverage

Lines	Covered	Coverage	Threshold	Status
2664	1614	61%	50%	🟢

New Files

No new covered files...

Modified Files

File	Coverage	Status
src/pai_rag/integrations/readers/pai_csv_reader.py	74%	🟢
src/pai_rag/integrations/readers/pai_excel_reader.py	89%	🟢
TOTAL	82%	🟢

updated for commit: 3adcb39 by action🐍

moria97 reviewed

View reviewed changes

poetry.lock Show resolved Hide resolved


          BugFix: add row number to metadata

7438bff

moria97 reviewed

View reviewed changes

src/pai_rag/integrations/readers/pai_csv_reader.py Outdated

@@ @@ -82,7 +83,10 @@ def load_data( @@
                       if self._concat_rows:
                           return [Document(text="\n".join(text_list), metadata=metadata)]
                       else:
-                          return [Document(text=text, metadata=metadata) for text in text_list]
+                          return [
+                              Document(text=text, metadata={**metadata, **{"row_number": i}})

Collaborator

moria97 Jun 6, 2024

直接metadata["row_number"] = i ? 另外，这里是不是应该用i+1

moria97 reviewed

View reviewed changes

src/pai_rag/integrations/readers/pai_csv_reader.py

-                              df = pd.read_csv(f, **self._pandas_config)
+                              encoding = chardet.detect(f.read(100000))["encoding"]
+                              f.seek(0)
+                              if encoding.upper() in ["GB18030", "GBK"]:

Collaborator

moria97 Jun 6, 2024

GB2312可能也要放进来

moria97 reviewed

View reviewed changes

src/pai_rag/integrations/readers/pai_csv_reader.py Outdated

+                              try:
+                                  df = pd.read_csv(f, **self._pandas_config)
+                              except UnicodeDecodeError:
+                                  print(f"Error: The file {file} encoding could not be decoded.")

Collaborator

moria97 Jun 6, 2024

这里需要raise 这个exception

moria97 reviewed

View reviewed changes

src/pai_rag/integrations/readers/pai_csv_reader.py Outdated

+                              try:
+                                  df = pd.read_csv(file, **self._pandas_config)
+                              except UnicodeDecodeError:
+                                  print(f"Error: The file {file} encoding could not be decoded.")

Collaborator

moria97 Jun 6, 2024

这里也一样，加一行raise

moria97 reviewed

View reviewed changes

src/pai_rag/integrations/readers/pai_csv_reader.py Show resolved Hide resolved

moria97 and others added 2 commits

June 6, 2024 21:21


          Merge branch 'feature' into personal/ranxia/csv_reader

83dff00


          BugFix: add row number to metadata

999a7b4


          Merge remote-tracking branch 'origin/personal/ranxia/csv_reader' into…

3adcb39

… personal/ranxia/csv_reader

moria97 approved these changes

View reviewed changes

moria97 merged commit 2756bfb into feature

1 check passed

moria97 deleted the personal/ranxia/csv_reader branch

June 7, 2024 07:09

moria97 added a commit that referenced this pull request


          Fix csv reader encoding issue (#53)

10e2de2

* tabular reader

* tabular reader

* tabular reader

* tabular reader

* tabular reader

* tabular reader

* BugFix:add an encoding parameter

* BugFix:add an encoding parameter

* BugFix:add an encoding parameter

* BugFix:add an encoding parameter

* BugFix: add row number to metadata

* BugFix: add row number to metadata

---------

Co-authored-by: Yue Fei <[email protected]>

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet